Tag: Veo

Google推出Veo 3.1影像生成模型,強化圖像轉影片能力

Google推出Veo 3.1影像生成模型,強化圖像轉影片能力

Google宣布其AI影片生成模型Veo更新至3.1版本,標榜在遵循提示詞,以及將圖像轉為影片方面的表現更加出色。目前Veo 3.1已經可透過Google的Gemini API試用,並且已經整合進Google的Flow影片編輯工具內。 Veo 3.1技術升級 Veo 3.1建立在今年Google I/O大會上推出的Veo 3基礎上,根據Google官方說法,新模型在提示詞遵循方面的表現更佳,能更輕鬆地根據用戶上傳的圖像「素材」結合文字提示來創建影片。此外,Veo 3.1還新增可同時將圖像轉換為影片,並且生成音訊的功能,這是Veo 3所不具備的能力。 Flow編輯器功能增強 在Flow影片編輯器中,Veo 3.1支持名為「畫面到影片」的新功能,讓用戶能對生成的影片進行更精細的控制。使用者可以上傳起始畫面和結束畫面,然後由AI自動生成中間的影片內容。 雖然Adobe的Firefly也提供類似功能,但Flow的獨特之處在於能夠同時生成音訊,而這項音訊生成能力同樣適用於該編輯器的影片延伸和物件插入功能。 技術現狀與應用前景 從Google分享的樣本來看,透過Veo 3.1生成的影片仍帶有些許不真實感,而且效果會根據提示詞和主題而有很大差異。儘管在真實感方面可能還不及OpenAI的Sora 2,但Google試圖讓Veo對實際從事影片工作的專業人士更加實用,而非僅是社交媒體垃圾內容的來源。 隨著AI影片生成技術快速發展,各科技巨頭在此領域的競爭日益激烈,而Google透過持續更新Veo模型,展現了在創意工具市場保持競爭力的決心。

YouTube宣布多項創作者新工具,AI影片剪輯、語音旁白、自動生成歌曲一次到位

YouTube宣布多項創作者新工具,AI影片剪輯、語音旁白、自動生成歌曲一次到位

YouTube在針對創作者舉辦的發表活動中,正式揭曉一系列全新功能,其中多數都與AI應用密切相關,目標是讓內容製作變得更直覺、更快速,並且協助創作者提升影片表現與觀眾互動。 其中,新增可利用AI將素材自動剪輯成「初稿影片」的功能,不僅會自動挑選最佳畫面,更會加入轉場、音樂與語音旁白,讓創作者能在最短時間內製作一個可使用的影片素材,再進行細部調整即可直接上傳至YouTube。目前此功能正在進行測試,預計未來幾週內逐步開放。 另外,YouTube也將推出自動生成語音旁白功能,首波支援英文與印地語,預計整合在YouTube Create App及Shorts短影片製作介面,將在今年稍晚時候推出。更有趣的是,YouTube將提供一項可把影片中的口說對話轉換成「洗腦音樂」的工具,讓創作者更容易製作符合Shorts短影片節奏的內容,提升影片被分享與二次創作的機率。 YouTube也宣布,將擴展Veo 3在Shorts短影片的應用,讓使用者可以從簡單的文字提示生成更高品質短影片,並且可直接加上音效或音樂。此次更新更加入角色動畫與風格化特效,同時提升提示詞的匹配準確度,讓創作者能更輕鬆完成具個人風格的短片內容。 除了AI創作功能,YouTube Studio也將導入「對話式AI助理」功能,協助創作者快速取得流量來源、觀看數據等分析資訊,幫助最佳化頻道經營策略,目前此功能已開始陸續推出。 另一方面,YouTube也新增多項提升合作與互動的功能,包括最多可與四位其他創作者共同製作影片,並且在所有參與者頻道曝光,提升觸及與發現率。這項功能將於未來數週內全球上線。 YouTube同時也宣布創作者期待已久的A/B測試功能正式推出,可讓同一部影片設定三種不同標題進行測試,藉此觀察哪一版本帶來最佳點閱表現。 整體來看,YouTube此次更新明顯將AI作為核心推動力,從內容製作到數據分析皆可透過智慧工具加速完成,減輕創作者工作負擔,也讓更多人能嘗試用最少門檻進入影音創作領域。

Google Veo 3、OpenAI Sora、Runway、Pika、Firefly:誰是當前最強 AI 影片生成平台?

Google Veo 3、OpenAI Sora、Runway、Pika、Firefly:誰是當前最強 AI 影片生成平台?

自從Google、OpenAI、Adobe等科技業者紛紛投入AI影片生成領域後,短短半年內,市場上已經湧現Veo 3、Sora、Firefly、Runway Gen-3、Pika Labs等多款強勢產品,各自主打不同影像風格與應用場景。這次筆者針對Veo 3正式在台灣推出,比較這些主流平台的差異,看看哪一款AI影片生成工具適合什麼樣的使用需求。 畫質、語意理解、風格支援完整對比 平台 畫質表現 語意理解 動態連貫性 操作易用性 風格多樣性 功能特色 Google Veo 3 ★★★★★ ★★★★★ ★★★★☆ ★★★★★ ★★★★☆ Gemini 原生整合、支持中文指令、自然光影細膩 OpenAI Sora ★★★★★ ★★★★★ ★★★★★ ★★★★☆ ★★★★★ ...

Google Veo 3影片生成功能正式登台:用AI呈現如夢似幻的影像創作體驗

Google Veo 3影片生成功能正式登台:用AI呈現如夢似幻的影像創作體驗

繼今年在Google I/O 2023首次亮相後,Google在後續活動多次宣傳的AI影片生成工具Veo 3,終於正式在台灣等地區開放使用,讓創作者、影音玩家或一般使用者都能透過簡單指令,打造出如電影畫面般的高質感動態影像。 微距珍珠奶茶、夢幻光影,AI帶來的無限想像 根據Google團隊分享的示範影片,只需輸入「微距鏡頭下的珍珠奶茶,珍珠飄浮發光,環繞排列成『VEO 3』;手指輕觸,漣漪如夢」這樣的文字描述,Veo 3就能自動生成細膩且充滿藝術感的動態畫面,完整詮釋使用者的創意想像,且呈現質感極高的光影與細節效果。 相比先前推出的Veo 2,此次開放使用的Veo 3能生成更細膩、自然且正確的影片內容,同時也能產生相應聲音內容,因此強化更多影片生成實用性,讓使用者能藉由AI呈現各類想像創意。 台灣用戶即日起可使用,但需訂閱Google AI Pro 台灣用戶即日起透過Gemini應用程式內的Veo 3功能,但使用前仍需訂閱Google AI Pro服務。 為確保影片內容安全,Veo 3也經過大規模的安全測試與紅隊驗證,並且嚴格遵循Google的AI安全政策,防止生成不當或有害內容。此外,所有透過Veo 3製作的影片,均會加入可見的浮水印與隱形SynthID數位浮水印,標示影片為AI生成,保障內容透明度與創作責任。 未來將持續優化,推動AI影像創作普及化 Google表示,將持續透過「喜歡/不喜歡」回饋機制蒐集用戶意見,並且不斷調整Veo 3的生成品質與功能,未來還將拓展更多影像風格與互動特效,讓每一位使用者都能輕鬆用文字描述創作出專屬自己的視覺敘事,推動AI影片創作邁向更普及、多元的階段。

Google公布新版影片生成工具Veo 2、新版圖像生成工具Imagen 3,提供更多影像創作可能性

Google開始讓更多人能透過Gemini Advanced訂閱方案使用Veo 2影片生成工具

去年底公布,並且在日前公布其使用價格的影片生成工具Veo 2,稍早由Google宣布將透過Gemini Advanced訂閱方案提供更多人使用。 不過,對比透過Google Cloud服務向企業提供使用版本,透過Gemini Advanced訂閱方案提供版本僅能產生最長達8秒鐘、解析度僅為720P的影片,甚至只能產生16:9顯示比例格式,可能是為了避免更多使用者濫用此工具,並且產生非必要影響。 但基本上透過Gemini Advanced訂閱方案提供版本產生影片,依然可以上傳至YouTube等分享平台,或是下載為MP4格式檔案作為影片剪輯素材使用。 同時,Google目前也將Veo 2功能用於其實驗性質人工智慧服務Whisk,讓使用者能依照文字、圖片輸入,並且生成額外圖像內容後,即可透過Whisk進一步生成影片內容。

Google將文字轉音樂模型Lyria加入Vertex AI平台,加速更豐富的內容素材生成效率

Google將文字轉音樂模型Lyria加入Vertex AI平台,加速更豐富的內容素材生成效率

除了持續擴充Vertex AI人工智慧模型資源,Google更宣布將文字轉音樂模型Lyria以預覽版本形式透過Vertex AI平台提供使用,讓Vertex AI平台成為目前唯一可提供涵蓋影像、語音、視訊及音樂內容生成模型的管道。 Lyria可透過文字指令方式快速製作高解析度音質、可提供細節聲音差異,以及豐富曲風的音樂內容,可協助品牌業者快速製作用於產品行銷、發表活動,或是店內沉浸體驗的配樂,並且能依照品牌形象客製化細節,而對於創作者而言也能縮減影片、Podcast等內容製作時間,讓創作者能在短短幾分鐘內產生符合情境需求的音樂,同時無須擔心版權侵害問題。 另一方面,Google也更新去年底推出的Veo 2影片生成工具,加入更多編輯功能與鏡位控制選項,讓創作者能更精準調整影片內容呈現細節,進而快速產生所需影片內容,甚至可以針對影片細節進行調整,例如移除影片中某個人物,或是變更影片顯示比例等。 其他部分,則包含將文字轉圖像模型Imagen 3的內容生成功能升級,並且加入可重建圖像缺少或損壞細節,同時也提高物件移除後的影像品質。而用於生成音訊內容、支援超過35種語言的Chirp 3,目前則可即時自訂語音內容,透過輸入10秒長度音訊即可產生客製化語音,並且能將人工智慧生成語音融入既有真實語音,或是將對話內容轉錄為文字,即可標注區分不同說話者陳述內容。 而在此次更新,Google更標榜Vertex AI成為目前唯一可提供涵蓋影像、語音、視訊及音樂內容生成模型的管道,讓使用者能快速透過文字指令生成靜態影像,同時也能直覺產生影片內容與配樂,並且加上自訂旁白內容,藉此在短時間內製作一個可用於行銷的宣傳影片。 跟先前推出的人工智慧工具一樣,Google也強調此次推出的Lyria等功能也會加入SynthID數位浮水印、安全過濾機制,並且符合資料治理原則,同時也會針對使用者使用Google此類服務發生版權爭議,將會出面提供賠償等負責作法。 目前廣告公司Goodby, Silverstein & Partners與達利博物館已經利用Veo 2及Imagen 3,將西班牙超現實主義畫家薩爾瓦多達利 (Salvador Dalí)於1937年構思的電影劇本《馬背上的長頸鹿沙拉》 (Giraffes on Horseback Salad,或是The Surrealist Woman)化作真實。 包含歐萊雅集團 (L'Oréal S.A.)也透過Veo、Imagen製作其產品行銷素材,美國食品公司卡夫亨氏 ...

Google說明如何透過AI技術將1939年拍攝電影《綠野仙蹤》原汁原味地搬上巨型球狀劇院Sphere

Google說明如何透過AI技術將1939年拍攝電影《綠野仙蹤》原汁原味地搬上巨型球狀劇院Sphere

在Google NEXT'25大會活動開始的前一晚,Google說明其如何藉由Google Cloud服務、人工智慧技術,將1939年以膠卷拍攝的電影《綠野仙蹤》 (The Wizard of Oz)搬上位於拉斯維加斯的巨型球狀劇院Sphere。 ▲1939年拍攝電影《綠野仙蹤》將搬上位於拉斯維加斯的巨型球狀劇院Sphere 而要將1939年以膠卷拍攝、採4:3顯示比例規格且解析度比現今規格低上許多的電影,透過Sphere內部高達16K解析度OLED顯示螢幕,並且符合內部具沉浸感的弧形畫面呈現效果,背後顯然不是僅用人工智慧提高影像解析度那樣簡單。 ▲1939年以膠卷拍攝的電影《綠野仙蹤》如何以最合適形式在Sphere螢幕呈現,成為相當困難挑戰 此專案結合Google Cloud與Google DeepMind技術資源,同時也與Sphere Studios、加州軟體業者Magnopus,以及華納兄弟探索 (Warner Bros. Discovery)在內業者合作。 ▲結合Google Cloud與Google DeepMind技術資源,同時也與Sphere Studios、加州軟體業者Magnopus,以及華納兄弟探索 (Warner Bros. Discovery)在內業者合作 其中,為了維持更好觀看體驗,不能僅只是將畫面提升畫質,並且放大填滿整個螢幕範圍,這樣可能會導致觀看者會有過度的視覺壓迫感,因此最好的作法是利用人工智慧在原本畫面範圍生成更多內容,讓登場人物大小能更符合自然觀看感受。 ▲若只將畫面依照原本比例放大,將導致演出角色呈現視覺過於壓迫,因此必須重新調整整體畫面在Sphere螢幕呈現效果 ▲另外也加入更多聲光互動效果,讓使用者能有更沉浸感受 為了讓整體畫面呈現變得更自然、合適,Google也必須針對特定片段進行拍攝角度、角色位置等細節進行調整,以利在Sphere的巨型螢幕呈現最佳觀看畫面。例如膽小獅 (Cowardly Lion)首次登場時,鏡頭原本集中在稻草人 ...

Google公布新版影片生成工具Veo 2、新版圖像生成工具Imagen 3,提供更多影像創作可能性

Google公布新版影片生成工具Veo 2使用價格,每秒以50美分計費、每分鐘長度收取30美元

Google去年底揭曉的新版影片生成工具Veo 2,稍早對外公布實際使用費用,將以每秒為50美分價格計費,代表生成每分鐘長度影片將收取30美元費用,若生成長度達1小時的影片,則需收取1800美元。 而Google強調,Veo 2並非著重用於產生長時間影片內容,最主要目的是協助創作者填補影片空缺長度,或是以更經濟實惠方式產生影片內容,藉此讓影片創作更具彈性。 Veo 2主要提高生成結果更符合真實世界的物理作動,以及人類運動時的肢體表現,以及表情細微呈現,藉此增加生成影像的真實性。 此外,Veo 2也加入電影攝影特殊用語,例如可要求生成以低角度平移追蹤鏡位產生影片,或是依照使用者輸入18mm焦段鏡頭產生相應拍攝影像,甚至也能依照淺景深效果產生背景模糊、讓視覺焦點聚焦在人物的畫面。 目前Veo 2最高可生成4K解析度影片,長度最長可達2分鐘,幾乎是OpenAI提出Sora對應最高解析度的四倍,時間長度更超過6倍,另外也能確實遵循使用者所輸入指示,並且依照真實物理表現產生影片,更標榜能減少幻覺產生比例。

Google公布新版影片生成工具Veo 2、新版圖像生成工具Imagen 3,提供更多影像創作可能性

Google公布新版影片生成工具Veo 2、新版圖像生成工具Imagen 3,提供更多影像創作可能性

繼今年5月公布影片生成工具Veo之後,Google DeepMind稍早公布新版影片生成工具Veo 2,並且推出新版圖像生成工具Imagen 3,另外也推出新一波實驗計畫。 Veo 2主要提高生成結果更符合真實世界的物理作動,以及人類運動時的肢體表現,以及表情細微呈現,藉此增加生成影像的真實性。 此外,Veo 2也加入電影攝影特殊用語,例如可要求生成以低角度平移追蹤鏡位產生影片,或是依照使用者輸入18mm焦段鏡頭產生相應拍攝影像,甚至也能依照淺景深效果產生背景模糊、讓視覺焦點聚焦在人物的畫面。 目前Veo 2最高可生成4K解析度影片,長度最長可達2分鐘,幾乎是OpenAI提出Sora對應最高解析度的四倍,時間長度更超過6倍,另外也能確實遵循使用者所輸入指示,並且依照真實物理表現產生影片,更標榜能減少幻覺產生比例。 而此次同步推出的新版Imagen 3,則可生成更具構圖感、生成更明亮的影像,更可依照指示產生寫實、印象、抽象或動漫風格等的藝術風格,同時在細節與質感表現更為突出。 Google將從即日起透過Google Labs開放加入等候Veo 2存取權限,預計明年開始應用在YouTube Shorts短影片等服務,而新版Imagen 3則已經在超過100個國家地區佈署,並且透過Google Labs提供圖片生成工具ImageFX使用。 Google Labs也同步推出名為Whisk的新實驗工具,標榜能產生更具表達張力的圖片,其中整合Imagen 3與新版Gemini模型,可透過電腦視覺分析理解方式產生指令描述,並且由Imagen 3產生全新圖像,目前已經在美國境內提供使用。

Google一口氣推出諸多人工智慧模型應用,與年底將推出多款功能的OpenAI進一步對抗

Google一口氣推出諸多人工智慧模型應用,與年底將推出多款功能的OpenAI進一步對抗

或許是為了與OpenAI等新興人工智慧技術抗衡,Google稍早將其圖像生成模型Imagen 3向所有Vertex AI平台用戶開放使用,而可藉由文字生成影片內容的Veo也開始以個人預覽形式開放使用,甚至Google DeepMind也進一步推出可生成能透過滑鼠、鍵盤互動的3D場景,並且僅以單張圖像即可生成的人工智慧模型Genie 2,更以名為GenCast的人工智慧模型標榜能產生更精準的未來15天內氣候變化。 Imagen 3及Veo明顯是為了與OpenAI等人工智慧新創團隊競爭,並且以單一文字描述、圖像內容,即可生成靜態圖像或時間長度為1分鐘、1080p解析度規格的動態影片,同時也能納入電影拍攝運鏡,以及相關視覺呈現效果,讓生成影片可以更貼近專業內容。 在此之前,Veo主要先透過VideoFX App向部分創作者提供測試,未來也會將此功能整合進YouTube Shorts,而Imagen 3則會先透過Google實驗室提供使用。此次更新,則是讓Veo可透過Vertex AI平台以個人預覽形式提供使用,而Imagen 3則從下週開始向所有Vertex AI用戶提供。 其中,旅遊服務業者Agoda已經開始透過Veo、Gemini人工智慧與Imagen等人工智慧工具簡化宣傳影片廣告製作流程,而包含Veo、Imagen 3都會透過SynthID數位浮水印技術保護內容。 除了搶先OpenAI日前推出同樣可透過文字、靜態圖像生成長達1分鐘擬真影片的自動生成式人工智慧技術「Sora」一步,讓更多人可透過Veo創造生動影片,Google DeepMind團隊也進一步推出人工智慧模型Genie 2,標榜以以單張圖像即可生成3D場景,並且能透過滑鼠、鍵盤操作互動。 另外,此次推出的GenCast可預測未來15天內的氣候變化,並且標榜比市場上的模型分析預測更準確,同時本身是以DeepMind團隊去年提出的氣候預測模型GraphCast為架構基礎,透過自動生成方式讓準確度擴大,更強調此模型將對外開源提供使用。 至於在OpenAI方面,執行長Sam Altman確認將從12月5日起為算,維持12天連續公布新功能,其中預期也包含新版「Sora」人工智慧模型。

第 1 至 2 頁 1 2

Welcome Back!

Login to your account below

Retrieve your password

Please enter your username or email address to reset your password.