說到遊戲裡的聲音,你會想到什麼?是那個永遠只會說「你好,我是 NPC」的死板配音,還是因為開發經費不足,導致滿山滿谷的對話全靠「字幕」撐場面?

在今年台北國際電玩展 (Taipei Game Show)的講台上,VoAI絕好聲創創辦人晁旭光直言:「現在的AI聲音,已經不是以前那種機械音了」。這不僅僅是技術的進步,更是一場關於「生產力」與「想像力」的解放。
當「配音」不再是「奢侈品」
晁旭光在演講一開場,便點出一個有趣的現象:在資訊爆炸的時代,人們的眼睛被各種短影音、訊息塞滿,「聽覺」反而成為填補碎片化時間的新戰場。從開車、做家事到通勤,耳朵有很多時間是空閒的。

但對於遊戲開發者或內容創作者來說,要產出高品質的聲音內容,成本往往高得嚇人。不僅聘請專業聲優要錢、租錄音室要錢、後期剪輯更是要錢,因此導致很多遊戲 (特別是獨立遊戲)被迫放棄語音,選擇只用文字呈現。
「如果今天有一個機器人,講話像真人,能用你的聲音、用老闆的聲音,甚至用網紅的聲音來說話,這件事就會變得有趣」。晁旭光強調,VoAI的核心技術就是讓AI配音不再只是聲音起伏變化單調的「Google小姐」,而是能有豐富情緒 (高興、尷尬、憤怒),甚至能模仿特定的角色性格 (例如年輕女生、小男生、說書人)。

晁旭光更指出,目前全球聲音資料雖然已經有中文,但主要還是以中國市場訓練內容居多,而台灣市場普遍更需要符合在地化的聲音資料,因此預期能符合在地市場需求的訓練內容將更有價值。

AI NOWCAST:你的LINE就是AI新聞台
除了單純的配音,VoAI也展示其另一項落地應用——AI NOWCAST。這是一個建立在LINE上的自動化新聞播報平台。
它的運作邏輯很簡單:抓取新聞文字、透過AI改寫成適合口語播報的文稿,並且生成語音內容,最後再推送給用戶聆聽,這背後其實展示AI包含「結構化、摘要化、再語音化」等資訊處理能力。

對於遊戲產業來說,這項技術的潛力不僅僅在於「播新聞」。如果將這套邏輯套用在遊戲內的「每日任務簡報」,或是「公會戰況更新」,玩家不用再盯著密密麻麻的公告,而是能直接「聽」到AI角色用生動語氣告訴你:「會長!昨晚我們的據點被偷襲了,損失慘重啊!」,這對沉浸感的提升絕對是相當巨大。
AI分身:不只會說話,還要有「臉」
此外,晁旭光在現場也展示VoAI的最新技術——AI影音分身。只要一張照片加上一段語音,AI就能讓照片裡的人「動起來」說話,甚至連嘴型都能對上。
這項技術對遊戲開發者來說,相較過往製作一個會動、會說話的NPC,必須透過3D建模、動作捕捉 (Mocap)、臉部表情綁定等流程,而每一個環節都需要花錢。但在AI技術加持之下,可能只需要一張2D美術圖,加上AI生成的語音,就能快速產出大量的劇情展演。
晁旭光更提出「量產化的影音內容」概念,透過AI Agent (AI代理),可以訓練AI來面對不同的受眾,自動生成成千上萬種不同的短影音。對於遊戲行銷來說,意味能以用極低成本測試海量的廣告素材,並且找到用戶轉換率最高的那一個。


未來也可能銜接更多市場機會
晁旭光表示,目前VoAI提供服務基本上區分SaaS (軟體即服務)與API取用兩種,並且主力建構在Google Cloud雲端平台,但也同時結合AWS、Azure,以及台灣在地雲端服務平台合作,藉此分散流量與系統運作風險。
而跟KKCompany以區塊鏈、AI技術打造的AI數位分身管理平台TheKeeper相比,晁旭光說明其實VoAI具備相似的技術,同時也有考慮結合演藝市場發展可能性,但現階段主要是與YouTuber、KOL等創作族群合作。

分析觀點:AI是創意的「放大器」,而非「替代品」
晁旭光強調:AI聲音技術正在填補遊戲開發中「想做但做不到」的那些遺憾。
很多時候,開發者不是不想做全語音,而是預算不允許;不是不想做動態展演,而是人力不足。生成式AI的出現,則讓這些「奢侈品」變成「標配」技術。
當然,目前AI聲音在情感細膩度上,可能還比不上頂尖的專業聲優。但在「量」與「速度」的優勢上,AI已經展現了絕對的能力。未來的遊戲開發流程可能會變成:核心劇情由真人聲優演繹,而海量的支線任務、隨機對話,甚至是動態生成的NPC互動,將是全權交由AI負責。
至於當聲音與影像的生成成本趨近於零,剩下的就只考驗遊戲開發者創意與說故事的能力了。


