市場動態 生活 觀察

中華電信借助NVIDIA GPU加速深度學習,讓中英雙語語音合成能更自然互動
未來目標為打造可聊天的本土化語音系統

如果曾撥打「123」致電中華電信24小時客服專線,應該都有體驗過全台首創聲音互動人工智慧(AI)客服,其藉由擬真的語音系統提供自助式客服,或是協助轉接專人客服,以解決進一步的需求。而這套系統背後採用的便是NVIDIA超大規模模型推論解決方案Triton推論伺服器,搭配旗下GPU加速深度學習系統,讓中華電信能以更高的效率完成語音模型訓練,進而建構高自然度的擬真語音互動體驗。

NVIDIA, 中華電信借助NVIDIA GPU加速深度學習,讓中英雙語語音合成能更自然互動<br><span style='color:#848482;font-size:16px;'>未來目標為打造可聊天的本土化語音系統</span>, mashdigi-科技、新品、趣聞、趨勢

更擬真的客服專線,原本需要長時間訓練建立

中華電信研究院前瞻科技研究所所長汪世昌表示:「目前中華電信自行研發的中英雙語語音合成技術,歷年來已應用於多個領域,除了用在24小時客服專線,更應用在166、167天氣預報、視障輔助等相關應用,以及中華電信旗下i寶貝智慧音箱、AI語意雲、智慧廣播助理等服務,同時也用於健保署、消防署的語音服務系統。」

在還沒有導入AI技術時,中華電信就已著手投入擬真數位語音技術研究,從早期藉由語音拼接進行合成,以及後續透過語音參數方式進行合成,到現在已經可以利用深度學習等AI技術,透過足夠時間長度規模的聲音資料,以及相應的文字內容,訓練合成高度自然的語音模型,唯獨整個訓練流程仍須花費較長時間。

以目前深度神經網路(Deep Neural Network;DNN)技術推動的語音合成效果,已經可以實現逼近真人語調般的自然表現,但是藉由自我迴歸模型(Autoregressive Model)生成詮釋聲音語調特徵的梅爾頻譜(Mel-Spectrogram),再透過人聲編碼器(Vocoder)合成語音內容的過程,往往需要處理大量資料數據,使得整體合成時間變得更長,因此與預期應用在實際服務上的流暢度表現將有所落差。

加上若要打造跨語言的語音系統,過去的作法是透過多種語音系統對應不同語言內容,但會導致不同語言內容以不同音色呈現,而造成使用體驗不一致,因此會透過同一人錄製多種語言的語音資料,藉此建立相同音調的語音系統。

不過,在此需求情況下,更代表需要花費更長時間進行訓練,才能順利建立出像是中華電信此次釋出的中英雙語語音合成模型,並順利應用在各類語音服務上。

而在採用NVIDIA旗下的技術資源後,中華電信將原本需要花費約7天才能完成訓練的語音模型,縮短至1天即可完成,不僅讓合成速度加快10倍,更讓訓練結果逼近真人語音,呈現更自然語調,大幅降低早期技術產生的明顯機器合成語感。

NVIDIA, 中華電信借助NVIDIA GPU加速深度學習,讓中英雙語語音合成能更自然互動<br><span style='color:#848482;font-size:16px;'>未來目標為打造可聊天的本土化語音系統</span>, mashdigi-科技、新品、趣聞、趨勢
▲模型訓練時間縮短,合成速度加快

借助NVIDIA技術大幅縮短訓練時間

汪世昌表示,將數位合成的語音系統用於客服,太重的機器合成語感會嚴重影響使用者的互動意願,尤其目前越來越多服務仰賴語音互動,自然的語感表現更容易吸引使用者互動。

不過,要打造自然語感的合成語音表現,自然需要龐大的資料量進行深度訓練,以過往訓練模式須花費更長時間完成,但是藉由導入NVIDIA超大規模模型推論解決方案Triton推論伺服器,並搭配TensorRT深度學習推論平台,以及透過GPU加速的cuDNN 函式庫等資源,同時,藉由NVIDIA Elite合作夥伴豐康科技協助導入NVIDIA的硬體設備,包括NVIDIA DGX-1超級電腦RTX A6000 GPU與多張NVIDIA T4 Tensor 核心 GPU等進行運算,即可讓原本需要花費多時才能完成的模型訓練,縮短至1天即可完成,更可在整個訓練過程中降低成本支出。

NVIDIA, 中華電信借助NVIDIA GPU加速深度學習,讓中英雙語語音合成能更自然互動<br><span style='color:#848482;font-size:16px;'>未來目標為打造可聊天的本土化語音系統</span>, mashdigi-科技、新品、趣聞、趨勢
▲NVIDIA Triton推論伺服器架構
NVIDIA, 中華電信借助NVIDIA GPU加速深度學習,讓中英雙語語音合成能更自然互動<br><span style='color:#848482;font-size:16px;'>未來目標為打造可聊天的本土化語音系統</span>, mashdigi-科技、新品、趣聞、趨勢
▲語音合成Triton推論工作流程

如此一來,即便語音模型需要重新訓練,或是加入不同參數等,都能在更短的時間內完成,藉此讓合成語音系統能更符合實際應用需求、同時也更自然,甚至反應速度更快。

擬真語調只是初期應用,未來計畫創造可聊天互動的AI對話系統

不僅侷限在中、英兩種語言,汪世昌進一步說明目前還有台語與客語,未來也會因應市場需求加入更多語言,以及語意理解與上下文銜接,讓數位語音系統可以結合AI對話助理,藉此實現更廣泛的代理服務應用模式,例如從當前的電話客服系統,進一步衍生能夠依照致電者需求自然應答的語音互動模式,讓餐廳等商家可以在無須增加人手的情況下,即可透過語音系統接下更多訂單或處理更多訂位需求。

NVIDIA, 中華電信借助NVIDIA GPU加速深度學習,讓中英雙語語音合成能更自然互動<br><span style='color:#848482;font-size:16px;'>未來目標為打造可聊天的本土化語音系統</span>, mashdigi-科技、新品、趣聞、趨勢
▲機器人客服情境

汪世昌認為,由AI對話助理提供大量資料彙整分析的知識問答服務,可將傳統客服人力應用在需要更準確解決問題的情況,例如直接由AI對話助理協助回答哪些方案適合消費者當前的使用需求,而在此基礎下可以直接提供精準的漫遊方案選購建議,而其他人員則可聚焦在技術問題處理,或是較複雜的客訴情況。

為了建立更有智慧的AI對話助理,需要更龐大的資料與知識問答進行訓練,並且透過更強的算力縮短整體訓練時間,因此未來中華電信也會持續與NVIDIA合作,並藉其解決方案創造更符合自然語調、精準正確的語音互動體驗。

免費開放中英雙語語音合成模型及語料庫,希望推動更多台灣在地化智慧語音發展

而此次對外免費開放的中英雙語語料庫,計畫於Q3前發布在NVIDIA DeepLearningExample 開源平台,主要是由一名女性專業錄音員錄製總長達4.5小時、總計2740段中英雙語內容,內容更以科技產品相關語句為主,成為亞洲地區第一個免費開放使用的中英雙語語料庫,藉此讓更多業者能夠打造符合台灣人使用的語音系統,同時推動更多以語音為互動的AI應用發展。

汪世昌進一步表示,主要考量目前市面上適合中英雙語使用的語言模型資料稀少,同時取得成本較高、取得管道也相對複雜,因此希望透過此次釋出的開放中英雙語語音合成模型及語料庫,催化台灣產學研界打造更好的語音合成應用,未來也期待能透過更多「廣結盟」合作,強化本土技術應用發展。

楊又肇 (Mash Yang)
mashdigi.com網站創辦人兼主筆,同時也是科技新聞業流浪漢。

發表迴響