去年Google DeepMind團隊利用貼近人腦思考模式打造名為WaveNet的人工智慧系統,並且推出第一代合成語音模型Tacotron,稍早更宣布推出第二代版本Tacotron 2,能以更簡單方式訓練系統自動產生貼近自然的合成語音。
Google Brain團隊說明,Tacotron 2的特性在於結合WaveNet自動生成語音內容,並且藉由Tacotron學習語調、音律合成貼近自然人聲的說話內容,讓系統能直接透過文字與資料自動生成電腦合成語音,無需事先準備龐大的語言相關數據。
不過,雖然能以相對簡單方式生成模擬語音內容,但對於不同語言所使用文字可能仍有發音問題,例如在並非美式英語的特殊詞彙便會產生奇怪發音結果。
除此之外,即便目前已經可以藉由深度學習等人工智慧技術讓合成語音更貼近自然人聲,但現階段仍無法讓系統自動藉由聲調變化詮釋語音中所應涵蓋「情緒」,例如緊張或興奮所反應的音頻、語調等變化。
但以Tacotron 2更容易建立合成語音內容優勢來看,未來將更有利於製作各類語言的語音資料,藉此讓電腦系統更能因此學習人類口語內容所代表含意,藉此提昇人工智慧的人機互動表現。