相較過往透過既有取樣資料合成音色,以及藉由特定音色資料模擬演算合適音調的人工語音製作方式,Google DeepMind團隊利用類神經網絡系統分析自然語調中高低起伏,以及發音模式,藉此打造更為自然的人工語音。
除了利用類神經網絡系統建構貼近人腦思考模式的人工智慧系統,Google DeepMind團隊更進一步利用相似模式打造名為WaveNet的人工智慧系統,將可具體分析自然發音時的嘴型變化、換氣時的音調變化,以及實際發音的高低起伏,進而建構全新自然語音音調。相比目前透過龐大數據資料庫建構,或是透過比對模擬演算而成的人工語音將更為自然,同時更能配合人工智慧系統運作發出自然語調。
與先前AlphaGo採用的類神經網絡系統相似,在WaveNet的系統設計同樣透過給予充分參考學習數據,系統就會自動比對演算,並且加入概略機率預測模型,藉此判斷不同巨型組合時的音調應如何呈現,進而形成最佳聲調。而根據DeepMind團隊說明,目前用於WaveNet人工智慧系統的技術,同樣可用於音樂內容分析創作,進而從現有音樂內容重新組合成全新曲調。
WaveNet建構模型:
目前WaveNet已經分別可在英文、中文等語言呈現更貼近真人音調,同時讓合成人工語音與真實語音差距縮短50%,目標自然希望讓呈現效果差距更小。
除應用在人工智慧系統發展,DeppMind團隊也開始將AlphaGo相關技術應用在眼疾分析,遊玩遊戲與數據中心省電等應用。