市場動態 生活 網路 觀察 頭條話題

Mozilla「同聲計畫」開始加入中文 目標建造最大聲音資料庫

2017年7月啟用,並且在今年6月初宣布開始收錄更多語言的Mozilla「同聲計畫 (Common Voice)」,今日由負責此項計畫的Mozilla開放創新部門數位策略師Michael Henretty,以及開放創新部門機器學習小組負責人Kelly Davis說明此項計畫發想緣由,以及當前推展成效。

-

之所以打造「同聲計畫」,Mozilla的想法其實是基於現行常見的數位助理服務,例如Google Assistant、微軟Cortana、亞馬遜Alexa或蘋果Siri,所有聲音數據均是由各個廠商自行蒐集,並且用於訓練或打造各類聲音相關應用服務,因此認為應該要能以開放、共享形式,用眾人力量打造任何人都可以自由取用的聲音資料庫。

由於過去要打造足以作為訓練的聲音資料庫,多半需要花費不少時間蒐集聲音,若還要進一步蒐集不同性別、年齡,甚至區分不同語調的話,基本上需要更大資源支撐,因此僅有Google、微軟、蘋果、亞馬遜等大型廠商才有辦法做到,對於資源相對不足的小規模新創團隊、個體戶開發者其實是相當大的挑戰。

因此為了讓更多以聲音為主的新創能順利誕生,Mozilla從2016年7月開始推行「同聲計畫」,初期先以蒐集英語系聲音資料為主,直到今年6月宣布開始蒐集英語系以外聲音,同時也從6月30日起加入蒐集台灣地區為主的繁體中文內容,至今已經累積蒐集全球112個國家地區、由2萬4千多人貢獻的聲音,總時間長度更達900小時以上,成為前全球第二大的開源語音資料庫,預期最快今年底前將能躍居最大規模。

就Mozilla說明,以聲音為主的互動,大致區分「聲音蒐集」、「將聲音轉換成文字或轉譯成其他語言文字」、「理解」,進而產生後續回應動作等流程,以「同聲計畫」現階段主要完成前面兩個步驟,主要透過各類裝置、管道蒐集聲音資訊,並且透過讓貢獻聲音的人念出特定文字,藉此標示聲音資料與文字內容的關聯性,方便讓取用這些資料的人可以更容易用於機器學習等訓練,讓電腦系統能更容易實現「聽聲轉文」的使用模式。

不過,由於目前仍處於聲音蒐集,以及將聲音轉換為文字階段,Michael Henretty表示現階段的資料收集仍無法明確標記錄製聲音的抑揚頓挫所涵蓋情緒,但會特別透過文字內容多少標記聲音可能涵蓋情緒場景。

而針對未能包含具體文字的語言,例如台語、客家語,或山地話,甚至印度古語等僅以口語相傳為主的語言,Michael Henretty則表示將會藉由會說這些沒有文字的語言,同時可以理解其他語言的人,依照中文或英文等字面意思用這些語言對應發聲內容,即可達成聲音記錄目的。

-

以目前「同聲計畫」發展進度,現階段已經累積蒐集15種語言,在6月底開始蒐集的中文聲音已經累積超過36小時的聲音長度,未來更計畫擴展蒐集超過60種聲音,同時未來各種語言更計畫累積蒐集超過1萬小時長度,其中包含菲士蘭語 (Frysian)、挪威語、楚瓦什語 (Chuvash)在內小眾語言,讓這些相對較少人使用的語言也能被應用在語音識別、翻譯,或是其他聲控相關應用服務。

-

從馬偕醫院針對聲音研究,透過錄製20-30小時長度,並且包含特定發音方式的聲音內容,基本上就能製作基礎聲音模型,而Mozilla計畫蒐集超過1萬小時以上長度聲音內容,預期將可讓聲音資料庫能用於更精準的訓練,或是其他以聲音為主的操作功能。

同時,為了避免聲音內容取用出現不必要的麻煩與阻礙,「同聲計畫」讓願意貢獻聲音的人所念特定語句,最主要是從向公眾發表、採CC 0方式授權使用內容,或是同樣採CC 0方式授權使用的維基百科內容節錄,而「同聲計畫」聲音內容也同樣採CC 0方式授權使用,意味取用這些資料的人不必特別向Mozilla告知,同時也不會有任何使用限制。

為了讓「同聲計畫」精進,Mozilla更與Mycroft、Snips.AI,以及位於英國威爾斯的班格爾大學合作,除了進一步蒐集聲音內容,並且合作相關技術之外,更進一步協助釐清不同地區發音、語調差異,藉此讓聲音內容能以更正確文字資訊標記,並且能深度應用在Mozilla旗下Project DeepSpeech深度語音辨識技術,使聲音識別可以更加精準。

目前「同聲計畫」主要還是以網頁作為主要聲音蒐集管道,並且透過社群力量協助判斷聲音錄製結果正確度,除了iOS平台因為使用政策等問題必須透過專屬App蒐集,其他諸如PC、Android裝置都是透過網頁瀏覽形式累積聲音內容,而Mozilla接下來也計畫透過更多方式吸引人貢獻聲音,協助讓「同聲計畫」可推動更多創新服務誕生。

-

楊又肇 (Mash Yang)
mashdigi.com網站創辦人兼主筆,同時也是科技新聞業流浪漢。

發表迴響