Meta開源Omnilingual ASR語音基座模型，支援超過1600種語言、導入70億規模參數語音編碼器

Meta AI FAIR團隊稍早發表其在自動語音辨識 (ASR) 領域的最新重大成果：「Omnilingual ASR」。這是一套號稱能為超過1600種語言提供自動語音辨識能力的模型套件，其規模與品質均達業界新高。

Meta強調，此舉將透過一個通用的轉錄系統，解決ASR技術與資源過度集中在少數高資源語言的問題，讓高品質的語音轉文字技術能惠及代表性不足的語言社群，打破數位鴻溝。

導入70億規模參數wav2vec 2.0，同步開源模型與資料集

配合此次發表，Meta同步開源了一系列相關的關鍵資產 (均在Apache 2.0許可下發布)，包含：

• Omnilingual ASR模型家族： 提供多種尺寸，從專為低功耗裝置設計的3億組參數的輕量級版本，到提供頂級精度的70億組參數模型。

• Omnilingual wav2vec 2.0 基礎模型： 一個擴展至70億組參數的大規模多語言語音表徵模型 (Speech Representation Model)，可作為ASR之外其他語音任務的基座。

• Omnilingual ASR Corpus (語料庫)： 一個大型資料集 (CC-BY 許可)，包含了350種服務欠缺 (under-served) 語言的轉錄語音。

LLM-ASR架構達成最先進模型，78%語言錯誤率低於10%

為解決ASR擴展的技術瓶頸，Omnilingual ASR引入了兩種架構。首先，團隊將其wav2vec 2.0語音編碼器 (encoder) 首次擴展至70億組參數，從大量未轉錄的語音中生成豐富的多語言語義表徵。

接著，團隊建構了兩種解碼器 (decoder) 變體：一種是傳統的CTC (連接時序分類Connectionist Temporal Classification)；另一種則是利用了 Transformer解碼器，稱為「LLM-ASR」。

根據Meta公布研究論文，採用LLM-ASR方法的70億組參數系統，在超過1600種語言上達到了最先進模型效能 (SOTA,State-of-the-Art)，其中78%的語言其字符錯誤率 (CER) 低於10%。

導入「自帶語言」(Bring Your Own Language) 概念

此次Omnilingual ASR最大的突破之一，在於改變了新增語言的傳統範式 (paradigm)，引入了「自帶語言」 (Bring Your Own Language)的概念。這得益於其受LLM啟發的系統，導入了強大的「上下文學習能力」 (in-context learning)。

實務上，這意味著使用一種目前不被支援語言的用戶，僅需提供少數幾個成對的音訊-文本樣本 (audio-text samples)，AI 就能透過這些上下文範例，獲得可用的轉錄品質，而無需進行大規模的模型微調 (fine-tuning)、專業知識或高階運算資源。此舉被視為能讓「社群驅動」 (community-driven) 的語言擴展成為可能。