僅MP3約10分之1左右，Meta推出以人工智慧提高壓縮比例的聲音技術

Meta宣布推出以人工智慧提高壓縮比例的聲音技術，讓更多聲音檔案內容可以在低頻寬網路環境下順利傳輸，並且不影響其還原播放音質表現，同時也能避免在傳輸過程發生斷斷續續或聲音不清楚情況。

此項由FAIR (Fundamental AI Research)基礎人工智慧研究部門所展示的音訊壓縮技術，透過名為EnCodec的訓練模型，透過人工智慧技術將音訊檔案壓縮至指定比例。

其中，將透過編碼器將原始音訊資料轉換成較低播放率，並且透過量化器將資料進一步壓縮至指定大小，並且可透過解碼器還原播放。過程中會透過人工智慧方式識別更細微的音訊資料差異，並且藉由深度學習生成樣本作為音訊檔案解碼還原依據，進而可在播放時呈現極度貼近原始音質的聲音內容。

相較市場先前已經有不少類似技術應用打造的音訊檔案壓縮技術，Meta強調其技術可用於還原等同CD音質的48kHz立體聲音訊檔案，並且能在單核心架構CPU上進行即時編碼與解碼，意味將能在多數裝置上使用，而其壓縮後的音訊所需傳輸頻寬僅為6Kbps，相比MP3檔案至少需要64Kbps的情況，約能減少10倍以上檔案大小。

雖然此項技術目前僅對應聲音檔案，但Meta強調未來將會納入影像內容壓縮，藉此加快網路內容傳輸速率，甚至推動元宇宙應用發展。

目前Meta已經將此項技術程式編碼與樣本透過GitHub公開，並且公布相關技術白皮書。

僅MP3約10分之1左右，Meta推出以人工智慧提高壓縮比例的聲音技術
讓更多聲音檔案內容可以在低頻寬網路環境下順利傳輸

發表迴響取消回覆

分享此文：

相關內容

分享此文：

分享此文：

分享此文：

發表迴響取消回覆