微軟攜手NVIDIA建造全球最大單一規模語言模型，能以簡單問句構思完整解答

微軟攜手NVIDIA打造全球最大單一規模的變形金剛 (Transformer)語言模型MT-NLG (Megatron Turing Natural Language Generation Model)，標榜具備5300億組參數，成為Turing NLG後繼語言模型，更是目前普遍使用、具備1750億組參數的GPT-3語言模型近三倍規模。

依照說明，MT-NLG語言模型將能對應語意預測、閱讀理解、知識推論、自然語言推論，以及分析詞義消歧意，藉此更深度理解人類自然語言表意，更能從中判斷特定所指內容，不會因為不同語言、地理文化背景差異產生理解落差。

而背後訓練則是透過NVIDIA的GPU加速運算，透過分散式深度學習發揮高效率訓練成果，進而建構高精度自然語言模型，並且能發揮穩定互動效果。

透過NVIDIA DGX SuperPOD建構的Selene超級電腦，背後總計以560組DGX A100進行運算，透過NVLink、NVSwitch串接每台DGX A100所搭載80GB記憶體，藉此對應龐大自然語言模型運作時所需巨量資料，並且透過分散式訓練讓系統以更高效率完成學習。

目前研究人員更進一步讓MT-NLG語言模型能透過簡單問句構思完整解答內容，若以過往的語言模型進行此類運算的話，可能需要花費更多時間得出結果，甚至結果可能會是答非所問內容。

另一方面，微軟目前提供語言翻譯工具中，已經支援100種語言，同時語言使用人口約覆蓋56.6億人，近期更加入巴什基爾語、迪維希語、藏語、土庫曼語、維吾爾語和烏茲別克語等語種。

而目前微軟在其翻譯機制內採用名為Z-code的多語言人工智慧模型，可將相同語系語言進行整合學習，例如將印地語、馬拉地語和古吉拉特語等印度語系交互訓練，即可讓不同語言互譯品質提升，而藉由訓練法語、葡萄牙語、西班牙語和義大利語，即可讓屬於相同語系的羅馬尼亞語互譯品質提升。

微軟表示，透過這樣的方式將能改善相同體系語言，或是相近語系語言翻譯品質，甚至可以藉此保留更多使用人口逐漸減少的少數語言。

分享此文：

相關內容

分享此文：

分享此文：

分享此文：

發表迴響取消回覆