MLPerf Training v5.1結果揭曉：NVIDIA Blackwell Ultra橫掃七項測試奪冠、AMD以CDNA 4架構緊追

MLCommons稍早公布了最新一輪MLPerf Training v5.1基準測試結果，不僅是AI運算領域的年度期末考，更是NVIDIA與AMD展示次世代架構實力的競技場。NVIDIA 憑藉Blackwell Ultra架構橫掃全場，而AMD則首度以CDNA 4架構的MI350系列參與訓練測試，展現緊追在後的競爭力。

NVIDIA：Blackwell Ultra搭配NVFP4精度，效能翻倍

在本次測試中，NVIDIA毫無懸念地在大型語言模型 (LLM)、圖像生成等全部七項測試中拿下最快訓練速度的成績，更是唯一在所有項目中都提交結果的平台。

NVIDIA此回派出的「殺手鐧」，是其基於Blackwell Ultra GPU架構的GB300 NVL72機架級系統。為了釋放極致效能，NVIDIA在MLPerf Training歷史上首度採用NVFP4低精度運算。

根據NVIDIA官方公布數據，與上一代Hopper架構相比，Blackwell Ultra在相同GPU數量下有顯著性能提升：

• Llama 3.1 405B預訓練：效能提升4倍以上。

• Llama 2 70B LoRA微調：效能增加近5倍。

Blackwell Ultra的架構優勢，在於具備15 petaflops NVFP4 AI運算能力的全新Tensor Core，以及高達279GB的HBM3e高頻寬記憶體。此外，NVIDIA更在Llama 3.1 405B測試中動用超過5000顆Blackwell GPU，創下僅需10分鐘完成訓練的紀錄。

AMD：CDNA 4架構首秀，MI355X較前代提升2.8倍

另一方面，AMD也在此次測試中繳出亮眼成績單。這是AMD首度使用其Instinct MI350系列GPU (包含MI355X與MI350X) 進行MLPerf訓練測試。

AMD Instinct MI355X GPU採用3nm製程與CDNA 4架構，並且搭載288GB HBM3e高頻寬記憶體。在效能表現上，AMD強調其進步幅度驚人：

• 效能躍進：與前一代MI300X相比，MI355X在訓練效能上提升了2.8倍。

• Llama 2 70B LoRA微調：MI355X平台完成時間為10.18分鐘，相較於MI300X的27.97分鐘大幅縮短。

雖然在絕對速度上，NVIDIA的B200平台以9.85分鐘的成績略勝一籌，但AMD MI355X的10.18分鐘已展現出極具競爭力的表現，顯示雙方差距正在縮小。

生態系與未來佈局

本次測試也突顯了雙方生態系的擴展。其中，NVIDIA擁有華碩、Dell、廣達 (雲達)、緯穎等15個合作夥伴提交結果。AMD方面也不甘示弱，共有9家合作夥伴 (包含華碩、Dell、技鋼等) 提交了基於AMD Instinct硬體的測試結果。

展望未來，AMD在財務分析師大會 (Financial Analyst Day) 上也更新了產品路線圖，確認將維持「一年一更」的節奏：預計2026年推出MI400系列，而MI500系列則計畫於2027年登場，藉此與NVIDIA作更進一步抗衡。

MLPerf Training v5.1結果揭曉：NVIDIA Blackwell Ultra橫掃七項測試奪冠、AMD以CDNA 4架構緊追
AMD Instinct MI355X首秀展現CDNA 4架構2.8倍效能躍進

楊又肇 (Mash Yang)

發佈留言取消回覆

翻譯 (Translate)

同時支援6GHz以下頻段與毫米波 Sony揭曉開發中旗艦手機Xperia PRO

訪談／Sony定調全新旗艦手機的Xperia 5，究竟是否歸類「Compact」定位？

Raspberry Pi基金會宣布推出Raspberry Pi 5開發板，顯示供應鏈問題已經獲得改善

Google從明年5月起將讓非AMP格式網頁也能優先納入行動搜尋結果

Ubuntu母公司確認計畫上市募股但仍未有具體時程表

索尼互動娛樂證實PlayStation 5僅向下相容絕大多數的PlayStation 4平台遊戲

Waymo自動駕駛計程車正式駛入高速公路，舊金山、洛杉磯與鳳凰城率先開放