MLCommons稍早公布了最新一輪MLPerf Training v5.1基準測試結果,不僅是AI運算領域的年度期末考,更是NVIDIA與AMD展示次世代架構實力的競技場。NVIDIA 憑藉Blackwell Ultra架構橫掃全場,而AMD則首度以CDNA 4架構的MI350系列參與訓練測試,展現緊追在後的競爭力。
NVIDIA:Blackwell Ultra搭配NVFP4精度,效能翻倍
在本次測試中,NVIDIA毫無懸念地在大型語言模型 (LLM)、圖像生成等全部七項測試中拿下最快訓練速度的成績,更是唯一在所有項目中都提交結果的平台。
NVIDIA此回派出的「殺手鐧」,是其基於Blackwell Ultra GPU架構的GB300 NVL72機架級系統。為了釋放極致效能,NVIDIA在MLPerf Training歷史上首度採用NVFP4低精度運算。
根據NVIDIA官方公布數據,與上一代Hopper架構相比,Blackwell Ultra在相同GPU數量下有顯著性能提升:
• Llama 3.1 405B預訓練:效能提升4倍以上。
• Llama 2 70B LoRA微調:效能增加近5倍。
Blackwell Ultra的架構優勢,在於具備15 petaflops NVFP4 AI運算能力的全新Tensor Core,以及高達279GB的HBM3e高頻寬記憶體。此外,NVIDIA更在Llama 3.1 405B測試中動用超過5000顆Blackwell GPU,創下僅需10分鐘完成訓練的紀錄。
AMD:CDNA 4架構首秀,MI355X較前代提升2.8倍
另一方面,AMD也在此次測試中繳出亮眼成績單。這是AMD首度使用其Instinct MI350系列GPU (包含MI355X與MI350X) 進行MLPerf訓練測試。
AMD Instinct MI355X GPU採用3nm製程與CDNA 4架構,並且搭載288GB HBM3e高頻寬記憶體。在效能表現上,AMD強調其進步幅度驚人:
• 效能躍進:與前一代MI300X相比,MI355X在訓練效能上提升了2.8倍。
• Llama 2 70B LoRA微調:MI355X平台完成時間為10.18分鐘,相較於MI300X的27.97分鐘大幅縮短。
雖然在絕對速度上,NVIDIA的B200平台以9.85分鐘的成績略勝一籌,但AMD MI355X的10.18分鐘已展現出極具競爭力的表現,顯示雙方差距正在縮小。

生態系與未來佈局
本次測試也突顯了雙方生態系的擴展。其中,NVIDIA擁有華碩、Dell、廣達 (雲達)、緯穎等15個合作夥伴提交結果。AMD方面也不甘示弱,共有9家合作夥伴 (包含華碩、Dell、技鋼等) 提交了基於AMD Instinct硬體的測試結果。
展望未來,AMD在財務分析師大會 (Financial Analyst Day) 上也更新了產品路線圖,確認將維持「一年一更」的節奏:預計2026年推出MI400系列,而MI500系列則計畫於2027年登場,藉此與NVIDIA作更進一步抗衡。








