在開放運算計畫全球峰會上,NVIDIA展示其佈局百萬瓩級人工智慧工廠的未來藍圖,不僅公布Vera Rubin NVL144 MGX世代開放式架構機架伺服器規格,更獲得超過50家MGX合作夥伴投入準備,同時也有超過20家企業加入支援800伏特直流電資料中心設計,藉此實現未來更大規模的人工智慧運算需求。
在此次公布中,NVIDIA將Vera Rubin NVL144 MGX設計為節能、100%液冷的模組化設計,其中透過中央印刷電路板中介背板取代傳統線纜連接,實現更快組裝與維護效率,同時配備模組化擴充插槽,以支援NVIDIA ConnectX-9 800GB/s網路與NVIDIA Rubin CPX大規模情境推論。
而Vera Rubin NVL144在加速運算架構與人工智慧效能帶來明顯提升,主要針對進階推理引擎與人工智慧代理需求打造,同時NVIDIA也計畫將升級版機架及運算托盤創新貢獻給OCP聯盟作為開放標準。
推動800VDC資料中心設計,實現更高能源效率
為了對應更高功率配電挑戰,NVIDIA與合作夥伴推動從傳統415或480VAC三相系統轉向800VDC基礎設施,藉此提高資料中心可擴展性、提升能源效率、減少材料使用與增加效能。
例如,鴻海科技集團已經公布位於台灣的800VDC、40千瓩資料中心Kaohsiung-1細節,而CoreWeave、Lambda、Nebius、Oracle Cloud Infrastructure與Together AI等業者也開始設計800伏特資料中心,另外Vertiv也發表節省空間、降低成本且高效節能的800VDC MGX參考架構。
NVIDIA說明,透過使用800VDC設計,將可在相同銅線傳輸150%以上電源,無需再以200公斤重的銅母線為單一機架供電,同時也能協助客戶減少數噸級銅材用量,進而節省數百萬美元成本。
Kyber平台將容納576顆Rubin Ultra GPU,對應更高密度運算
在接下來的發展中,NVIDIA將推出代號Kyber的平台,預計在2027年搭載容納576顆NVIDIA Rubin Ultra GPU的高密度平台,藉此對應更大規模的人工智慧運算需求。
而Kyber平台將對應更高機架內GPU密度、擴展網路規模,同時將大型人工智慧基礎設施效能極大化,透過將運算刀鋒垂直旋轉排列,讓每部機箱最多可容納18組運算刀鋒,同時透過無線中介背板在機箱後方整合專用NVIDIA NVLink交換刀鋒,實現無縫的擴展網路。
擴大NVLink Fusion生態系,Intel、Samsung Foundry加入合作
除了硬體設計,NVIDIA也持續擴大其NVLink Fusion生態系,讓企業能將其半客製化晶片無縫整合至高度最佳化且廣泛部署的資料中心架構,進而降低複雜度並加速上市時程。
在此次公布中,Intel與Samsung Foundry均加入NVLink Fusion生態系,其中Intel將透過NVLink Fusion建構可整合至NVIDIA基礎設施平台的x86 CPU,而Samsung Foundry則與NVIDIA合作滿足日益增長的客製化CPU與客製化XPU需求。
筆者看法
從NVIDIA持續與合作夥伴推動更大規模的人工智慧運算工廠,顯示市場對於人工智慧算力需求仍持續成長,尤其隨著各類人工智慧模型參數規模增加,對於運算資源的需求更是以倍數成長。
而透過800VDC等新基礎設施設計,不僅能對應更高能源使用效率,更能降低建置與維護成本,對於計畫大規模佈署人工智慧算力的業者而言,將能帶來更大效益。
不過,如此龐大的算力佈建是否會造成市場過度競爭,導致算力供過於求,或許也是市場值得關注項目,但以目前人工智慧技術應用發展仍處於早期階段來看,未來對於算力需求應該還會持續增加。