市場動態 展覽 生活 處理器 觀察

NVIDIA進一步公佈藉由「Grace」CPU建構的運算平台表現細節
讓運算組合有更多彈性

除了Intel在Hot Chips 34高效能運算年度技術大會公佈以代號「Ponte Vecchio」的伺服器GPU建構平台算力表現,NVIDIA也在此次技術大會上說明以Superchip形式設計,透過「Grace」CPU建構的運算平台表現細節。

-

雖然先前說明「Grace」CPU是以台積電5nm製程打造,但在此次說明則是調整為以5nm製程為精進的「N4」版本,亦即改良後的4nm製程。

至於從「Grace」CPU本身基於Arm Neoverse架構設計,並且支援Armv9指令集,其中更整合對應超算使用的SVE2指令集,意味「Grace」CPU是以代號「Perseus」的Neoverse N2架構打造,並且對應PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0,以及CXL 2.0資料傳遞。

而藉由「Grace」CPU建構的Superchip,分別可以是兩組「Grace」CPU形成144組核心運算平台,或是以「Grace」CPU搭配「Hopper」GPU形成異構運算平台。在設計上,NVIDIA強調「Grace」CPU並非用於取代x86架構CPU,而是希望在運算組合有更多彈性

在「Grace」CPU之間,或是「Grace」CPU與「Hopper」GPU之間資料傳遞,NVIDIA則是採用名為NVIDIA SCF (Scalable Coherency Fabric)的網路通訊架構,作為CPU、記憶體與I/O埠之間資料傳遞媒介,提供可達3.2 TB/s的傳輸頻寬,配合既有NVLink-C2C通訊技術,藉此加快運算資料在不同運算元件傳遞速率。

每組NVIDIA SCF可對應「Grace」CPU的72組運算核心,本身也具備117MB L3快取記憶體,並且對應Armv8.4指令集內加入的記憶體系統資源分區與監控功能 (MPAM),更可透過Coherent NVLink實現最多四組插槽連貫性一致,而每一組CSN快取交換點可對應兩組運算核心與兩組NVIDIA SCF快取分區,並且各自對應存取LPDDR5記憶體,以及NVLink-C2C,或是PCIe/cNVLink。

另外,「Grace」CPU以每4組運算核心為1個運算叢集,總計達18個運算叢集,並且對應最高68組PCIe通道,以及4組PCIe 5.0 x16通道,透過PCIe 5.0 x16通道最高可對應128GB/s的雙向資料傳輸量,同時也對應12組Coherent NVLink與NVLink-C2C。

至於在「Grace」CPU採用LPDDR5X記憶體,主因包含目前HBM記憶體成本相對較高,同時考量LPDDR5X整體耗電量也較低,費用成本也相對較低,並且能以32組通道建構總計達512GB容量,對應546GB/s的傳輸頻寬。

整體運算效率來看,雖然「Grace」CPU相較AMD代號「Milan」的第三帶EPYC伺服器處理器略為遜色,但在電力損耗表現卻更好,同時搭配「Hopper」GPU也能有更好運算表現。

楊又肇 (Mash Yang)
mashdigi.com網站創辦人兼主筆,同時也是科技新聞業流浪漢。

發表迴響