NVIDIA進一步公佈藉由「Grace」CPU建構的運算平台表現細節

除了Intel在Hot Chips 34高效能運算年度技術大會公佈以代號「Ponte Vecchio」的伺服器GPU建構平台算力表現，NVIDIA也在此次技術大會上說明以Superchip形式設計，透過「Grace」CPU建構的運算平台表現細節。

雖然先前說明「Grace」CPU是以台積電5nm製程打造，但在此次說明則是調整為以5nm製程為精進的「N4」版本，亦即改良後的4nm製程。

至於從「Grace」CPU本身基於Arm Neoverse架構設計，並且支援Armv9指令集，其中更整合對應超算使用的SVE2指令集，意味「Grace」CPU是以代號「Perseus」的Neoverse N2架構打造，並且對應PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0，以及CXL 2.0資料傳遞。

而藉由「Grace」CPU建構的Superchip，分別可以是兩組「Grace」CPU形成144組核心運算平台，或是以「Grace」CPU搭配「Hopper」GPU形成異構運算平台。在設計上，NVIDIA強調「Grace」CPU並非用於取代x86架構CPU，而是希望在運算組合有更多彈性。

在「Grace」CPU之間，或是「Grace」CPU與「Hopper」GPU之間資料傳遞，NVIDIA則是採用名為NVIDIA SCF (Scalable Coherency Fabric)的網路通訊架構，作為CPU、記憶體與I/O埠之間資料傳遞媒介，提供可達3.2 TB/s的傳輸頻寬，配合既有NVLink-C2C通訊技術，藉此加快運算資料在不同運算元件傳遞速率。

每組NVIDIA SCF可對應「Grace」CPU的72組運算核心，本身也具備117MB L3快取記憶體，並且對應Armv8.4指令集內加入的記憶體系統資源分區與監控功能 (MPAM)，更可透過Coherent NVLink實現最多四組插槽連貫性一致，而每一組CSN快取交換點可對應兩組運算核心與兩組NVIDIA SCF快取分區，並且各自對應存取LPDDR5記憶體，以及NVLink-C2C，或是PCIe/cNVLink。

另外，「Grace」CPU以每4組運算核心為1個運算叢集，總計達18個運算叢集，並且對應最高68組PCIe通道，以及4組PCIe 5.0 x16通道，透過PCIe 5.0 x16通道最高可對應128GB/s的雙向資料傳輸量，同時也對應12組Coherent NVLink與NVLink-C2C。

至於在「Grace」CPU採用LPDDR5X記憶體，主因包含目前HBM記憶體成本相對較高，同時考量LPDDR5X整體耗電量也較低，費用成本也相對較低，並且能以32組通道建構總計達512GB容量，對應546GB/s的傳輸頻寬。

整體運算效率來看，雖然「Grace」CPU相較AMD代號「Milan」的第三帶EPYC伺服器處理器略為遜色，但在電力損耗表現卻更好，同時搭配「Hopper」GPU也能有更好運算表現。

NVIDIA進一步公佈藉由「Grace」CPU建構的運算平台表現細節
讓運算組合有更多彈性

發表迴響取消回覆

分享此文：

相關內容

分享此文：

分享此文：

分享此文：

發表迴響取消回覆