Nvidia超級電腦解析記憶體共構加速運算效率 - mashdigi

此次在GTC 2016主題演講中揭曉的Nvidia超級電腦DGX-1，本身主要是針對深度機器學習應用所設計，在4U規格的伺服器機架內配置8組搭載Pascal顯示架構與HBM2記憶體的Tesla P100加速卡模組，並且配置7TB SSD作為運算資料緩衝，同時藉由兩組Intel XEON處理器處理運作指令集，以此提供等同250組伺服器的運作效能。

就現場資料來看，可確認由8組Tesla P100加速卡所構成顯示效能，將藉由NVLink技術形成單組超高效能運算元件，同時所有HBM2記憶體模組也能共構為總計達128GB的資料暫存緩衝空間，並且可作為各個加速卡之間資料交換傳遞媒介，藉此讓DGX-1最高達170TFLOPS的運算量能以更快效率執行運作。

本身著重在深度機器學習應用設計的DGX-1，整體是以4U規格伺服器機架配置8組搭載Pascal顯示架構與HBM2記憶體的Tesla P100加速卡模組，並且透過NVLink建構成單組超高效能運算元件，並且透過將所有HBM2記憶體模組共構為總計達128GB的資料暫存緩衝空間，讓各個加速卡之間可更快進行運算資料交換傳遞。

此外，相對HBM2記憶體模組作為快取用途，在DGX-1配置內加入的7TB SSD主要用於容量較大的運算資料暫存緩衝，使DGX-1最高達170TFLOPS的運算量能以更快效率執行運作。

但由於Tesla P100加速卡模組並非藉由PCIe介面連接，而是藉由NVLink技術對應更大傳輸頻寬需求的運算量，因此實際架構並不會讓Intel XEON處理器直接與加速卡運算資源連接，必須透過橋接方式讓兩邊進行溝通，但基本上絕大多數的資料運算均由加速卡部分完成，處理器端主要負責執行相關運作指令集，並非處於對等運作溝通模式。

簡單地說的話，就是由8組Tesla P100加速卡模組完成所有運算量，並且將最終運算結果交由處理器端執行指令集，讓運算結果能應用在各類x86架構軟體內容，例如不同深度機器學習架構等。而因為減少每組加速卡與處理器間頻繁溝通，使得整體運算效率能因此大幅提昇。

就目前DGX-1設計情況來看，本身也會作為公版參考設計，因此除預計在今年第一季由Nvidia向美國市場供貨之外，預計在今年第三季也將開放其他OEM廠商採用此設計打造的客製化版本，但基本上運算架構應該不會有太大差異，大致上可能僅在搭配的處理器、SSD與散熱設計有所不同，但Tesla P100加速卡模組配置方式預期將維持相同設計。

分享此文：

相關內容

分享此文：

分享此文：

分享此文：

發表迴響取消回覆