Nvidia超級電腦解析 記憶體共構加速運算效率

此次在GTC 2016主題演講中揭曉的Nvidia超級電腦DGX-1,本身主要是針對深度機器學習應用所設計,在4U規格的伺服器機架內配置8組搭載Pascal顯示架構與HBM2記憶體的Tesla P100加速卡模組,並且配置7TB SSD作為運算資料緩衝,同時藉由兩組Intel XEON處理器處理運作指令集,以此提供等同250組伺服器的運作效能。

就現場資料來看,可確認由8組Tesla P100加速卡所構成顯示效能,將藉由NVLink技術形成單組超高效能運算元件,同時所有HBM2記憶體模組也能共構為總計達128GB的資料暫存緩衝空間,並且可作為各個加速卡之間資料交換傳遞媒介,藉此讓DGX-1最高達170TFLOPS的運算量能以更快效率執行運作。

ctt.marketwire.com_resize

本身著重在深度機器學習應用設計的DGX-1,整體是以4U規格伺服器機架配置8組搭載Pascal顯示架構與HBM2記憶體的Tesla P100加速卡模組,並且透過NVLink建構成單組超高效能運算元件,並且透過將所有HBM2記憶體模組共構為總計達128GB的資料暫存緩衝空間,讓各個加速卡之間可更快進行運算資料交換傳遞。

此外,相對HBM2記憶體模組作為快取用途,在DGX-1配置內加入的7TB SSD主要用於容量較大的運算資料暫存緩衝,使DGX-1最高達170TFLOPS的運算量能以更快效率執行運作。

IMG_0102_resize

但由於Tesla P100加速卡模組並非藉由PCIe介面連接,而是藉由NVLink技術對應更大傳輸頻寬需求的運算量,因此實際架構並不會讓Intel XEON處理器直接與加速卡運算資源連接,必須透過橋接方式讓兩邊進行溝通,但基本上絕大多數的資料運算均由加速卡部分完成,處理器端主要負責執行相關運作指令集,並非處於對等運作溝通模式。

簡單地說的話,就是由8組Tesla P100加速卡模組完成所有運算量,並且將最終運算結果交由處理器端執行指令集,讓運算結果能應用在各類x86架構軟體內容,例如不同深度機器學習架構等。而因為減少每組加速卡與處理器間頻繁溝通,使得整體運算效率能因此大幅提昇。

就目前DGX-1設計情況來看,本身也會作為公版參考設計,因此除預計在今年第一季由Nvidia向美國市場供貨之外,預計在今年第三季也將開放其他OEM廠商採用此設計打造的客製化版本,但基本上運算架構應該不會有太大差異,大致上可能僅在搭配的處理器、SSD與散熱設計有所不同,但Tesla P100加速卡模組配置方式預期將維持相同設計。

發表迴響

%d 位部落客按了讚: