• 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
2026 / 02 / 16 01:58 星期一
  • Login
mashdigi-科技、新品、趣聞、趨勢
  • 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
No Result
View All Result
  • 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
No Result
View All Result
mashdigi-科技、新品、趣聞、趨勢
No Result
View All Result
首頁 展覽

NVIDIA進一步解釋「Blackwell」顯示架構細節,在更高效能輸出下維持運算組合彈性

撰文: 楊又肇 (Mash Yang)
2024-03-20
in 展覽, 市場動態, 硬體, 處理器, 頭條話題
A A
0
分享至 Facebook分享至 Twitter分享至 LINE

針對此次揭曉的「Blackwell」顯示架構,NVIDIA在會後解釋此顯示架構細節,並且說明分別推出B100、B200與GB200 Superchip三種加速運算元件設計。

NVIDIA進一步解釋「Blackwell」顯示架構細節,在更高效能輸出下維持運算組合彈性
▲以單一「Grace」CPU搭配兩組「Blackwell」GPU組成的GB200 Superchip

NVIDIA執行長黃仁勳說明,「Blackwell」顯示架構是在挑戰物理極限的情況下,同時考量實際效能與成本之間效益平衡所打造產品。

「Blackwell」顯示架構是針對兆級規模參數量的人工智慧需求打造,本身以台積電客製化4nm製程生產,並且能藉由單一GPU設計對應20 PetaFLOPS算力表現,結合此GPU設計的Superchip涵蓋2080億組電晶體,分別可在訓練效率相比先前推出的「Hopper」提升4倍,推論運算效率則可提高30倍,而能源使用效率更提升25倍。

架構方面,「Blackwell」整合第二代Transformer人工智慧引擎、可對應FP4/FP6低位元浮點運算的Tensor Core設計,並且對應第五代NVLink連接技術,最多可同時與576組GPU連動,支援每秒達800GB的資料解壓速率,以及更安全資料加密保護機制,更可確保運作穩定性。

另外,「Blackwell」也以兩組光罩對應Die裸晶核心單元構成的特殊設計,內部則以每秒10TB資料傳輸速率方式的NVLink-HBI介面進行溝通,並且能以單一GPU形式運作。

NVIDIA執行長黃仁勳說明,「Blackwell」顯示架構是在挑戰物理極限的情況下,同時考量實際效能與成本之間效益平衡所打造產品。因此將兩組Die裸晶核心單元組成單一GPU,顯然是在既有製程技術良率與製造成本之間取得平衡,並且透過組合堆疊方式提高「Blackwell」顯示架構運算效能。

NVIDIA進一步解釋「Blackwell」顯示架構細節,在更高效能輸出下維持運算組合彈性
▲「Blackwell」顯示架構設計,可以看見透過相同資料傳輸量設計,讓整個「GPU」運算加速更快

「Blackwell」在FP8運算模式可對應10 PetaFLOPS算力表現,而在FP4運算模式則可對應20 PetaFLOPS算力表現,本身則整合192GB容量、支援每秒8TB資料傳輸量的HBM3e高密度記憶體,並且能透過NVLink以每秒1.8TB速率交換資料內容。

為了進一步提升「Blackwell」在多模運作人工智慧應用效率,NVIDIA也透過HDR Infiniband傳輸介面提供每秒可達100 GByte的資料傳輸效率,藉此能讓大規模運算叢集中的每15組GPU運算資料進行同步,並且搭配第五代NVLink設計讓多達576組GPU構成運算節點的運算內容維持正確。

分別推出B100、B200與GB200 Superchip三種加速運算元件設計

而目前以「Blackwell」顯示架構打造加速運算元件設計,分別區分B100、B200,以及結合單組「Grace」CPU與兩組「Blackwell」GPU構成的GB200 Superchip。

其中,B100、B200均搭載總容量達192GB的HBM3e高密度記憶體,對應每秒8TB資料傳輸量,同時與GPU本身對應資料傳輸量相同,因此在顯示架構上可以對應更快資料處理效率。

至於B100、B200兩者最大差異在於運作功耗不同,前者最高功耗為700W,可藉由空冷散熱形式運作,同時也能直接用在H100加速元件設計對應HGX機架空間內,後者功耗則在一般情況下對應1000W,依然可透過空冷形式運作,但能否用於H200既有對應機架空間則要看情況,至於若將功耗進一步提高至1200W,就必須以水冷形式運作,因此對應機架就必須重新設計。

NVIDIA進一步解釋「Blackwell」顯示架構細節,在更高效能輸出下維持運算組合彈性
▲可透過功耗、組合差異對應不同效能輸出

GB200 Superchip主要針對人工智慧訓練加速打造,以全水冷形式運作

GB200 Superchip就必須以全水冷形式運作,但好處在於能減少極佔空間的散熱模組,並且透過水冷系統維持運作穩定性,對比運作功耗為10.2kW、8U機架設計的DGX H100系統,在接近運算效能情況下,所對應佔據空間將降低為八分之一,同時也能以水冷系統降低熱交換所需空間,以及運作時所產生噪音等問題。

若以H100算力為基礎,GB200 Superchip的算力為6倍,約可處理GPT-3 1750億組參數量,而對應處理多模特定領域算力表現則可達30倍,可處理多達1.8兆參數規模。

透過NVLink將36組GB200 Superchip串接成的GB200 NVL72,可在訓練對應720 PFLOPS算力表現,推論算力則可達1440 PFLOPS,同時可對應27兆組參數規模,多節點傳輸頻寬可達每秒130TB,最高可對應每秒260TB傳輸量。

NVIDIA進一步解釋「Blackwell」顯示架構細節,在更高效能輸出下維持運算組合彈性
▲將36組GB200 Superchip串接成的GB200 NVL72

另外,將8組GB200 NVL72串接的話,則可建構DGX BG200 Superpod,整合288組「Grace」CPU與576組「Blackwell」GPU構成,並且包含240TB高速記憶體容量,在FP4運算模式可對應11.5 ExaFLOPS算力表現,並且發揮30倍推論效率、4倍訓練效率,同時提升25倍能源使用效率。

保持組合彈性,但在人工智慧發展趨勢下更傾向Arm架構組合

以目前來看,NVIDIA依然在「Blackwell」顯示架構維持組合彈性,可選擇與x86架構CPU或Arm架構CPU組合,而在B100設計上也能相容既有H100對應機架使用,B200在特定情況下也能相容使用既有機架,藉此維持其佈署應用升級彈性,同時也在運算效能有相當程度提升表現。

但如果是要對應人工智慧佈署應用的話,NVIDIA表示當前最佳組合還是Arm架構CPU,主要還是受限於x86架構CPU對應I/O埠等通道設計,以及NVLink可對應連接數量上限,加上採用x86架構CPU還有額外散熱系統建置需求,因此目前用於人工智慧推論等訓練,依然會主推搭配「Grace」CPU的組合。

NVIDIA進一步解釋「Blackwell」顯示架構細節,在更高效能輸出下維持運算組合彈性
▲透過NVLink增加可同時連接GPU數量,讓人工智慧訓練速度更快
Tags: B100B200BlackwellGB200 NVL72GB200 SuperchipGTCGTC 2024Nvidia
ShareTweetShare
楊又肇 (Mash Yang)

楊又肇 (Mash Yang)

mashdigi.com網站創辦人兼主筆,同時也是科技新聞業學習者。

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

翻譯 (Tanslate)

最近更新內容:

蘋果新版iOS 26功能涵蓋諸多更新,電話、地圖、相機、錢包等功能都做了升級

老iPhone救星來了?傳iOS 27將大舉「清掃」陳舊程式碼,不只順暢還要幫你省電

2026-02-16
並非重回「小白」塑膠時代,傳聞中的平價MacBook將採全金屬機身與多彩設計

並非重回「小白」塑膠時代,傳聞中的平價MacBook將採全金屬機身與多彩設計

2026-02-16
Uber證實將推出名為「Uber Tasks」的人力媒合業務,提供居家生活服務項目

Uber承認系統錯誤導致同一趟行程報價變低,高層罕見親上火線道歉

2026-02-15
mashdigi-科技、新品、趣聞、趨勢

Copyright © 2017 mashdigi.com

  • 關於 mashdigi.com
  • 投放廣告
  • 聯繫 mashdigi.com

追蹤我們

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • 關於 mashdigi.com
  • 投放廣告
  • 聯繫 mashdigi.com

Copyright © 2017 mashdigi.com