傳華為趁NVIDIA等美國業者因新政策限制出口，將向中國客戶大量提供其人工智慧加速晶片

在NVIDIA等美國晶片業者面臨因美國新政策影響其產品出口至中國市場情況下，相關消息指稱華為將向中國境內客戶大量提供其Ascend 910C (昇騰910C)人工智慧加速晶片。知情人士表示，Ascend 910C是將以兩組Ascend 910B封装組成，性能標榜能與NVIDIA於2022年推出的H100加速晶片相當，並且支援多種人工智慧模型運作負載，同時從2024年開始就已經開始向中國境內企業提供樣品進行測試，更已經接受市場訂單。沒意外的話，Ascend 910C依然是藉由中芯國際的N+2 7nm製程技術生產，但從先前拆解的Ascend 910B中也發現疑似廈門算能科技 (SOPHGO)提供晶片設計，而此晶片是藉由台積電先進製程生產，因此形式上在Ascend 910C可能也會間接用到台積電製程技術。不過，華為方面並對針對Ascend 910C供貨計畫等細節作任何回應，同時也說明未以廈門算能科技提供晶片設計產品，而台積電方面則強調自2020年9月中旬之後就未再以任何形式向華為供貨。目前美國政府加強出口限制，主要針對中國，以及中國可能作為跳板進口高算力晶片的國家地區設限，例如原先可允許中國境內業者採購的NVIDIA特規版H20加速器，在新限制之下將無法銷往中國，就連香港、澳門及列入D:5武器禁運名單內的國家地區都無法購買此產品。而在美國政府新一波晶片出口限制中，除了對NVIDIA明顯產生影響，目前包含AMD、Intel也造成一定衝擊。

Elon Musk透露其人工智慧公司xAI已經以10萬組NVIDIA H100加速元件建構超級電腦

2024-09-05

0

Elon Musk透露其人工智慧公司xAI已經以10萬組NVIDIA H100加速元件建構超級電腦，並且在近期正式上線，預計在未來幾個月內讓規格規模再擴大一倍。目前xAI已經獲得包含Valor Equity Partners、Vy Capital、Andreessen Horowitz (A16Z)、紅杉資本、Fidelity、Prince Alwaleed Bin Talal及Kingdom Holding等機構投資，預計以獲得60億美元擴建其人工智慧基礎建設。而xAI將此超級電腦命名為「Colossus」 (註)，鍵置時間約花費122天，並且標榜為全球最強大的人工智慧訓練系統，後續計畫從現行的10萬組NVIDIA H100加速元件，增加為20萬組，其中更包含5萬組H200加速元件。註：應該是指漫威中可將自身變成金屬狀態的超級英雄「鋼人」。除了xAI藉由堆疊GPU為主的加速運算元件推動人工智慧技術發展，目前包含Google、OpenAI、Meta、微軟在內業者也均以相同作法進行人工智慧軍備競爭，包含Intel、AMD與NVIDIA都因此獲利，但由於許多人工智慧訓練更仰賴GPU加速，藉此縮短原本所需冗長的訓練時間，因此更讓GPU加速效能更高的NVIDIA獲利。即便NVIDIA日前傳出其代號「Blackwell」的加速元件延後至年底出貨，甚至可能因為設計問題影響實際交貨時間，但仍吸引不少業者下訂。 This weekend, the @xAI team brought our Colossus 100k H100 training ...

Tesla營收達255億美元，預計在10/10對外揭曉機器人計程車原型設計

2024-07-24

0

稍早公布2024財年第二季財報中，Tesla說明其整體營收達255億美元，其中車輛營收達198.78億美元，能源業務營收則達30.14億美元，服務與其他營收則達26.08億美元，同時Tesla執行長Elon Musk也說明將在美國西岸時間10月10日公布其機器人計程車 (robotaxi)原型設計。在此之前，Tesla原訂在8月8日公布機器人計程車具體細節，但後續則由Elon Musk表示要求針對特定細節進行調整，因此延後發表時間。而在稍早的財報會議中，Elon Musk重申延後發表機器人計程車，將使團隊人員有時間作更具體準備，但依然未透露實際延後發表原因，以及相關調整細節。、而就Elon Musk規劃，全自動駕駛運作的機器人計程車將能帶動更大市場改變，並且預期最快在今年底，或是明年初就能實現此目標。不過，目前包含Waymo在內業者已經投入自動駕駛車輛技術應用發展，Tesla預計推出的機器人計程車是否會有格外吸引人之處，顯然也成為不少市場關注重點。另一方面，雖然Tesla計畫藉由自動駕駛技術、人工智慧技術與機器人技術創造全新市場發展機會，但其營收目前仍以車輛銷售為重，因此近期受到美國政府對於電動車補助調整等因素影響，使得其電動車銷量成長趨緩，甚至出現下滑，Tesla仍預期將以價格相對較高的電動貨卡Cybertruck，以及接下來將以更低售價銷售的入門車款吸引市場。至於在人工智慧技術發展部分，Elon Musk表示將在今年底以前與NVIDIA合作打造全球最大規模人工智慧訓練叢集，並且在稍早宣布啟用名為「曼菲斯超級叢集」 (Memphis Supercluster)的訓練叢集，其中更與其人工智慧公司xAI、「X」團隊，以及相關支援業者合作建立，其中採用10萬組以液冷形式運作的NVIDIA H100加速器運作。

Elon Musk透露將於2025年秋季前建造強化聊天機器人Grok的超級電腦

2024-05-26

0

Elon Musk透露，計畫在2025年秋季前建立一台超級電腦，用於推動其人工智慧公司xAI旗下聊天機器人Grok的運作能力。由於先前遭質疑Grok實際運算能力不比競爭對手提供服務，因此Elon Musk表示將大幅提升Grok背後運算能力。而此次透露將建造的超級電腦，預計斥資數十億美元資金建造，將以數萬組NVIDIA H100 GPU加速元件構成，而此GPU運算叢集至少會是xAI競爭對手採用設計的4倍以上。 Elon Musk先前說法指出，Grok 3.0至少會採用10萬組加速元件運作，將比用於訓練Grok 2.0版本的2萬組加速元件增加5倍以上。目前Grok已經在今年4月推出1.5版，分別可對應處理照片、圖表，以及文字等內容的視覺識別運算，並且從5月開始將Grok技術用於「X」服務平台，主要用於新聞內容摘要。

Meta公布用於自動生成式人工智慧的硬體基礎設施，採用近5萬組NVIDIA H100 GPU

2024-03-13

0

Meta公布其用於自動生成式人工智慧的硬體基礎設施，其中包含兩個各自採用2萬4576組NVIDIA H100 GPU、可對應大型數據中心算力規模的運算叢集。相較Meta在2022年公布用於人工智慧運算叢集、採用1.6萬組NVIDIA A100 GPU的AI Research SuperCluster (RSC)，此次公布規格幾乎提升超過2倍以上，並且能運作更大、更複雜的人工智慧模型。其中一個運算叢集基於Arista 7800、Wedge400，以及Minipack2開放運算計畫 (OCP)機架交換器構成的RDMA over Converged Ethernet (RoCE)解決方案，另一個運算叢集則是基於NVIDIA的Quantum2 InfiniBand網路架構，兩個運算叢集均對應400 Gbps的端點互連傳輸速率，並且能以不同網路架構，評估不同類型的互連型態對於大規模人工智慧訓練的適用性及可擴展性，同時也能作為日後設計、建置更大規模運算叢集的參考依據。此運算叢集除了網路架構，其他均以Meta內部設計建構，並且對外貢獻給開放運算計畫的GPU硬體平台Grand Teton，藉此讓更多人工智慧系統採用，可在單一機箱內整合包含變電源、控制系統、運算架構與傳輸介面，同時也能對應更好運算效能及訊號完整性，更可對應更良好的熱效能。而在儲存架構則採用Meta內部Tectonic分散式儲存解決方案，透過其中Linux Filesystem in Userspace (FUSE) API資源對應人工智慧運算叢集資料，以及檢查點相關需求，讓多數GPU能同步儲存、載入檢查點，藉此提資料載入時的彈性，以及提供EB儲存規模吞吐量。另外，Meta也與全球資料共用平台Hammerspace合作打造平行網路檔案系統佈署技術，其中運用可讓工程人員透過數千個GPU資源進行執行任務除錯，並且讓程式有所變動時，可讓佈署應用環境所有節點同步存取，藉此對應龐大人工智慧運算使用模式。 Meta計畫持續擴大自動生成式人工智慧的硬體基礎設施，預計在今年底增加使用35萬組NVIDIA H100 GPU，並且計畫發揮等同60萬組NVIDIA ...

Tesla證實將於紐約州投資5億美元設置第二座Dojo超級電腦，同時也將擴大採購AMD加速運算產品

2024-01-29

0

紐約州州長Kathy Hochul表示，Tesla將投資5億美元於美國紐約州境內超級工廠設置第二座Dojo超級電腦，Tesla執行長Elon Musk隨後證實此消息，同時也說明將擴大採購AMD產品提高人工智慧運算能力。在此之前，NVIDIA已經在加州聖荷西啟用第一座Dojo超級電腦，當時採用NVIDIA GPU產品作為人工智慧運算加速基礎，並且在2023年7月時正式上線運作，主要推動Tesla車輛自駕功能訓練，以及用於旗下機器人等產品自主學習運作。而位於紐約州的超級工廠並未直接生產Tesla車輛，主要負責生產Tesla旗下太陽能板、太陽能屋頂瓦片，以及超級充電站相關零件，同時負責自動駕駛訓練數據分析團隊也位於此。此次宣布將於此設置第二座Dojo超級電腦，意味Tesla將透過兩座超級電腦推動更龐大人工智慧運算能力。不過，若以NVIDIA當前H100加速系統造價計算，Tesla以5億美元投資的第二座Dojo超級電腦實際採用人工智慧加速運算系統效能可能相對有限。但以Elon Musk表示將擴大採購AMD產品的情形來看，顯然計畫透過不同人工智慧加速運算方式達成最佳成本支出效益，而Elon Musk在相關說明中也表明仍會持續採購NVIDIA加速運算產品，藉此支撐不同人工智慧運算需求。

報導指稱NVIDIA針對中國市場推出新款客製化晶片產品，避開禁令影響問題

2023-11-10

0

先前因美國政府更新境內技術出口禁令，造成NVIDIA部分高效能晶片無法銷往中國市場之後，消息人士表示NVIDIA將針對中國市場推出新款客製化晶片產品，藉此避開禁令影響問題。依照消息指稱，NVIDIA針對中國市場需求推出的新款客製化晶片產品，分別包含HGX H20、L20 PCle，以及L2 PCle在內GPU，而NVIDIA最快會在11月16日對外公布。這三款客製化晶片產品，分別可用於雲端訓練、推論加速，以及邊緣運算應用，但具體推出時間尚未確認。不過，消息認為中國境內業者會在短時間內取得此類產品。在此之前，美國政府更新美國境內技術出口禁令，導致NVIDIA部分人工智慧應用晶片產品將無法銷售至中國市場，就連先前因應規定調整效能的A800、H800 GPU產品也被列入限制出口名單。美國商務部長Gina Raimondo表示此舉是為了填補去年10月出口限制漏洞，主要目的是為了避免中國政府將先進晶片用於軍事發展，未來可能會採取每年至少修正一次調整作法，藉此避免中國政府利用政策漏洞引進美國先進晶片技術。而Gina Raimondo強調，美國政府並不以危害中國經濟為目標，因此在此次調整限制並不包含用於筆電、智慧型手機，以及遊戲用途的多數消費類型晶片，但部分晶片產品出口許可依然需要獲得美國政府批准。除了中國，新調整規定也將先進晶片出口禁令擴大超過40個國家地區，避免禁止出口至中國的先進晶片產品，透過這些國家地區展轉運送到中國境內。同時，美國政府也針對中國以外21個國家地區增加取得先進製程晶片製造工具應先取得批准的限制，藉此避免中國境內業者透過其他管道取得先進製程晶片製造工具，進一步限制中國境內業者自行研發先進製程晶片產品可能性。

NVIDIA宣布H100 GPU再次創下MLPerf基準測試新紀錄，約比半年表現快上3倍

2023-11-09

0

NVIDIA表示，去年宣布推出的H100 Tensor Core GPU再次於MLPerf基準測試創下新紀錄，相比近半年前的紀錄快上3倍。此次以10752組H100 Tensor Core GPU與Quantum-2 InfiniBand網路技術構成的NVIDIA EOS人工智慧超級電腦，在短短3.9分鐘內完成以Open AI GPT-3大型自然語言模型、多達1750億組參數的訓練基準，相比近半年前以10.9分鐘完成的紀錄，約快上3倍速度。而從此訓練基準僅採用GPT-3資料集的一部分，若要完成所有訓練的話，大制約花費8天時間，仍比過往透過512組A100 GPU的超級電腦約仍上73倍。 NVIDIA表示，在GPU數量增加3倍情況下，訓練效率也相對提高2.8倍，而更有部分得力於軟體最佳化，使得訓練效率可提升達93%。而縮短訓練所需時間，更意味將使人工智慧成長速度可大幅提升。在此次測試中，NVIDIA表示在訓練推薦模型運算表現也比先前快上1.6倍，在電腦視覺模型RetinaNet上的運作效率更提高1.8倍，同時也強調H100 GPU在MLPerf九項測試均有最高效能及最大運算擴展能力，更意味能使需要訓練大量大型自然語言模型，或是使用NVIDIA NeMO等框架的人工智慧服務能更快進入市場，甚至能以更低訓練成本與更少能源損耗運作。從2018年5月推出以來，MLPerf基準測試藉由本身客觀、透明特性，已經獲得亞馬遜、Arm、百度、Google、哈佛大學、HPE、Intel、聯想、Meta、微軟、史丹佛大學與多倫多大學在內機構採納使用，同時也成為NVIDIA用於衡量其超級電腦、加速運算元件效能衡量基準。

NVIDIA正式揭曉GeForce RTX 4070 Ti，效能壓過3090 Ti、用電效率提升1.8倍

美國政府更新境內技術出口禁令，造成NVIDIA部分高效能晶片無法銷往中國市場、高階消費顯示卡也連帶受影響

2023-10-18 - 更新於 2023-10-20

0

更新：依照美國商務部說明，用於筆電、智慧型手機，以及遊戲用途的多數消費類型晶片仍可在中國境內銷售，因此GeForce RTX 4090依然可以在中國市場銷售，但無法在中國境內生產，另外也不能用於商業用途。美國政府稍早更新美國境內技術出口禁令，造成NVIDIA部分人工智慧應用晶片產品將無法銷售至中國市場，就連先前因應規定調整效能的A800、H800 GPU產品也被列入限制出口名單。美國商務部長Gina Raimondo表示此舉是為了填補去年10月出口限制漏洞，主要目的是為了避免中國政府將先進晶片用於軍事發展，未來可能會採取每年至少修正一次調整作法，藉此避免中國政府利用政策漏洞引進美國先進晶片技術。而Gina Raimondo強調，美國政府並不以危害中國經濟為目標，因此在此次調整限制並不包含用於筆電、智慧型手機，以及遊戲用途的多數消費類型晶片，但部分晶片產品出口許可依然需要獲得美國政府批准。因此雖然GeForce RTX 4090雖然隸屬消費類型晶片產品，但由於整體算力表現高於美國政府訂出規格，因此仍被列入禁止出口名單。另外，針對商業應用設計的A100、A800、H800、H100、L40S等晶片也都在此次調整被列為限制出口產品。除了中國，新調整規定也將先進晶片出口禁令擴大超過40個國家地區，避免禁止出口至中國的先進晶片產品，透過這些國家地區展轉運送到中國境內。同時，美國政府也針對中國以外21個國家地區增加取得先進製程晶片製造工具應先取得批准的限制，藉此避免中國境內業者透過其他管道取得先進製程晶片製造工具，進一步限制中國境內業者自行研發先進製程晶片產品可能性。

NVIDIA以TensorRT-LLM模型提高H100 GPU上的大型自然語言模型推論能力

2023-09-11

0

針對目前多數業者採用的大型自然語言模型應用需求，NVIDIA宣布以開源架構設計的TensorRT-LLM模型，強化H100 GPU在大型自然語言模型的推論能力。此項開源架構設計的TensorRT-LLM模型將在未來幾周內提供，本身以TensorRT深度學習框架組成，包括經最佳化調整的內核、前處理及後處理步驟，加上多組GPU、多節點通訊基礎，可在NVIDIA GPU上提供出突破性的效能表現。除了能讓開發人員以更快速度運作大型自然語言模型，並且提供峰值效能和快速自訂功能，甚至無需具備深厚的C++或NVIDIA CUDA程式相關知識也能快速使用。另外，TensorRT-LLM本身結合開源模組Python API，同時提高易用性與擴充性，可用於定義、最佳化和執行新架構，更可隨著大型自然語言模型發展擴充，並且能自訂相關內容。相比Meta提出、參數達700億組的Llama 2，NVIDIA表示TensorRT-LLM配合H100 GPU，在Llama 2模型上推論效能，是使用A100 GPU的4.6倍。 TensorRT-LLM採用模型平行化 (model parallelism)的張力平行運算模式，將個別權重矩陣分割至各個裝置上，並且透過NVLink串接多組GPU，即可以大規模高效率的方式進行推論，進而加快大型自然語言模型運作效率。同時，針對人工智慧服務應用經常面臨一來一往的問答互動，或是藉由前後互動模式自動生成更多內容的情況，TensorRT-LLM可透過動態批次處理技術，立即從已經完成運算請求銜接下一個互動需求，無須等到所有運算逐一執行完畢才能銜接後續互動，藉此提高GPU加速運算使用率，在加快處理效率之餘，也降低更多等待處理時的電力損耗，以及相關運算使用成本。另外，TensorRT-LLM搭配H100 GPU，即可將模型轉會為FP8格式，透過更低精度對應執行更大模型規模，並且能在不降低整體模型精度情況下，減少記憶體損耗，同時也能以更快效率執行運作。目前NVIDUA將開放TensorRT-LLM前期測試，未來將整合進NVIDIA NeMo框架。而開發人員與研究人員目前可透過NGC上的NeMo框架，或是GitHub上的源碼庫取得TensorRT-LLM。