Tag: GB200

AWS打造AI工廠服務:將NVIDIA Blackwell與Trainium算力直接搬進客戶機房,解決主權與合規難題

AWS打造AI工廠服務:將NVIDIA Blackwell與Trainium算力直接搬進客戶機房,解決主權與合規難題

隨著AI模型規模日益龐大,政府與大型企業對於數據主權 (Data Sovereignty) 與合規性的需求也越來越高。AWS此次在re:Invent 2025大會上宣布推出全新AI工廠 (AI Factories)服務,將AWS的AI基礎設施,包含最新的NVIDIA加速運算平台與AWS自研Trainium晶片直接佈署至客戶既有資料中心內,協助其快速建立高效能、合規且合乎主權的AI運算環境。 ▲AWS宣布推出全新AI工廠 (AI Factories)服務,將AWS的AI基礎設施,包含最新的NVIDIA加速運算平台與AWS自研Trainium晶片直接佈署至客戶既有資料中心內 解決自建痛點,運作如「私有AWS區域」 AWS指出,對於受監管產業與公共部門而言,自建大規模AI基礎設施將面臨巨大的資本投入與採購週期挑戰。AWS此次提出AI工廠服務的核心概念,是將AWS的全套AI堆疊 (包含高速網路、儲存、資安及Bedrock、SageMaker等服務) 直接搬進客戶機房,並且由AWS負責營運。 ▲AWS此次提出AI工廠服務的核心概念,是將AWS的全套AI堆疊 (包含高速網路、儲存、資安及Bedrock、SageMaker等服務) 直接搬進客戶機房,並且由AWS負責營運 這使得該環境運作起來就像是一個「私有AWS區域」 (Private AWS Region),客戶可利用既有的電力與空間,同時享有AWS的管理服務與模型存取權,無需自行與多個供應商談判授權,大幅縮短佈署時間,並且滿足數據在地化的法規要求。 深化NVIDIA合作,將導入Grace Blackwell及後續即將推出的Vera Rubin 在硬體層面,AWS與NVIDIA的合作將進一步深化。AWS AI工廠服務將整合NVIDIA全端AI軟體與加速運算平台,其中包含支援最新的NVIDIA Grace Blackwell加速運算架構,以及接下來即將推出的NVIDIA Vera Rubin運算平台。 ...

AWS公布與OpenAI合作380億美元策略協議細節,提供EC2 UltraServers、數十萬顆NVIDIA GPU

AWS公布與OpenAI合作380億美元策略協議細節,提供EC2 UltraServers、數十萬顆NVIDIA GPU

繼上週確認與OpenAI達成380億美元的雲端協議後,亞馬遜旗下雲端服務AWS與OpenAI進一步公布此戰略合作細節,其中將由AWS為OpenAI提供其世界級的基礎設施,以「立即開始」運行其先進的AI工作負載。 此項涉及380億美元規模的協議,將在未來七年內持續增長。這意味OpenAI在結束與微軟的獨家雲端協議後,正式將AWS納為其核心的AI基礎設施供應商之一。 導入EC2 UltraServers,搭載數十萬顆GB200/GB300 GPU 根據AWS公布細節,此次合作的技術核心內容包含: 硬體規模: • AWS將為OpenAI提供Amazon EC2 UltraServers運算叢集,並且搭載數十萬顆最先進的NVIDIA GPU (包含GB200s與GB300s)。 • AWS強調其營運大規模AI基礎設施的經驗 (叢集超過50萬顆晶片),並表示此佈署未來還能擴展至數千萬顆CPU,藉此滿足代理AI (Agentic AI)工作負載的龐大規模化需求。 佈署時程: • OpenAI將立即開始使用AWS運算資源。 • 協議中的所有運算容量,目標在2026年底前佈署完畢,並且保留2027年後進一步擴展的能力。 架構設計: AWS指出,其為OpenAI建構的基礎設施採用了複雜的架構設計,透過EC2 UltraServers將NVIDIA GPU運算叢集在同一網路上互連,實現低延遲效能,使其能高效運行包含ChatGPT推論 (inference) 與下一代模型訓練 (training) ...

微軟再砸70億美元,將於威斯康辛州建造號稱「全球最強」AI資料中心

微軟再砸70億美元,將於威斯康辛州建造號稱「全球最強」AI資料中心

微軟正式宣布在美國威斯康辛州加碼投資40億美元,建設第二座超大型AI資料中心,與先前正在建設、投資金額約33億美元的首座超大型AI資料中心合計,總共投入超過70億美元金額。微軟執行長Satya Nadella更表示,這將是「世界上最強大的AI資料中心」,其運算能力將是目前全球最快超級電腦的10倍。 微軟首座大型AI資料中心位於南卡羅來納州的芒特普萊森特 (Mount Pleasant),預計佈署數十萬組NVIDIA Blackwell GB200 GPU,將在2026年初投入運轉,主要用於支撐大規模AI訓練與推論。 而第二座大型AI資料中心的規模將與第一座接近,計畫於2027年或更晚啟用。Satya Nadella指出,微軟內部將這個專案稱為「Fairwater」,其光纖總長度足以繞地球4.5圈,並且將成為新世代AI技術的基礎設施核心。 這座資料中心採用先進液冷系統,解決傳統風冷無法滿足高密度AI硬體散熱需求的問題。「Fairwater」將建置全球第二大水冷式製冷機組,採閉環水循環設計,熱水經管道輸送至冷卻「鰭片」,再由172台巨型風扇降溫,並且回流至系統重複使用。 微軟指出,該系統在營運期間幾乎不會造成水資源蒸發損失,年度用水量僅與一間全年服務餐廳相同。 能源使用方面,微軟計畫在資料中心西北約150英里處建設250兆瓦規模的太陽能發電廠,為兩座資料中心提供部分清潔能源,減少化石燃料發電造成的碳排放。根據微軟估計,兩座資料中心合計可能需要高達900兆瓦的電力運作。 儘管微軟將「Fairwater」定位為「世界最強」,但這一頭銜恐怕很快就會面臨挑戰。OpenAI、甲骨文與軟銀合作的「星際之門」計畫已經規劃建造吉瓦級別用電量的AI資料中心,而雲端服務業者Vantage也在今年8月底宣布斥資250億美元於德州建造1.4吉瓦規模的AI資料中心,Google則於7月揭露將在印度安得拉邦興建 1吉瓦規模資料中心設施。

NVIDIA進一步解釋「Blackwell」顯示架構細節,在更高效能輸出下維持運算組合彈性

OpenAI等業者與美國政府合作推動的「Stargate」計畫,將使用6.4萬組NVIDIA GB200 GPU加速

今年初時,包含OpenAI、Softbank、甲骨文在內業者與白宮共同宣布成立名為「Stargate」人工智慧資料中心計畫,將額外加入阿拉伯聯合大公國的人工智慧投資公司MGX注入資金,預計在未來4年內以5兆美元經費建造OpenAI全新人工智慧基礎設施。依照彭博新聞報導指稱,此計畫位於德州阿比林 (Abilene)的資料中心,預計會在2026年底前安裝6萬4000組NVIDIA GB200 GPU加速器。 而這些GPU加速器預計分階段完成安裝,首波預計先在今年夏季內完成安裝1萬6000組。至於位於德州阿比林的資料中心將由OpenAI與甲骨文合作相關設計,並且由甲骨文負責管理後續投入運作的超級電腦。 不過,包含甲骨文、NVIDIA均未針對報導內容作任何回應。 除了德州阿比林資料中心,OpenAI與Softbank目前也已經在賓州、威斯康辛州、俄勒岡州勘查更多適合資料中心的建置地點,包含鹽湖城在內都可能是候選地點。 在「Stargate」計畫裡,將由OpenAI負責營運,財務部分則由Softbank負責,並且由Softbank執行長孫正義擔任董事長,而包含甲骨文、Arm、微軟、NVIDIA與OpenAI本身都會是此全新人工智慧基礎設施的技術合作夥伴,亦即將整合多方人工智慧技術資源推動更高算力表現,同時也將彼此共享人工智慧基礎設施算力資源。

NVIDIA攜手聯發科打造精簡版超級晶片,用於超小型人工智慧超級電腦「Project DIGITS」

NVIDIA攜手聯發科打造精簡版超級晶片,用於超小型人工智慧超級電腦「Project DIGITS」

在CES 2025展前主題演講中,NVIDIA揭曉針對人工智慧研究、資料科學等領域運算需求打造的超小型人工智慧超級電腦「Project DIGITS」,其中更採用與聯發科合作設計的GB10 Superchip,並且採用128GB高頻寬統一記憶體設計。 雖然NVIDIA與聯發科的合作,並非像先前市場猜測是讓聯發科推出對應Windows on Arm架構、加上NVIDIA顯示晶片設計的產品,但「Project DIGITS」的問世在某種程度上也象徵聯發科以此佈局超算電腦應用市場,同時也能視為NVIDIA順利以Arm架構處理器佈局「個人PC」 (雖然是定位超級電腦)市場。 從GB10 Superchip設計來看,主要是以聯發科過往打造Arm架構處理器的經驗,配合與NVIDIA合作調整,讓本身採20組Grace CPU核心、以NVLink-C2C連接Blackwell GPU的GB10 Superchip,幾乎可視為是GB200 Superchip的簡化版本,對應1 PTOPS FP4的人工智慧算力表現。 而在「Project DIGITS」除了配置GB10 Superchip,更採用LPDDR5X規格設計的128GB高頻寬統一記憶體,配置4TB SSD儲存容量,支援Wi-Fi、藍牙與USB連接規格,並且藉由ConnectX晶片對應NCCL、RDMA與GPUDirect等技術。 至於NVIDIA DGX作業系統環境則是基於Linux,可對應NVIDIA完整人工智慧應用資源。 「Project DIGITS」預計從即日起開放開發者、研究機構、學術單位登記,將從今年5月開始透過特定合作通路銷售,建議售價為3000美元。而若需要更高算力,NVIDIA也表示「Project DIGITS」可藉由串接方式堆疊算力。

微軟針對雲端服務推出自製安全晶片Azure Integrated HSM、負責資料吞吐負載的Azure Boost DPU

微軟針對雲端服務推出自製安全晶片Azure Integrated HSM、負責資料吞吐負載的Azure Boost DPU

去年在Ignite活動上宣布推出兩款對應Azure雲端服務的客製化晶片,包含針對人工智慧工作執行與自動生成式人工智慧應用最佳化的Azure Maia AI加速器,以及透過Arm架構設計、針對通用雲端運算需求的Azure Cobalt CPU,微軟在今年度的Ignite 2024更宣布推出加強資料安全的客製化晶片Azure Integrated HSM,更宣布推出微軟首款客製化DPU,藉此分攤伺服器內資料吞吐傳輸工作負載。 微軟表示,Azure Integrated HSM將從2025年開始整合至所有Azure伺服器內,以專用硬體形式實現資料安全防護,並且加強服務金鑰管理,讓所有資料都能以加密及金鑰機制防護,同時不影響服務運作效能,或是增加傳輸延遲。 另外,微軟也宣布推出以Azure Boost DPU為稱的自有客製化DPU,據此分攤伺服器內資料吞吐傳輸工作負載,標榜能以高效能與低功耗形式運作,讓伺服器運算效能能更專注用於服務運作,並且由Azure Boost DPU負責資料傳遞任務,預期配置此DPU的伺服器整體工作負載功耗,將比現有伺服器降低3-4倍。 除了持續採用自有客製化處理器,微軟表示仍會在Azure伺服器內採用NVIDIA、AMD提供處理器產品,其中包含將導入NVIDIA今年宣布推出以「Blackwell」顯示架構設計的GB200運算平台,以及AMD新推出的EPYC伺服器處理器,藉此推動規模更龐大的人工智慧運算需求。 而在伺服器基礎架構上,微軟也宣布因應大型人工智慧運算需求導入液冷系統設計,以利伺服器系統能更穩定運作,同時也與Meta合作全新分類電源架,透過400V直流電員,讓每組伺服器機架可使用人工智慧加速器數量增加35%,並且能以動態調整方式因應不同規模人工智慧運算所需供電型態,讓功耗表現有更高效率。

Welcome Back!

Login to your account below

Retrieve your password

Please enter your username or email address to reset your password.