Tag: Nemotron 3

NVIDIA收購SchedMD鞏固AI護城河,同步發表Nemotron 3模型:導入Mamba架構、效率暴增4倍

NVIDIA收購SchedMD鞏固AI護城河,同步發表Nemotron 3模型:導入Mamba架構、效率暴增4倍

為了在競爭激烈的AI戰場中維持霸主地位,NVIDIA目前佈局已經超越單純的GPU硬體銷售,繼日前接連宣布對外投資OpenAI等業者、入股電子設計自動化業者Synopsys,稍早更宣布收購開源工作負載調度軟體開發商SchedMD,並且推出採用全新Mamba-Transformer混合架構的Nemotron 3系列AI模型。這一連串動作顯示 NVIDIA正試圖從底層算力管理到上層模型應用,全面築起高聳的生態系護城河。 買下SchedMD,掌握AI算力的「交通指揮官」 NVIDIA宣布收購總部位於加州的SchedMD。這家公司或許對一般大眾來說很陌生,但在超級電腦與高效能運算 (HPC) 領域卻是赫赫有名,因為他們正是知名的開源工作負載管理器Slurm的主要維護者與商業支持提供商。 Slurm被廣泛應用於全球的資料中心與超級電腦 (包括NVIDIA自家系統),用來管理龐大的運算任務排程。隨著生成式AI的訓練與推論需求爆炸性增長,如何有效率地調度成千上萬顆GPU成為關鍵,因此也讓Slurm應用需求增加。 NVIDIA在官方部落格中強調,收購後將繼續維持SchedMD的開源商業模式。透過這次收購,NVIDIA不僅能確保這個「AI基礎設施的關鍵拼圖」能與自家硬體進行更深度的最佳化,也能更緊密地綁定雲端基礎設施客戶 (如CoreWeave)與學術研究機構。 Nemotron 3登場:Mamba架構打破三難困境 同日,NVIDIA也揭曉最新的AI模型系列「Nemotron 3」。這次更新的重點不在於單純堆疊參數,而是架構上的革新。 NVIDIA生成式AI軟體副總裁Kari Briski指出,目前的開發者面臨著「極度開放、極度聰明、極度高效」的三難困境 (Trifecta)。為了突破瓶頸,Nemotron 3採用結合近期興起的Mamba,以及廣泛使用的Transformer所建立混合專家模型 (MoE) 架構。 這種混合架構的優勢在於引入了「選擇性狀態空間模型」,使其在處理長達100萬組詞元 (token)的超長上下文 (Context) 時,不需要像傳統Transformer那樣建立龐大的注意力圖譜 (Attention Maps) 與快取。 根據NVIDIA的數據顯示「Nemotron 3」有以下提升: ...

Welcome Back!

Login to your account below

Retrieve your password

Please enter your username or email address to reset your password.