這一全新開(kāi)放模型系列引入了開(kāi)放的混合 Mamba-Transformer MoE 架構(gòu),使多智能體系統(tǒng)能夠進(jìn)行快速長(zhǎng)上下文推理。
代理式AI系統(tǒng)日益依賴協(xié)同運(yùn)行的智能體集合,包含檢索器、規(guī)劃器、工具執(zhí)行器、驗(yàn)證器等,它們需在大規(guī)模上下文上長(zhǎng)時(shí)間協(xié)同工作。這類系統(tǒng)需要能夠提供快速吞吐、高推理精度及大規(guī)模輸入持續(xù)一致性的模型。它們也需要一定的開(kāi)放性,使開(kāi)發(fā)者能夠在任意運(yùn)行環(huán)境定制、擴(kuò)展和部署模型。
NVIDIANemotron3系列開(kāi)放模型(Nano、Super、Ultra)、數(shù)據(jù)集和技術(shù)專為在新時(shí)代構(gòu)建專業(yè)代理式AI而設(shè)計(jì)。
該系列引入了異構(gòu)Mamba-Transformer混合專家(mixture-of-experts,MoE)架構(gòu)、交互式環(huán)境強(qiáng)化學(xué)習(xí)(reinforcement learning,RL),以及原生100萬(wàn)token上下文窗口,可為多智能體應(yīng)用提供高吞吐量、長(zhǎng)時(shí)推理能力。
Nemotron3的新特性
Nemotron3引入了多項(xiàng)創(chuàng)新技術(shù),可精準(zhǔn)滿足代理式系統(tǒng)需求:
混合Mamba-TransformerMoE主干提供出色的測(cè)試時(shí)效率與長(zhǎng)程推理能力。
圍繞真實(shí)世界代理式任務(wù)設(shè)計(jì)的多環(huán)境強(qiáng)化學(xué)習(xí)。
100萬(wàn)token上下文長(zhǎng)度支持深度多文檔推理與長(zhǎng)時(shí)間智能體記憶。
開(kāi)放透明的訓(xùn)練管道,包含數(shù)據(jù)、權(quán)重及方案。
Nemotron3 Nano現(xiàn)已推出并附帶現(xiàn)成使用指南。Super與Ultra將于稍晚發(fā)布。
簡(jiǎn)單提示示例
Nemotron3模型的核心技術(shù)
混合Mamba-TransformerMoE架構(gòu)
Nemotron3將三種架構(gòu)整合成一個(gè)主干:
Mamba層:實(shí)現(xiàn)高效序列建模
Transformer層:保障推理精度
MoE路由:實(shí)現(xiàn)可擴(kuò)展計(jì)算效率
Mamba層擅長(zhǎng)以極低顯存開(kāi)銷追蹤長(zhǎng)程依賴,即使處理數(shù)十萬(wàn)token仍能保持穩(wěn)定的性能。Transformer層通過(guò)精細(xì)注意力機(jī)制對(duì)此進(jìn)行了補(bǔ)充,捕捉例如代碼操作、數(shù)學(xué)推理或復(fù)雜規(guī)劃等任務(wù)所需的結(jié)構(gòu)與邏輯關(guān)聯(lián)。
MoE組件在不增加密集計(jì)算開(kāi)銷的前提下提升了有效參數(shù)數(shù)量。每個(gè)token僅激活一部分專家,從而降低了延遲并提高了吞吐量。該架構(gòu)特別適合需要同時(shí)運(yùn)行大量輕量級(jí)智能體的集群場(chǎng)景,每個(gè)智能體都生成計(jì)劃、檢查上下文或執(zhí)行基于工具的工作流。

圖1:Nemotron3混合架構(gòu)。該模型通過(guò)交錯(cuò)部署Mamba-2與MoE層,輔以少量自注意力層,在保持領(lǐng)先精度的同時(shí)實(shí)現(xiàn)推理吞吐量最大化。
多環(huán)境強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練
為使Nemotron3契合真實(shí)代理式行為,該模型在NeMoGym(一個(gè)用于構(gòu)建和擴(kuò)展RL環(huán)境的開(kāi)源庫(kù))中通過(guò)跨多種環(huán)境的強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練。這些環(huán)境評(píng)估模型執(zhí)行連續(xù)動(dòng)作序列的能力(不僅是單次響應(yīng)),例如生成正確的工具調(diào)用、編寫功能性代碼,或生成滿足可驗(yàn)證標(biāo)準(zhǔn)的多步驟計(jì)劃。
這種基于軌跡的強(qiáng)化學(xué)習(xí)帶來(lái)了在多步驟工作流中表現(xiàn)穩(wěn)定的模型,減少推理漂移,并能處理代理式管道中常見(jiàn)的結(jié)構(gòu)化操作。由于NeMoGym是開(kāi)源的,開(kāi)發(fā)者可在為特定領(lǐng)域任務(wù)定制模型時(shí)復(fù)用、擴(kuò)展甚至創(chuàng)建自己的環(huán)境。
這些環(huán)境和RL數(shù)據(jù)集連同NeMoGym一起上線,供有意使用這些環(huán)境訓(xùn)練自己模型的用戶使用。

圖2:Nemotron3 Nano通過(guò)混合MoE架構(gòu)實(shí)現(xiàn)極高的吞吐效率,并借助NeMoGym的先進(jìn)強(qiáng)化學(xué)習(xí)技術(shù)達(dá)到領(lǐng)先精度
100萬(wàn)token上下文長(zhǎng)度
Nemotron3的100萬(wàn)token上下文使其能夠在大型代碼庫(kù)、長(zhǎng)文檔、擴(kuò)展對(duì)話及聚合檢索內(nèi)容中進(jìn)行持續(xù)推理。智能體無(wú)需依賴碎片化的分塊啟發(fā)式方法,就可以在單個(gè)上下文窗口中完整保留證據(jù)集、歷史緩沖及多階段計(jì)劃。
這種長(zhǎng)上下文窗口得益于Nemotron3的混合Mamba-Transformer架構(gòu),它能夠高效處理超大規(guī)模的序列。MoE路由也能保持較低的單個(gè)token計(jì)算成本,使得在推理時(shí)處理這些大型序列成為可能。
對(duì)于企業(yè)級(jí)檢索增強(qiáng)生成、合規(guī)性分析、多小時(shí)智能體會(huì)話或整體存儲(chǔ)庫(kù)理解等場(chǎng)景,100萬(wàn)token窗口可顯著加固事實(shí)基礎(chǔ)并減少上下文碎片化。
Nemotron3 Super與Ultra的核心技術(shù)
潛在MoE
Nemotron3 Super與Ultra引入了潛在MoE,其中專家先在共享潛在表示中運(yùn)行,然后再將輸出結(jié)果投影回token空間。該方法使模型能夠在相同推理成本下調(diào)用多達(dá)4倍的專家,從而更好地圍繞微妙語(yǔ)義結(jié)構(gòu)、領(lǐng)域抽象或多跳推理模式實(shí)現(xiàn)專業(yè)化。

圖3:標(biāo)準(zhǔn)MoE與潛在MoE架構(gòu)對(duì)比。在潛在MoE中,token被投影至更小的潛在維度進(jìn)行專家路由與計(jì)算,在降低通信成本的同時(shí)支持更多專家參與,并提高每字節(jié)精度。
多token預(yù)測(cè)(MTP)
MTP使模型能夠在一次前向傳播中預(yù)測(cè)多個(gè)未來(lái)token,從而顯著提高長(zhǎng)推理序列和結(jié)構(gòu)化輸出的吞吐量。對(duì)于規(guī)劃、軌跡生成、擴(kuò)展思維鏈或代碼生成,MTP可降低延遲并提高智能體的響應(yīng)速度。

圖4:多token預(yù)測(cè)(源自論文《通過(guò)多token預(yù)測(cè)實(shí)現(xiàn)更優(yōu)更快的大語(yǔ)言模型》)可同時(shí)預(yù)測(cè)多個(gè)未來(lái)token,在訓(xùn)練階段將精度提高約2.4%,在推理階段實(shí)現(xiàn)了推測(cè)性解碼加速。
NVFP4訓(xùn)練
Super與Ultra模型采用NVFP4精度進(jìn)行預(yù)訓(xùn)練,NVIDIA的4位浮點(diǎn)格式可為訓(xùn)練與推理提供業(yè)界領(lǐng)先的成本精度比。我們?yōu)镹emotron3設(shè)計(jì)了更新版NVFP4方案,確保在25萬(wàn)億token預(yù)訓(xùn)練數(shù)據(jù)集上能夠?qū)崿F(xiàn)精準(zhǔn)且穩(wěn)定的預(yù)訓(xùn)練。預(yù)訓(xùn)練過(guò)程中的大部分浮點(diǎn)乘加運(yùn)算均采用NVFP4格式。
持續(xù)致力于開(kāi)放模型
Nemotron3彰顯了NVIDIA對(duì)透明度與開(kāi)發(fā)者賦能的承諾。該模型的權(quán)重已根據(jù)NVIDIA開(kāi)放模型許可協(xié)議(NVIDIA Open Model License)公開(kāi)發(fā)布。NVIDIA的合成預(yù)訓(xùn)練語(yǔ)料庫(kù)(近10萬(wàn)億token)可以被查閱或重用。開(kāi)發(fā)者還可獲取NemotronGitHub庫(kù)中的詳細(xì)訓(xùn)練與后訓(xùn)練方案,實(shí)現(xiàn)完全的可復(fù)現(xiàn)性與定制化。
Nemotron3 Nano已發(fā)布,為高吞吐量、長(zhǎng)上下文代理式系統(tǒng)奠定了基礎(chǔ)。Super與Ultra將于2026年上半年發(fā)布,將在此基礎(chǔ)上進(jìn)一步深化推理能力和提高架構(gòu)效率。
Nemotron3 Nano現(xiàn)已發(fā)布
系列首款模型Nemotron3 Nano已于近日發(fā)布。這個(gè)總參數(shù)300億、激活參數(shù)30億的模型專為DGX Spark、Hopper GPU及Blackwell GPU設(shè)計(jì),讓用戶能夠使用Nemotron3系列中較高效的模型進(jìn)行開(kāi)發(fā)。
如果您想要了解更多關(guān)于Nemotron3 Nano的技術(shù)細(xì)節(jié),可訪問(wèn)Hugging Face博客,或閱讀技術(shù)報(bào)告。
該模型可達(dá)到極高的吞吐量效率,在Artificial Analysis Intelligence Index上成績(jī)領(lǐng)先,并且在Artificial AnalysisOpenness Index上保持了與NVIDIANemotronNano V2相同的分?jǐn)?shù)。這充分展現(xiàn)了其在多智能體任務(wù)中的高效性,同時(shí)兼具透明度與可定制性。

圖5:在Artificial AnalysisIntelligence Indexv3.0上,Nemotron3 Nano的精度(52)領(lǐng)先于同等規(guī)模模型。
開(kāi)發(fā)者現(xiàn)可在多種部署與開(kāi)發(fā)工作流中使用Nemotron3 Nano:
通過(guò)NVIDIA使用指南啟動(dòng)模型
我們?yōu)槎鄠€(gè)主流推理引擎提供現(xiàn)成使用指南:
vLLM使用指南:通過(guò)高吞吐量連續(xù)批處理和流式輸出部署Nemotron3 Nano。
SGLang使用指南:運(yùn)行專為多智能體工具調(diào)用工作負(fù)載優(yōu)化的快速、輕量級(jí)推理。
TRT LLM使用指南:部署專為低延遲生產(chǎn)級(jí)環(huán)境完全優(yōu)化的TensorRTLLM引擎。
每套使用指南均包含配置模板、性能優(yōu)化建議及參考腳本,助您在數(shù)分鐘內(nèi)啟動(dòng)Nemotron3 Nano。
此外,從GeForce RTX臺(tái)式電腦/筆記本電腦、RTX Pro工作站到DGX Spark,您可以立即在任意NVIDIA GPU上使用Nemotron,并借助Llama.cpp、LM Studio和Unsloth等頂級(jí)框架與工具上手。
使用Nemotron開(kāi)放訓(xùn)練數(shù)據(jù)集進(jìn)行開(kāi)發(fā)
NVIDIA同時(shí)發(fā)布了在整個(gè)模型開(kāi)發(fā)期間使用的開(kāi)放數(shù)據(jù)集,為高性能、可信模型的構(gòu)建帶來(lái)了空前的透明度。
新數(shù)據(jù)集的特點(diǎn)包括:
Nemotron預(yù)訓(xùn)練:新的3萬(wàn)億token數(shù)據(jù)集,通過(guò)合成增強(qiáng)與標(biāo)注管道進(jìn)行增強(qiáng),更加全面地覆蓋代碼、數(shù)學(xué)及推理場(chǎng)景。
Nemotron后訓(xùn)練3.0:1,300萬(wàn)樣本語(yǔ)料庫(kù),用于監(jiān)督式微調(diào)與強(qiáng)化學(xué)習(xí),為Nemotron3 Nano的對(duì)齊與推理能力提供支持。
Nemotron強(qiáng)化學(xué)習(xí)數(shù)據(jù)集:精選的強(qiáng)化學(xué)習(xí)數(shù)據(jù)集與環(huán)境集合,涵蓋工具使用、規(guī)劃及多步驟推理。
Nemotron智能體安全數(shù)據(jù)集:近1.1萬(wàn)條AI智能體工作流軌跡集合,幫助研究人員評(píng)估和減輕代理式系統(tǒng)中的新型安全風(fēng)險(xiǎn)。
配合NVIDIANeMoGym、RL、Data Designer及Evaluator開(kāi)放庫(kù),這些開(kāi)放數(shù)據(jù)集使開(kāi)發(fā)者能夠訓(xùn)練、增強(qiáng)和評(píng)估他們自己的Nemotron模型。
探索NemotronGitHub:預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)方案
NVIDIA維護(hù)著一個(gè)開(kāi)放的NemotronGitHub庫(kù),其中包含:
預(yù)訓(xùn)練方案(已發(fā)布),展示Nemotron3 Nano的訓(xùn)練過(guò)程
用于多環(huán)境優(yōu)化的強(qiáng)化學(xué)習(xí)對(duì)齊方案
數(shù)據(jù)處理管道、分詞器配置及長(zhǎng)上下文設(shè)置
后續(xù)更新將加入更多后訓(xùn)練與微調(diào)方案
如果您想訓(xùn)練自己的Nemotron、擴(kuò)展Nano或創(chuàng)建特定領(lǐng)域的變體,GitHub庫(kù)提供了文檔、配置及工具,可從頭至尾重現(xiàn)關(guān)鍵步驟。
這種開(kāi)放性實(shí)現(xiàn)了完整閉環(huán):您可以運(yùn)行、部署模型,查驗(yàn)?zāi)P偷臉?gòu)建方式,甚至訓(xùn)練您自己的模型,全程僅需使用NVIDIA開(kāi)放資源。
Nemotron3 Nano現(xiàn)已上線。即刻開(kāi)始使用NVIDIA開(kāi)放模型、開(kāi)放工具、開(kāi)放數(shù)據(jù)及開(kāi)放訓(xùn)練基礎(chǔ)設(shè)施,構(gòu)建長(zhǎng)上下文、高吞吐量的代理式系統(tǒng)。
Nemotron模型推理挑戰(zhàn)賽
加速開(kāi)放研究是Nemotron團(tuán)隊(duì)的核心使命。為此,我們十分高興地宣布一項(xiàng)新的社區(qū)競(jìng)賽,其內(nèi)容是使用Nemotron的開(kāi)放模型與數(shù)據(jù)集提高Nemotron的推理性能。
關(guān)于作者
Chris Alexiuk 是 NVIDIA 的深度學(xué)習(xí)開(kāi)發(fā)者倡導(dǎo)者,負(fù)責(zé)創(chuàng)建技術(shù)資源,幫助開(kāi)發(fā)者使用 NVIDIA 提供的一整套強(qiáng)大 AI 工具。Chris 擁有機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)背景,對(duì)大型語(yǔ)言模型的一切充滿熱情。
Shashank Verma 是 NVIDIA 的一名深入學(xué)習(xí)的技術(shù)營(yíng)銷工程師。他負(fù)責(zé)開(kāi)發(fā)和展示各種深度學(xué)習(xí)框架中以開(kāi)發(fā)人員為中心的內(nèi)容。他從威斯康星大學(xué)麥迪遜分校獲得電氣工程碩士學(xué)位,在那里他專注于計(jì)算機(jī)視覺(jué)、數(shù)據(jù)科學(xué)的安全方面和 HPC 。
Chintan Patel是NVIDIA的高級(jí)產(chǎn)品經(jīng)理,致力于將GPU加速的解決方案引入HPC社區(qū)。 他負(fù)責(zé)NVIDIA GPU Cloud注冊(cè)表中HPC應(yīng)用程序容器的管理和提供。 在加入NVIDIA之前,他曾在Micrel,Inc.擔(dān)任產(chǎn)品管理,市場(chǎng)營(yíng)銷和工程職位。他擁有圣塔克拉拉大學(xué)的MBA學(xué)位以及UC Berkeley的電氣工程和計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5594瀏覽量
109758 -
AI
+關(guān)注
關(guān)注
91文章
39793瀏覽量
301454 -
模型
+關(guān)注
關(guān)注
1文章
3752瀏覽量
52112
原文標(biāo)題:深入解析 NVIDIA Nemotron 3:使其高效精準(zhǔn)的技術(shù)、工具與數(shù)據(jù)
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
面向科學(xué)仿真的開(kāi)放模型系列NVIDIA Apollo正式發(fā)布
英偉達(dá)開(kāi)源Nemotron-4 340B系列模型,助力大型語(yǔ)言模型訓(xùn)練
NVIDIA Nemotron-4 340B模型幫助開(kāi)發(fā)者生成合成訓(xùn)練數(shù)據(jù)
NVIDIA推出開(kāi)放式Llama Nemotron系列模型
NVIDIA 推出開(kāi)放推理 AI 模型系列,助力開(kāi)發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)
ServiceNow攜手NVIDIA構(gòu)建150億參數(shù)超級(jí)助手
歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語(yǔ)言模型
NVIDIA Nemotron Nano 2推理模型發(fā)布
NVIDIA Nemotron模型如何推動(dòng)AI發(fā)展
利用NVIDIA Cosmos開(kāi)放世界基礎(chǔ)模型加速物理AI開(kāi)發(fā)
使用NVIDIA Nemotron RAG和Microsoft SQL Server 2025構(gòu)建高性能AI應(yīng)用
NVIDIA推動(dòng)面向數(shù)字與物理AI的開(kāi)源模型發(fā)展
NVIDIA 推出 Nemotron 3 系列開(kāi)放模型
深入解析NVIDIA Nemotron 3系列開(kāi)放模型
評(píng)論