自 2016 年推出 NVIDIA DGX 以來,NVIDIA 與 OpenAI 便開始共同推動(dòng) AI 技術(shù)的邊界。此次 OpenAI gpt-oss-20b 和 gpt-oss-120b 模型的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIA 在 NVIDIA Blackwell 架構(gòu)上優(yōu)化了這兩款全新的開放權(quán)重模型并實(shí)現(xiàn)了推理性能加速,在 NVIDIA 系統(tǒng)上至高達(dá)到每秒 150 萬個(gè) Token (TPS)。
這兩個(gè) gpt-oss 模型是具有鏈?zhǔn)剿季S和工具調(diào)用能力的文本推理大語言模型 (LLM),采用了廣受歡迎的混合專家模型 (MoE) 架構(gòu)和 SwigGLU 激活函數(shù)。其注意力層使用 RoPE 技術(shù),上下文規(guī)模為 128k,交替使用完整上下文和長(zhǎng)度為 128 個(gè) Token 的滑動(dòng)窗口。兩個(gè)模型的精度為 FP4,可運(yùn)行在單個(gè) 80GB 數(shù)據(jù)中心 GPU 上,并由 Blackwell 架構(gòu)提供原生支持。

這兩個(gè)模型在 NVIDIA Hopper 架構(gòu) Tensor Core GPU 上訓(xùn)練而成,gpt-oss-120b 模型訓(xùn)練耗時(shí)超過 210 萬小時(shí),而 gpt-oss-20b 模型訓(xùn)練耗時(shí)約為前者的十分之一。除了NVIDIA TensorRT-LLM外,NVIDIA 還與 Hugging Face Transformers、Ollama、vLLM 等多個(gè)頂級(jí)開源框架合作,提供優(yōu)化內(nèi)核和模型增強(qiáng)。本文將介紹 NVIDIA 如何將 gpt-oss 集成到軟件平臺(tái)以滿足開發(fā)者需求。

表 1. OpenAI gpt-oss-20b 和 gpt-oss-120b 模型規(guī)格,包括總參數(shù)量、活躍參數(shù)量、專家模型數(shù)和輸入上下文長(zhǎng)度
NVIDIA 還與 OpenAI 和社區(qū)一同對(duì)性能進(jìn)行優(yōu)化,增加了以下功能:
Blackwell 上用于注意力預(yù)填充 (prefill)、注意力解碼 (decode) 和 MoE 低延遲的 TensorRT-LLM Gen 內(nèi)核。
Blackwell 上的 CUTLASS MoE 內(nèi)核。
Hopper 上用于專用注意力機(jī)制的 XQA 內(nèi)核。
通過適用于 LLM 的 FlashInfer 內(nèi)核服務(wù)庫提供優(yōu)化的注意力與 MoE 路由內(nèi)核。
支持 MoE 的 OpenAI Triton 內(nèi)核,適用于 TensorRT-LLM 和 vLLM。
使用 vLLM 進(jìn)行部署
NVIDIA 與 vLLM 合作,在共同驗(yàn)證準(zhǔn)確性的同時(shí),分析并提升了 Hopper 和 Blackwell 架構(gòu)的性能。數(shù)據(jù)中心開發(fā)者可通過 FlashInfer LLM 內(nèi)核服務(wù)庫使用經(jīng) NVIDIA 優(yōu)化的內(nèi)核。
vLLM 建議使用 uv 進(jìn)行 Python 依賴項(xiàng)管理。用戶可以使用 vLLM 啟動(dòng)一個(gè)與 OpenAI API 兼容的 Web 服務(wù)器。以下命令將自動(dòng)下載模型并啟動(dòng)服務(wù)器。更多詳細(xì)信息參見文檔和 vLLM Cookbook 指南。
uv run--with vllm vllm serve openai/gpt-oss-20b
使用 TensorRT-LLM 進(jìn)行部署
上述優(yōu)化已包含在 NVIDIA / TensorRT-LLM GitHub 庫中,開發(fā)者可根據(jù)庫中的部署指南啟動(dòng)其高性能服務(wù)器,并按照指南從 Hugging Face 下載模型 checkpoint。NVIDIA 與 Transformers 庫合作,提升了新模型的開發(fā)者體驗(yàn)。指南還提供 Docker 容器以及低延遲和最大吞吐量場(chǎng)景下性能配置的指導(dǎo)。
在 NVIDIA 系統(tǒng)上實(shí)現(xiàn)
每秒 100 萬個(gè) Token 以上的性能
NVIDIA 工程師與 OpenAI 密切合作,確保了新發(fā)布的 gpt-oss-120b 和 gpt-oss-20b 模型在 NVIDIA Blackwell 和 NVIDIA Hopper 平臺(tái)上實(shí)現(xiàn)第零天 (Day 0) 性能提升。
根據(jù)早期性能測(cè)量結(jié)果,規(guī)模更大、計(jì)算需求更高的 gpt-oss-120b 模型,在 NVIDIA 系統(tǒng)上可實(shí)現(xiàn)每秒 150 萬個(gè) Token 的性能或服務(wù)約 5 萬名并發(fā)用戶。Blackwell 搭載了許多能夠提高推理性能的架構(gòu)技術(shù),包括使用了 FP4 Tensor Core 的第二代 Transformer Engine,以及高帶寬的第五代 NVIDIA NVLink 和 NVIDIA NVLink Switch,使得 72 顆 Blackwell GPU 可視作一個(gè)大型 GPU 運(yùn)行。
NVIDIA 平臺(tái)的性能、靈活性和創(chuàng)新速度使得該生態(tài)系統(tǒng)能夠在 Day 0 便以高吞吐量和低單位 Token 成本運(yùn)行最新模型。
通過 NVIDIA Launchable 試用經(jīng)過優(yōu)化的模型
還可以使用 Open AI Cookbook 上 JupyterLab Notebook 中的 Python API 部署 TensorRT-LLM,并將其作為NVIDIA Launchable在構(gòu)建平臺(tái)中使用。用戶可以在預(yù)配置環(huán)境中一鍵部署經(jīng)過優(yōu)化的模型,并在多個(gè)云平臺(tái)進(jìn)行測(cè)試。
使用 NVIDIA Dynamo 進(jìn)行部署
NVIDIA Dynamo是一個(gè)幫助開發(fā)者為大規(guī)模應(yīng)用部署 OpenAI gpt-oss 等模型的開源推理服務(wù)平臺(tái)。它與主流的推理后端集成,并提供 LLM 感知路由、彈性自動(dòng)擴(kuò)展和分離服務(wù)等功能。在應(yīng)用輸入序列長(zhǎng)度 (ISL) 長(zhǎng)的情況下,Dynamo 的分離服務(wù)可顯著提升性能。在 32K ISL 場(chǎng)景中,Dynamo 在系統(tǒng)吞吐量和 GPU 預(yù)算相同的情況下,交互性能較合并服務(wù)提升了 4 倍。如需使用 Dynamo 進(jìn)行部署,可參考該指南:
https://github.com/ai-dynamo/dynamo/blob/main/components/backends/trtllm/gpt-oss.md
在 NVIDIA GeForce RTX AI PC 本地運(yùn)行
開發(fā)者可在本地運(yùn)行 AI ,以實(shí)現(xiàn)更快的迭代、更低的延遲和更可靠的數(shù)據(jù)隱私保護(hù)。兩個(gè)模型均具有原生 MXFP4 精度,可在 NVIDIA RTX PRO GPU 驅(qū)動(dòng)的專業(yè)工作站上運(yùn)行,其中 gpt-oss-20b 可部署在任何具有不低于 16GB 顯存的 GeForce RTX AI PC 上。開發(fā)者可通過 Ollama、Llama.cpp 或 Microsoft AI Foundry Local,使用其常用的應(yīng)用和 SDK 體驗(yàn)這兩個(gè)模型。如需使用,請(qǐng)?jiān)L問 RTX AI Garage。

圖 1. 使用 Ollama 安裝和運(yùn)行模型的步驟
通過 NVIDIA NIM 簡(jiǎn)化企業(yè)部署
企業(yè)開發(fā)者可通過 NVIDIA API 目錄中的NVIDIA NIM預(yù)覽 API 和 Web Playground 環(huán)境試用 gpt-oss 模型。這兩個(gè)模型已被打包成 NVIDIA NIM,可靈活、輕松地部署在任何 GPU 加速的基礎(chǔ)設(shè)施上,同時(shí)保證數(shù)據(jù)隱私和提供企業(yè)級(jí)安全。
下載和部署預(yù)打包、可移植式且經(jīng)過優(yōu)化的 NIM:
下載 gpt-oss-120b
鏈接:https://www.nvidia.cn/ai/
文檔:https://docs.api.nvidia.com/nim/reference/openai-gpt-oss-120b
下載 gpt-oss-20b
鏈接:https://www.nvidia.cn/ai/
文檔:https://docs.api.nvidia.com/nim/reference/openai-gpt-oss-20b
隨著兩個(gè) gpt-oss 模型被全面集成到 NVIDIA 開發(fā)者生態(tài)系統(tǒng)中,開發(fā)者可選擇最有效的解決方案??稍?NVIDIA API 目錄用戶界面或通過 OpenAI Cookbook 中的 NVIDIA 開發(fā)者指南開始使用。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5598瀏覽量
109804 -
OpenAI
+關(guān)注
關(guān)注
9文章
1245瀏覽量
10110
原文標(biāo)題:NVIDIA 從云到邊緣加速 OpenAI gpt-oss 模型部署,實(shí)現(xiàn) 150 萬 TPS 推理
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
從模型到產(chǎn)品:Qwen2.5-VL在BM1684X邊緣計(jì)算部署全攻略
如何在NVIDIA Jetson AGX Thor上部署1200億參數(shù)大模型
GPT-5.1發(fā)布 OpenAI開始拼情商
NVIDIA TensorRT LLM 1.0推理框架正式上線
NVIDIA Nemotron Nano 2推理模型發(fā)布
Dynamo 0.4在NVIDIA Blackwell上通過PD分離將性能提升4倍
澎峰科技完成OpenAI最新開源推理模型適配
訊飛星辰MaaS平臺(tái)率先上線OpenAI最新開源模型
OpenAI與NVIDIA共同開發(fā)全新開放模型
亞馬遜云科技現(xiàn)已上線OpenAI開放權(quán)重模型
OpenAI發(fā)布2款開源模型
如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署
邊緣計(jì)算中的機(jī)器學(xué)習(xí):基于 Linux 系統(tǒng)的實(shí)時(shí)推理模型部署與工業(yè)集成!
NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬TPS推理
評(píng)論