Baseten、DeepInfra、Fireworks AI 和 Together AI 正通過在 NVIDIA Blackwell 平臺上運行優(yōu)化的推理堆棧,幫助各行業(yè)降低每 token 成本。
一次醫(yī)療領(lǐng)域的診斷洞察、一次互動游戲中角色的對話、一次來自客服代理的自主解決方案——這些由 AI 驅(qū)動的交互,皆基于同一智能單元:一個token。
要擴展這些 AI 交互,企業(yè)需要考慮是否能夠承擔更多 token 成本。答案在于更優(yōu)的 Token 經(jīng)濟學(tokenomics)——其核心在于降低每個 token 的成本。這種下降趨勢正在各行各業(yè)中顯現(xiàn)。
近期麻省理工學院研究發(fā)現(xiàn),基礎(chǔ)設(shè)施與算法效率的提升使前沿水平性能的推理成本正逐年降低至原來的 1/10。
要理解基礎(chǔ)設(shè)施效率如何提升 tokenomics,可以把它類比為一臺高速印刷機。如果這臺印刷機只需在油墨、能源和設(shè)備本身上進行小幅追加投資,就能實現(xiàn) 10 倍的產(chǎn)出,那么每頁印刷成本自然會下降。同理,對 AI 基礎(chǔ)設(shè)施的投資如果能帶來遠超預(yù)期的 token 產(chǎn)出,就會顯著降低每個 token 的成本。
當 token 的產(chǎn)出增長超過基礎(chǔ)設(shè)施成本增長時,每個 token 的成本就會下降。
正因如此,包括 Baseten、DeepInfra、Fireworks AI 和 Together AI 在內(nèi)的領(lǐng)先推理服務(wù)提供商紛紛采用NVIDIA Blackwell 平臺。Blackwell 平臺幫助這些企業(yè)將每個 token 的成本最多可降至 NVIDIA Hopper 平臺的 1/10。
這些提供商托管著先進的開源模型,其智能水平現(xiàn)已達前沿級別。通過融合開源的前沿智能、NVIDIA Blackwell 極致的軟硬件協(xié)同設(shè)計以及自主優(yōu)化的推理堆棧,這些服務(wù)商正助力各行各業(yè)的企業(yè)實現(xiàn) token 成本的大幅降低。
醫(yī)療領(lǐng)域——Baseten 與 Sully.ai 將 AI 推理成本降低 9 成
在醫(yī)療領(lǐng)域,諸如醫(yī)療編碼、病歷記錄和保險表格管理等繁瑣耗時的任務(wù),會占用醫(yī)生與患者交流的時間。
Sully.ai通過開發(fā)能夠處理醫(yī)療編碼和記錄筆記等常規(guī)任務(wù)的”AI 員工”來解決這一問題。隨著公司平臺規(guī)模擴大,其自有的閉源模型面臨著三大瓶頸:實時臨床工作流程中的延遲不可預(yù)測、推理成本增長速度比收入增長更快,以及對模型質(zhì)量和更新的控制不足。
Sully.ai 打造 AI 員工,幫助醫(yī)生處理日常事務(wù)。
為突破這些瓶頸,Sully.ai 采用了 Baseten 的模型 API,該 API 可在 NVIDIA Blackwell GPU 上部署 gpt-oss-120b 等開源模型。Baseten 采用低精度NVFP4數(shù)據(jù)格式、NVIDIA TensorRT-LLM 庫及NVIDIA Dynamo推理框架以實現(xiàn)優(yōu)化的推理。該公司選擇 NVIDIA Blackwell 運行 Model API,因其每美元投入的吞吐量較 NVIDIA Hopper 平臺提升 2.5 倍。
結(jié)果顯示,Sully.ai的推理成本因此降低了 90%,成本降低至原來的閉源實現(xiàn)方案的 1/10。同時在病歷生成等關(guān)鍵工作流的響應(yīng)速度提升了 65%。該公司已為醫(yī)生節(jié)省了超過 3000 萬分鐘的時間,這些時間原本耗費在數(shù)據(jù)錄入及其他手動操作上。
游戲領(lǐng)域——DeepInfra 與 Latitude 將每 token 成本降至原來的 1/4
Latitude正通過其 AI 冒險故事游戲AI Dungeon及即將推出的 AI 驅(qū)動角色扮演游戲平臺 Voyage,打造 AI 原生游戲的未來。玩家可在這些平臺中自由創(chuàng)建或探索世界,選擇任何行動,書寫專屬故事。
該公司的平臺采用大型語言模型響應(yīng)玩家操作——但這帶來了擴展難題,因為每次玩家操作都會觸發(fā)推理請求。成本隨玩家參與度增長而攀升,而響應(yīng)速度必須保持足夠快才能確保游戲體驗的流暢性。
Latitude 開發(fā)了一款名為 AI Dungeon 的文字冒險故事游戲,該游戲能在玩家探索動態(tài)故事時實時生成敘事文本與圖像。
Latitude 運行的大型開源模型基于由 NVIDIA Blackwell GPU 和 TensorRT-LLM 驅(qū)動的DeepInfra 推理平臺。對于大規(guī)?;旌蠈<夷P停∕oE),DeepInfra 將每百萬 token 的成本從 NVIDIA Hopper 平臺的 0.20 美元降至 Blackwell 平臺的 0.10 美元。通過遷移至 Blackwell 原生低精度 NVFP4 格式,其成本進一步降至每百萬 token 0.05 美元——現(xiàn)每 token 成本降至之前的 1/4,同時保持了客戶期望的準確性。
在 DeepInfra 基于 Blackwell 的平臺上運行這些大型 MoE 模型,使 Latitude 能夠以經(jīng)濟高效的方式提供快速可靠的響應(yīng)。DeepInfra 的推理平臺在保證性能的同時,還能穩(wěn)定應(yīng)對流量峰值,讓 Latitude 得以部署更強大的模型而不影響玩家體驗。
智能體聊天代理——Fireworks AI 與 Sentient Foundation 合作,將 AI 成本降低高達 50%
Sentient Labs 致力于匯聚 AI 開發(fā)者,共同構(gòu)建強大的開源推理 AI 系統(tǒng)。其目標是通過在安全自主性、智能體架構(gòu)和持續(xù)學習領(lǐng)域開展研究,加速 AI 解決更復(fù)雜的推理難題。
Sentient Labs 的首款應(yīng)用 Sentient Chat 能夠編排復(fù)雜的多智能體工作流,并整合來自社區(qū)的十余個專業(yè) AI 智能體。正因如此,Sentient Chat 面臨著巨大的計算需求——單個用戶查詢可能觸發(fā)一系列自主交互,通常會導(dǎo)致高昂的基礎(chǔ)設(shè)施開銷。
為應(yīng)對這種規(guī)模和復(fù)雜性任務(wù),Sentient 采用基于 NVIDIA Blackwell 運行的 Fireworks AI 推理平臺。借助 Fireworks 針對 Blackwell 優(yōu)化的推理堆棧,Sentient 的成本效率相比之前基于 Hopper 的部署方案提升了 25% 到 50%。
Sentient Chat 編排復(fù)雜的多智能體工作流,并整合來自社區(qū)的十余個專業(yè) AI 智能體。
更高的每 GPU 吞吐量使該公司能夠以相同成本服務(wù)更多并發(fā)用戶。該平臺的可擴展性支持了病毒式傳播的用戶增長——24 小時內(nèi)新增 180 萬候補用戶,單周處理 560 萬次查詢,同時保持了穩(wěn)定的低延遲表現(xiàn)。
客戶服務(wù)——Together AI 與 Decagon 實現(xiàn)成本降至原來的 1/6
使用語音 AI 的客服服務(wù)通話往往令人感到挫敗,因為哪怕是輕微的延遲都可能導(dǎo)致用戶打斷語音助手、掛斷電話或失去信任。
Decagon 為企業(yè)客戶支持構(gòu)建 AI 智能體,其中 AI 驅(qū)動的語音服務(wù)要求最為苛刻。Decagon 需要一套能夠在不可預(yù)測的流量負載下實現(xiàn)亞秒級響應(yīng)的基礎(chǔ)設(shè)施,并具備支持全天候語音部署的 tokenomics。
Decagon 為客戶支持構(gòu)建 AI 智能體,其中語音服務(wù)要求最為苛刻。
Together AI 在 NVIDIA Blackwell GPU 上為 Decagon 的多模型語音技術(shù)棧運行生產(chǎn)級推理。兩家公司在多項關(guān)鍵優(yōu)化上展開合作:采用推測解碼技術(shù),通過訓(xùn)練小型模型實現(xiàn)更快的響應(yīng)速度,同時在后臺由大模型驗證準確性;緩存重復(fù)對話元素以加速響應(yīng);構(gòu)建自動擴展機制,在應(yīng)對流量激增時保持性能穩(wěn)定。
Decagon 即使在每條查詢處理數(shù)千個 token 的情況下,也能實現(xiàn)低于 400 毫秒的響應(yīng)時間。與使用閉源專有模型相比,每條查詢的成本(即完成一次語音交互的總成本)降低至原來的 1/6。這一成果得益于 Decagon 的多模型方案(部分采用開源模型,部分在 NVIDIA GPU 上自主訓(xùn)練)、NVIDIA Blackwell 芯片的極致協(xié)同設(shè)計以及 Together 平臺的優(yōu)化推理堆棧的協(xié)同作用。
通過極致協(xié)同設(shè)計優(yōu)化 tokenomics
在醫(yī)療、游戲和客戶服務(wù)等領(lǐng)域取得的顯著成本節(jié)省,得益于 NVIDIA Blackwell 的高性能。NVIDIA Grace Blackwell 機架式解決方案進一步擴大了這一優(yōu)勢,其推理 MoE 模型的每 token 成本降至 NVIDIA Hopper 的 1/10,實現(xiàn)了成本的突破性降低。
NVIDIA 涵蓋了計算、網(wǎng)絡(luò)和軟件等跨各個層級堆棧的極致協(xié)同設(shè)計,以及其合作伙伴生態(tài)系統(tǒng),正在大幅度降低每 token 成本。
這一勢頭延續(xù)至NVIDIA Rubin 平臺上——通過將六款全新芯片集成于一臺 AI 超級計算機中,其性能較 Blackwell 提升 10 倍,token 成本降至 Blackwell 的 1/10。
探索NVIDIA 的全棧推理平臺,深入了解其如何為 AI 推理提供更優(yōu)的 tokenomics。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5588瀏覽量
109702 -
AI
+關(guān)注
關(guān)注
91文章
39685瀏覽量
301292 -
開源
+關(guān)注
關(guān)注
3文章
4200瀏覽量
46107
原文標題:領(lǐng)先推理提供商借助基于 NVIDIA Blackwell 平臺的開源模型,將 AI 成本削減至 1/10
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA DGX SuperPOD為Rubin平臺橫向擴展提供藍圖
NVIDIA在CES 2026發(fā)布新一代Rubin AI平臺
NVIDIA RTX PRO 5000 Blackwell GPU的深度評測
NVIDIA RTX PRO 4000 Blackwell GPU性能測試
NVIDIA RTX PRO 5000 72GB Blackwell GPU現(xiàn)已全面上市
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
DeepSeek R1 MTP在TensorRT-LLM中的實現(xiàn)與優(yōu)化
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
OpenAI與NVIDIA共同開發(fā)全新開放模型
NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄
NVIDIA Blackwell平臺助力企業(yè)實現(xiàn)token成本的大幅降低
評論