91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Blackwell平臺助力企業(yè)實現(xiàn)token成本的大幅降低

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2026-03-02 14:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Baseten、DeepInfra、Fireworks AI 和 Together AI 正通過在 NVIDIA Blackwell 平臺上運行優(yōu)化的推理堆棧,幫助各行業(yè)降低每 token 成本。

一次醫(yī)療領(lǐng)域的診斷洞察、一次互動游戲中角色的對話、一次來自客服代理的自主解決方案——這些由 AI 驅(qū)動的交互,皆基于同一智能單元:一個token。

要擴展這些 AI 交互,企業(yè)需要考慮是否能夠承擔更多 token 成本。答案在于更優(yōu)的 Token 經(jīng)濟學(tokenomics)——其核心在于降低每個 token 的成本。這種下降趨勢正在各行各業(yè)中顯現(xiàn)。

近期麻省理工學院研究發(fā)現(xiàn),基礎(chǔ)設(shè)施與算法效率的提升使前沿水平性能的推理成本正逐年降低至原來的 1/10。

要理解基礎(chǔ)設(shè)施效率如何提升 tokenomics,可以把它類比為一臺高速印刷機。如果這臺印刷機只需在油墨、能源和設(shè)備本身上進行小幅追加投資,就能實現(xiàn) 10 倍的產(chǎn)出,那么每頁印刷成本自然會下降。同理,對 AI 基礎(chǔ)設(shè)施的投資如果能帶來遠超預(yù)期的 token 產(chǎn)出,就會顯著降低每個 token 的成本。

當 token 的產(chǎn)出增長超過基礎(chǔ)設(shè)施成本增長時,每個 token 的成本就會下降。

正因如此,包括 Baseten、DeepInfra、Fireworks AI 和 Together AI 在內(nèi)的領(lǐng)先推理服務(wù)提供商紛紛采用NVIDIA Blackwell 平臺。Blackwell 平臺幫助這些企業(yè)將每個 token 的成本最多可降至 NVIDIA Hopper 平臺的 1/10。

這些提供商托管著先進的開源模型,其智能水平現(xiàn)已達前沿級別。通過融合開源的前沿智能、NVIDIA Blackwell 極致的軟硬件協(xié)同設(shè)計以及自主優(yōu)化的推理堆棧,這些服務(wù)商正助力各行各業(yè)的企業(yè)實現(xiàn) token 成本的大幅降低。

醫(yī)療領(lǐng)域——Baseten 與 Sully.ai 將 AI 推理成本降低 9 成

在醫(yī)療領(lǐng)域,諸如醫(yī)療編碼、病歷記錄和保險表格管理等繁瑣耗時的任務(wù),會占用醫(yī)生與患者交流的時間。

Sully.ai通過開發(fā)能夠處理醫(yī)療編碼和記錄筆記等常規(guī)任務(wù)的”AI 員工”來解決這一問題。隨著公司平臺規(guī)模擴大,其自有的閉源模型面臨著三大瓶頸:實時臨床工作流程中的延遲不可預(yù)測、推理成本增長速度比收入增長更快,以及對模型質(zhì)量和更新的控制不足。

Sully.ai 打造 AI 員工,幫助醫(yī)生處理日常事務(wù)。

為突破這些瓶頸,Sully.ai 采用了 Baseten 的模型 API,該 API 可在 NVIDIA Blackwell GPU 上部署 gpt-oss-120b 等開源模型。Baseten 采用低精度NVFP4數(shù)據(jù)格式、NVIDIA TensorRT-LLM 庫及NVIDIA Dynamo推理框架以實現(xiàn)優(yōu)化的推理。該公司選擇 NVIDIA Blackwell 運行 Model API,因其每美元投入的吞吐量較 NVIDIA Hopper 平臺提升 2.5 倍。

結(jié)果顯示,Sully.ai的推理成本因此降低了 90%,成本降低至原來的閉源實現(xiàn)方案的 1/10。同時在病歷生成等關(guān)鍵工作流的響應(yīng)速度提升了 65%。該公司已為醫(yī)生節(jié)省了超過 3000 萬分鐘的時間,這些時間原本耗費在數(shù)據(jù)錄入及其他手動操作上。

游戲領(lǐng)域——DeepInfra 與 Latitude 將每 token 成本降至原來的 1/4

Latitude正通過其 AI 冒險故事游戲AI Dungeon及即將推出的 AI 驅(qū)動角色扮演游戲平臺 Voyage,打造 AI 原生游戲的未來。玩家可在這些平臺中自由創(chuàng)建或探索世界,選擇任何行動,書寫專屬故事。

該公司的平臺采用大型語言模型響應(yīng)玩家操作——但這帶來了擴展難題,因為每次玩家操作都會觸發(fā)推理請求。成本隨玩家參與度增長而攀升,而響應(yīng)速度必須保持足夠快才能確保游戲體驗的流暢性。

Latitude 開發(fā)了一款名為 AI Dungeon 的文字冒險故事游戲,該游戲能在玩家探索動態(tài)故事時實時生成敘事文本與圖像。

Latitude 運行的大型開源模型基于由 NVIDIA Blackwell GPU 和 TensorRT-LLM 驅(qū)動的DeepInfra 推理平臺。對于大規(guī)?;旌蠈<夷P停∕oE),DeepInfra 將每百萬 token 的成本從 NVIDIA Hopper 平臺的 0.20 美元降至 Blackwell 平臺的 0.10 美元。通過遷移至 Blackwell 原生低精度 NVFP4 格式,其成本進一步降至每百萬 token 0.05 美元——現(xiàn)每 token 成本降至之前的 1/4,同時保持了客戶期望的準確性。

在 DeepInfra 基于 Blackwell 的平臺上運行這些大型 MoE 模型,使 Latitude 能夠以經(jīng)濟高效的方式提供快速可靠的響應(yīng)。DeepInfra 的推理平臺在保證性能的同時,還能穩(wěn)定應(yīng)對流量峰值,讓 Latitude 得以部署更強大的模型而不影響玩家體驗。

智能體聊天代理——Fireworks AI 與 Sentient Foundation 合作,將 AI 成本降低高達 50%

Sentient Labs 致力于匯聚 AI 開發(fā)者,共同構(gòu)建強大的開源推理 AI 系統(tǒng)。其目標是通過在安全自主性、智能體架構(gòu)和持續(xù)學習領(lǐng)域開展研究,加速 AI 解決更復(fù)雜的推理難題。

Sentient Labs 的首款應(yīng)用 Sentient Chat 能夠編排復(fù)雜的多智能體工作流,并整合來自社區(qū)的十余個專業(yè) AI 智能體。正因如此,Sentient Chat 面臨著巨大的計算需求——單個用戶查詢可能觸發(fā)一系列自主交互,通常會導(dǎo)致高昂的基礎(chǔ)設(shè)施開銷。

為應(yīng)對這種規(guī)模和復(fù)雜性任務(wù),Sentient 采用基于 NVIDIA Blackwell 運行的 Fireworks AI 推理平臺。借助 Fireworks 針對 Blackwell 優(yōu)化的推理堆棧,Sentient 的成本效率相比之前基于 Hopper 的部署方案提升了 25% 到 50%。

Sentient Chat 編排復(fù)雜的多智能體工作流,并整合來自社區(qū)的十余個專業(yè) AI 智能體。

更高的每 GPU 吞吐量使該公司能夠以相同成本服務(wù)更多并發(fā)用戶。該平臺的可擴展性支持了病毒式傳播的用戶增長——24 小時內(nèi)新增 180 萬候補用戶,單周處理 560 萬次查詢,同時保持了穩(wěn)定的低延遲表現(xiàn)。

客戶服務(wù)——Together AI 與 Decagon 實現(xiàn)成本降至原來的 1/6

使用語音 AI 的客服服務(wù)通話往往令人感到挫敗,因為哪怕是輕微的延遲都可能導(dǎo)致用戶打斷語音助手、掛斷電話或失去信任。

Decagon 為企業(yè)客戶支持構(gòu)建 AI 智能體,其中 AI 驅(qū)動的語音服務(wù)要求最為苛刻。Decagon 需要一套能夠在不可預(yù)測的流量負載下實現(xiàn)亞秒級響應(yīng)的基礎(chǔ)設(shè)施,并具備支持全天候語音部署的 tokenomics。

Decagon 為客戶支持構(gòu)建 AI 智能體,其中語音服務(wù)要求最為苛刻。

Together AI 在 NVIDIA Blackwell GPU 上為 Decagon 的多模型語音技術(shù)棧運行生產(chǎn)級推理。兩家公司在多項關(guān)鍵優(yōu)化上展開合作:采用推測解碼技術(shù),通過訓(xùn)練小型模型實現(xiàn)更快的響應(yīng)速度,同時在后臺由大模型驗證準確性;緩存重復(fù)對話元素以加速響應(yīng);構(gòu)建自動擴展機制,在應(yīng)對流量激增時保持性能穩(wěn)定。

Decagon 即使在每條查詢處理數(shù)千個 token 的情況下,也能實現(xiàn)低于 400 毫秒的響應(yīng)時間。與使用閉源專有模型相比,每條查詢的成本(即完成一次語音交互的總成本)降低至原來的 1/6。這一成果得益于 Decagon 的多模型方案(部分采用開源模型,部分在 NVIDIA GPU 上自主訓(xùn)練)、NVIDIA Blackwell 芯片的極致協(xié)同設(shè)計以及 Together 平臺的優(yōu)化推理堆棧的協(xié)同作用。

通過極致協(xié)同設(shè)計優(yōu)化 tokenomics

在醫(yī)療、游戲和客戶服務(wù)等領(lǐng)域取得的顯著成本節(jié)省,得益于 NVIDIA Blackwell 的高性能。NVIDIA Grace Blackwell 機架式解決方案進一步擴大了這一優(yōu)勢,其推理 MoE 模型的每 token 成本降至 NVIDIA Hopper 的 1/10,實現(xiàn)了成本的突破性降低。

NVIDIA 涵蓋了計算、網(wǎng)絡(luò)和軟件等跨各個層級堆棧的極致協(xié)同設(shè)計,以及其合作伙伴生態(tài)系統(tǒng),正在大幅度降低每 token 成本。

這一勢頭延續(xù)至NVIDIA Rubin 平臺上——通過將六款全新芯片集成于一臺 AI 超級計算機中,其性能較 Blackwell 提升 10 倍,token 成本降至 Blackwell 的 1/10。

探索NVIDIA 的全棧推理平臺,深入了解其如何為 AI 推理提供更優(yōu)的 tokenomics。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5588

    瀏覽量

    109702
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39685

    瀏覽量

    301292
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4200

    瀏覽量

    46107

原文標題:領(lǐng)先推理提供商借助基于 NVIDIA Blackwell 平臺的開源模型,將 AI 成本削減至 1/10

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    NVIDIA DGX SuperPOD為Rubin平臺橫向擴展提供藍圖

    NVIDIA DGX Rubin 系統(tǒng)整合了 NVIDIA 在計算、網(wǎng)絡(luò)和軟件領(lǐng)域的最新突破,將推理 token 成本降至 NVIDIA
    的頭像 發(fā)表于 01-14 09:14 ?589次閱讀

    NVIDIA在CES 2026發(fā)布新一代Rubin AI平臺

    通過跨 NVIDIA Vera CPU、Rubin GPU、NVLink 6 交換機、ConnectX-9 SuperNIC、BlueField-4 DPU 和 Spectrum-6 以太網(wǎng)交換機的極致協(xié)同設(shè)計,大幅縮短訓(xùn)練時間,降低
    的頭像 發(fā)表于 01-09 10:23 ?606次閱讀

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評測

    NVIDIA RTX PRO 5000 BlackwellNVIDIA RTX 5000 Ada Generation 的升級迭代產(chǎn)品,其各項核心指標均針對 GPU 加速工作流的高性能
    的頭像 發(fā)表于 01-06 09:51 ?2196次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 <b class='flag-5'>Blackwell</b> GPU的深度評測

    NVIDIA RTX PRO 4000 Blackwell GPU性能測試

    作為 NVIDIA 專業(yè)顯卡產(chǎn)品線中單槽性能的巔峰之作,NVIDIA RTX PRO 4000 Blackwell 在各項核心指標上均實現(xiàn)對前代 N
    的頭像 發(fā)表于 12-29 15:30 ?1324次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 <b class='flag-5'>Blackwell</b> GPU性能測試

    NVIDIA RTX PRO 5000 72GB Blackwell GPU現(xiàn)已全面上市

    NVIDIA RTX PRO 5000 72GB Blackwell GPU 現(xiàn)已全面上市,將基于 NVIDIA Blackwell 架構(gòu)的強大代理式與生成式 AI 能力帶到更多桌面和
    的頭像 發(fā)表于 12-24 10:32 ?818次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 72GB <b class='flag-5'>Blackwell</b> GPU現(xiàn)已全面上市

    NVIDIA RTX PRO 2000 Blackwell GPU性能測試

    越來越多的應(yīng)用正在使用 AI 加速,而無論工作站的大小或形態(tài)如何,都有越來越多的用戶需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的頭像 發(fā)表于 11-28 09:39 ?6252次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 <b class='flag-5'>Blackwell</b> GPU性能測試

    DeepSeek R1 MTP在TensorRT-LLM中的實現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀錄,Multi-Token Prediction (MTP) 實現(xiàn)
    的頭像 發(fā)表于 08-30 15:47 ?4442次閱讀
    DeepSeek R1 MTP在TensorRT-LLM中的<b class='flag-5'>實現(xiàn)</b>與優(yōu)化

    NVIDIA RTX PRO 4500 Blackwell GPU測試分析

    今天我們帶來全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測試,對比上一代產(chǎn)品
    的頭像 發(fā)表于 08-28 11:02 ?3974次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 <b class='flag-5'>Blackwell</b> GPU測試分析

    OpenAI與NVIDIA共同開發(fā)全新開放模型

    NVIDIA 為 gpt-oss-120b 帶來業(yè)界領(lǐng)先性能,在單個 NVIDIA Blackwell 系統(tǒng)上實現(xiàn)每秒 150 萬個 Token
    的頭像 發(fā)表于 08-12 15:11 ?1547次閱讀

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場景中的性能紀錄:在 GTC 2025
    的頭像 發(fā)表于 07-02 19:31 ?3287次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b> GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄

    NVIDIA攜手谷歌云助力企業(yè)引入代理式AI

    谷歌 Gemini 模型即將支持本地部署,可通過搭載 NVIDIA Blackwell 架構(gòu)的基礎(chǔ)設(shè)施,在 Google 分布式云上運行 NVIDIA 機密計算。
    的頭像 發(fā)表于 04-11 16:32 ?1199次閱讀

    英偉達GTC2025亮點:NVIDIA Blackwell加速計算機輔助工程軟件,實現(xiàn)實時數(shù)字孿生性能數(shù)量級提升

    。 有了這些加速的軟件和用于進一步優(yōu)化性能的 NVIDIA CUDA-X 庫和藍圖,汽車、航空航天、能源、制造業(yè)和生命科學等行業(yè)可在保持能效的同時,大幅縮短產(chǎn)品開發(fā)時間、降低成本并提高設(shè)計精度。 軟件
    的頭像 發(fā)表于 03-21 15:12 ?1486次閱讀

    NVIDIA Blackwell白皮書:NVIDIA Blackwell Architecture Technical Brief

    NVIDIA Blackwell白皮書:NVIDIA Blackwell Architecture Technical Brief
    的頭像 發(fā)表于 03-20 18:35 ?3030次閱讀

    NVIDIA Blackwell數(shù)據(jù)手冊與NVIDIA Blackwell架構(gòu)技術(shù)解析

    NVIDIA Blackwell數(shù)據(jù)手冊與NVIDIA Blackwell 架構(gòu)技術(shù)解析
    的頭像 發(fā)表于 03-20 17:19 ?2441次閱讀

    英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代

    英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代
    的頭像 發(fā)表于 03-20 15:35 ?1541次閱讀