91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

華為數(shù)據(jù)存儲與「DaoCloud 道客」發(fā)布AI推理加速聯(lián)合解決方案

科技訊息 ? 來源:科技訊息 ? 作者:科技訊息 ? 2025-11-28 10:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI產(chǎn)業(yè)已從“追求模型能力極限”轉(zhuǎn)向“追求推理體驗最優(yōu)化”,推理體驗決定用戶與AI的交互質(zhì)感。當(dāng)前推理應(yīng)用快速發(fā)展,Token調(diào)用量爆發(fā)式增長,推理遇到“推不動、推得慢、推得貴”三大瓶頸,成為產(chǎn)業(yè)規(guī)?;l(fā)展的攔路虎。在有限算力下,長序列輸入導(dǎo)致首Token時延(TTFT)增加,甚至超長序列超出模型上下文窗口限制;隨著并發(fā)數(shù)增加,推理吞吐開始下降,任務(wù)頻繁卡頓;歷史對話和行業(yè)知識的重復(fù)調(diào)用造成算力浪費,加大推理成本。如何優(yōu)化推理效率,是AI產(chǎn)業(yè)突破發(fā)展瓶頸的關(guān)鍵。

算力的有效利用對AI推理性能和成本優(yōu)化發(fā)揮著至關(guān)重要的作用,是企業(yè)核心競爭力。算力平臺需適配多元存儲、Kubernetes集群及推理框架,但硬件生態(tài)碎片化、資源分配僵化、調(diào)度缺乏AI任務(wù)感知、運維可觀性不足等技術(shù)兼容難題,正嚴(yán)重制約推理應(yīng)用發(fā)展。

近日,華為數(shù)據(jù)存儲與「DaoCloud 道客」聯(lián)合推出了AI推理加速聯(lián)合解決方案。該方案融合了華為UCM(Unified Cache Manager)推理記憶數(shù)據(jù)管理技術(shù)和道客d.run算力調(diào)度平臺,圍繞大模型歷史數(shù)據(jù),實現(xiàn)KV Cache數(shù)據(jù)池化管理,以資源的精細(xì)化管理和智能調(diào)度提升算力利用率,為AI推理加速提供全方位技術(shù)支撐。

道客d.run算力調(diào)度平臺可支持算力與顯存資源的細(xì)粒度切分及池化,通過多種調(diào)度策略實現(xiàn)算力資源的最大化利用。調(diào)度器具備拓?fù)涓兄芰?,可?yōu)化任務(wù)在xPU間的通信效率,保障AI任務(wù)穩(wěn)定低耗運行。平臺提供企業(yè)級運維支持,提供多租戶隔離、資源配額管理、完整的監(jiān)控告警及計費計量等功能,滿足企業(yè)級使用與運維需求。同時具備多元生態(tài)兼容性,適配NVIDIA、華為昇騰、寒武紀(jì)等多種品牌AI算力,支持TensorFlow等主流AI框架,借助Kubernetes的CSI無縫對接華為OceanStor AI存儲,簡化管理并為AI任務(wù)數(shù)據(jù)讀寫提供穩(wěn)定支撐。

華為UCM是以KV Cache為核心,構(gòu)建多級緩存空間的分層管理與智能流動機(jī)制,實現(xiàn)數(shù)據(jù)在高性能緩存HBM、內(nèi)存DRAM和外置OceanStor A系列存儲的分級緩存和查詢,確保推理記憶知識全量保存。并且,UCM還融合多項創(chuàng)新加速算法:自適應(yīng)全局Prefix Cache支持公共前綴、歷史對話和RAG知識塊多種拼接組合場景的復(fù)用,通過以查代算,最大程度改善TTFT;全流程稀疏加速算法提供Prefill階段的超長KV分片卸載和增量稀疏,以及Decode階段的動態(tài)稀疏,提升長序列推理吞吐。

在Qwen3-32B模型上,測試問答助手場景,開啟Prefix Cache和RAG Chunk功能。測試數(shù)據(jù)表明,首Token時延降低約55%,且隨著序列長度越長,TTFT降低效果越明顯,通過“以查代算”的方式,避免了大量歷史對話信息的重復(fù)計算。

wKgZPGkpAvGAKeHhAAEP1aPeZ3M080.png

圖1 問答助手場景對比開關(guān)UCM的TTFT

測試長文檔推理場景,設(shè)定序列長度輸入32K+輸出1K,開啟Chunk Prefill和GSA稀疏化功能。測試數(shù)據(jù)表明,在并發(fā)數(shù)為30時,TTFT最大降低47%,端到端吞吐最大提升75%。

wKgZO2kpAvGAE5kwAABaWm9WI3o473.png

圖2 長文檔推理場景對比開關(guān)UCM的TTFT

wKgZPGkpAvKAetkFAABZTGktrWw833.png

圖3 長文檔推理場景對比開關(guān)UCM的E2E吞吐

關(guān)閉UCM,當(dāng)并發(fā)數(shù)超17時,請求開始排隊;開啟UCM,當(dāng)并發(fā)數(shù)超32時,請求開始排隊。在以上情況下,開啟UCM對比關(guān)閉UCM場景,并發(fā)能力提升88.24%。

wKgZO2kpAvOANQmgAABOXLrZ1B0980.png

圖4 長文檔推理場景對比開關(guān)UCM的并發(fā)能力

目前,該方案正在電力、金融等行業(yè)試點。未來,雙方將持續(xù)深化技術(shù)合作,推動技術(shù)迭代與行業(yè)適配,助力AI技術(shù)在更多行業(yè)的落地應(yīng)用。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 華為
    +關(guān)注

    關(guān)注

    218

    文章

    36003

    瀏覽量

    262081
  • 數(shù)據(jù)存儲
    +關(guān)注

    關(guān)注

    5

    文章

    1025

    瀏覽量

    52941
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39755

    瀏覽量

    301358
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    華為破解HBM依賴!AI推理黑科技UCM上線,9月正式開源

    8月12日,在2025金融AI推理應(yīng)用落地與發(fā)展論壇上,華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周越峰宣布,
    的頭像 發(fā)表于 08-13 08:58 ?1.1w次閱讀
    <b class='flag-5'>華為</b>破解HBM依賴!<b class='flag-5'>AI</b><b class='flag-5'>推理</b>黑科技UCM上線,9月正式開源

    華為發(fā)布全新升級星河AI園區(qū)網(wǎng)絡(luò)解決方案

    華為全聯(lián)接大會2025期間,在以“AI時代,星河AI網(wǎng)絡(luò)智聯(lián)新啟航”數(shù)據(jù)通信峰會上,華為面向全球發(fā)布
    的頭像 發(fā)表于 09-25 09:41 ?798次閱讀

    中軟國際攜手華為發(fā)布醫(yī)藥聯(lián)合解決方案

    近日,在華為全聯(lián)接大會2025“智慧園區(qū)與智算圓桌”活動上,中軟國際華為技術(shù)與解決方案集團(tuán)模型工場業(yè)務(wù)部總裁張偉受邀出席。會上,在華為智算服務(wù)聯(lián)合
    的頭像 發(fā)表于 09-19 14:16 ?955次閱讀

    軟通動力入選828精選AI行業(yè)聯(lián)合解決方案

    近日,第四屆828 B2B企業(yè)節(jié)開幕式上,華為云攜手生態(tài)伙伴,以精準(zhǔn)的行業(yè)洞察與聯(lián)合創(chuàng)新,集中推出多款AI行業(yè)聯(lián)合解決方案,釋放
    的頭像 發(fā)表于 09-01 11:37 ?857次閱讀

    DaoCloud 與星融元達(dá)成戰(zhàn)略合作|走向高效、開放的算力集群建設(shè)

    上海道網(wǎng)絡(luò)科技有限公司(以下簡稱“「DaoCloud 」”)與星融元數(shù)據(jù)技術(shù)(蘇州)有限公司(以下簡稱“星融元”)宣布簽署戰(zhàn)略合作協(xié)議
    的頭像 發(fā)表于 08-19 14:04 ?1443次閱讀
    <b class='flag-5'>DaoCloud</b> 與星融元達(dá)成戰(zhàn)略合作|走向高效、開放的算力集群建設(shè)

    華為亮相2025金融AI推理應(yīng)用落地與發(fā)展論壇

    創(chuàng)新技術(shù)——UCM推理記憶數(shù)據(jù)管理器,旨在推動AI推理體驗升級,提升推理性價比,加速
    的頭像 發(fā)表于 08-15 09:45 ?1219次閱讀

    今日看點丨華為發(fā)布AI推理創(chuàng)新技術(shù)UCM;比亞迪汽車出口暴增130%

    ? ? 降低HBM依賴,華為發(fā)布AI推理創(chuàng)新技術(shù)UCM ? 日前,華為正式發(fā)布
    發(fā)表于 08-13 09:45 ?5293次閱讀

    廣汽華為聯(lián)合AI解決方案入選國際電聯(lián)全球標(biāo)桿案例

    。峰會期間,ITU正式發(fā)布《人工智能向善:創(chuàng)新擴(kuò)大影響案例集》(AI for Good - Innovate for Impact Report)2025年中期報告,其中,廣汽集團(tuán)聯(lián)合華為
    的頭像 發(fā)表于 07-24 14:34 ?1378次閱讀

    軟通動力攜手華為云推出AI知識引擎與數(shù)據(jù)工程融合創(chuàng)新解決方案

    華為開發(fā)者大會2025中,軟通動力攜手華為云以華為云昇騰AI、盤古大模型、ModelArts等為技術(shù)底座,全新升級數(shù)據(jù)治理基線
    的頭像 發(fā)表于 06-28 17:07 ?1601次閱讀

    華為AI UBB解決方案加速網(wǎng)絡(luò)邁向高階智能

    解決方案,包括AI FAN、AI OTN、AI WAN和ADN四大部分,端到端覆蓋家庭網(wǎng)絡(luò)、承載網(wǎng)絡(luò)和UBB智能管控系統(tǒng)。AI UBB
    的頭像 發(fā)表于 06-23 15:56 ?1393次閱讀

    華為發(fā)布AI數(shù)據(jù)解決方案加速行業(yè)智能化 AI時代數(shù)據(jù)覺醒

    正式發(fā)布AI數(shù)據(jù)解決方案,加速AI行業(yè)化落地。 華為
    的頭像 發(fā)表于 04-30 18:01 ?1586次閱讀
    <b class='flag-5'>華為</b><b class='flag-5'>發(fā)布</b><b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)</b>湖<b class='flag-5'>解決方案</b><b class='flag-5'>加速</b>行業(yè)智能化 <b class='flag-5'>AI</b>時代<b class='flag-5'>數(shù)據(jù)</b>覺醒

    華為加速AI時代數(shù)據(jù)存儲產(chǎn)業(yè)發(fā)展

    近日,在華為中國合作伙伴大會2025上,華為數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰發(fā)表“共筑數(shù)智解決方案,共享數(shù)據(jù)
    的頭像 發(fā)表于 04-01 15:35 ?1176次閱讀

    曙光存儲全新升級AI存儲方案

    近日,曙光存儲全新升級AI存儲方案,秉持“AI加速”理念,面向
    的頭像 發(fā)表于 03-31 11:27 ?1338次閱讀

    軟通動力攜手伙伴發(fā)布六大聯(lián)合解決方案

    NEWS 華為中國合作伙伴大會2025期間,軟通動力攜手伙伴發(fā)布“昇騰DeepSeek專業(yè)服務(wù)解決方案”、“智慧高校校園聯(lián)合解決方案”、“C
    的頭像 發(fā)表于 03-22 10:30 ?1935次閱讀
    軟通動力攜手伙伴<b class='flag-5'>發(fā)布</b>六大<b class='flag-5'>聯(lián)合</b><b class='flag-5'>解決方案</b>

    Banana Pi 發(fā)布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 計算與嵌入式開發(fā)

    存儲設(shè)計,輕松應(yīng)對復(fù)雜AI模型與實時推理。其堅固耐用的工業(yè)級品質(zhì)與超低成本,不僅適應(yīng)嚴(yán)苛環(huán)境的應(yīng)用,更為工程師提供了極致靈活的開發(fā)體驗,堪稱推動開源生態(tài)與人工智能未來的標(biāo)桿之選?!?瑞薩系統(tǒng)
    發(fā)表于 03-19 17:54