91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

有關(guān) AI 算力,華為昇騰刷新行業(yè)記錄

Felix分析 ? 來(lái)源:電子發(fā)燒友 ? 作者:吳子鵬 ? 2025-06-16 01:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文 / 吳子鵬)近日,GitCode 網(wǎng)站上更新了一份題為《昇騰 AI 算力集群基礎(chǔ)設(shè)施高可用技術(shù)系列報(bào)告》的文件。報(bào)告顯示,華為團(tuán)隊(duì)通過(guò)構(gòu)建極致可靠性的 CloudMatrix 超節(jié)點(diǎn),有效降低了故障概率。在訓(xùn)練業(yè)務(wù)方面,實(shí)現(xiàn)分鐘級(jí) RTO(恢復(fù)時(shí)間目標(biāo));在高頻 HBM 場(chǎng)景下,故障恢復(fù)時(shí)間縮短至 30 秒級(jí),成功將萬(wàn)卡級(jí)訓(xùn)練集群可用度提升至 95% 以上。


此外,該文件還涵蓋硬件管理、故障感知與診斷、超節(jié)點(diǎn)系統(tǒng)等相關(guān)創(chuàng)新內(nèi)容,帶來(lái)了諸多顯著成果:萬(wàn)卡集群可用度達(dá)到 98%,集群訓(xùn)推最快實(shí)現(xiàn)秒級(jí)快速恢復(fù),集群線性度超過(guò) 95%,并建立起包含千種故障模式的數(shù)據(jù)庫(kù),實(shí)現(xiàn)分鐘級(jí)故障診斷。值得注意的是,98% 的萬(wàn)卡集群可用度在目前已公開(kāi)的數(shù)據(jù)中處于領(lǐng)先水平。

AI 算力集群穩(wěn)定性至關(guān)重要

萬(wàn)卡集群是由超過(guò)一萬(wàn)張加速卡(如 GPU、TPU 或?qū)S?AI 芯片)組成的高性能計(jì)算系統(tǒng),主要用于加速人工智能模型的訓(xùn)練和推理過(guò)程。隨著 AI 大模型參數(shù)體量不斷攀升,萬(wàn)卡集群已逐漸成為行業(yè)標(biāo)配,甚至可以說(shuō)是最低配置。

這一趨勢(shì)推動(dòng)了算力規(guī)模的快速增長(zhǎng)。根據(jù) IDC 的報(bào)告,2024 年全球智能算力規(guī)模達(dá) 725.3EFLOPS(FP16),同比激增 74.1%。預(yù)計(jì)到 2025 年,中國(guó)智能算力規(guī)模將突破 1037.3EFLOPS,相比 2023 年實(shí)現(xiàn)翻倍增長(zhǎng)。

然而,萬(wàn)卡集群在實(shí)際應(yīng)用中面臨著三大顯著挑戰(zhàn):其一,穩(wěn)定性直接影響 “算力利用率”,在大規(guī)模訓(xùn)練過(guò)程中,節(jié)點(diǎn)故障可能導(dǎo)致梯度同步中斷、模型參數(shù)回滾,甚至需要重新啟動(dòng)訓(xùn)練任務(wù);其二,動(dòng)態(tài)實(shí)時(shí)推理系統(tǒng)任務(wù)呈現(xiàn)兩極分化的特點(diǎn),推理階段硬件需同時(shí)滿足高吞吐與低延遲的要求,并且在不同場(chǎng)景下都要有穩(wěn)定表現(xiàn);其三,實(shí)現(xiàn)復(fù)雜萬(wàn)卡集群的長(zhǎng)期穩(wěn)定運(yùn)行難度巨大,萬(wàn)卡集群包含數(shù)萬(wàn)顆芯片、數(shù)十萬(wàn)條光鏈路、數(shù)千臺(tái)交換機(jī),僅光模塊故障率就會(huì)隨著規(guī)模擴(kuò)大呈指數(shù)增長(zhǎng),傳統(tǒng)單機(jī)冗余方案在萬(wàn)卡規(guī)模下因 “故障定位難、恢復(fù)時(shí)間長(zhǎng)” 而失效。

在這些顯性挑戰(zhàn)背后,還隱藏著其他問(wèn)題。例如,在長(zhǎng)穩(wěn)運(yùn)行方面,除了硬件設(shè)備的穩(wěn)定性,還需考慮軟件調(diào)度的 “蝴蝶效應(yīng)”。在超大規(guī)模訓(xùn)練中,單個(gè)節(jié)點(diǎn)的 HBM 內(nèi)存錯(cuò)誤可能引發(fā)梯度同步失敗,進(jìn)而破壞整個(gè)集群的參數(shù)一致性,若調(diào)度系統(tǒng)無(wú)法快速隔離故障節(jié)點(diǎn),可能引發(fā) “級(jí)聯(lián)失效”;同時(shí),網(wǎng)絡(luò)拓?fù)涞拇嗳跣砸膊蝗莺鲆?,萬(wàn)卡集群通常采用 Fat-Tree 或 3D Torus 拓?fù)?,核心交換機(jī)負(fù)載極高,一旦發(fā)生擁塞或鏈路閃斷,會(huì)導(dǎo)致全局通信延遲大幅上升。

可用性(Availability)與穩(wěn)定性一樣,也是衡量超大規(guī)模集群性能的核心指標(biāo),它是穩(wěn)定性的量化體現(xiàn),指集群在規(guī)定時(shí)間內(nèi)正常運(yùn)行、滿足計(jì)算需求的比例,通常以百分比表示。據(jù)測(cè)算,萬(wàn)卡集群的可用性每提升 1%,相當(dāng)于每年節(jié)省數(shù)千萬(wàn)算力成本,這也是頭部 AI 企業(yè)將可用性視為 “算力投資回報(bào)率” 核心指標(biāo)的原因。

提升萬(wàn)卡集群可用性

如前文所述,萬(wàn)卡級(jí)集群的穩(wěn)定性和可用性已不再僅僅是技術(shù)指標(biāo),而是決定 AI 產(chǎn)業(yè)競(jìng)爭(zhēng)力的關(guān)鍵要素。華為團(tuán)隊(duì)通過(guò)構(gòu)建極致可靠性的 CloudMatrix 超節(jié)點(diǎn),大幅降低故障概率,實(shí)現(xiàn)訓(xùn)練業(yè)務(wù)分鐘級(jí) RTO 以及高頻 HBM 場(chǎng)景 30 秒級(jí)故障恢復(fù)。

為解決萬(wàn)卡級(jí)別 AI 集群平均每天會(huì)出現(xiàn)一次甚至多次故障的問(wèn)題,華為團(tuán)隊(duì)提出基于系統(tǒng)工程的硬件故障管理技術(shù),建立起集群全系統(tǒng)可靠性分析模型。CloudMatrix 384 超節(jié)點(diǎn)計(jì)算柜和總線設(shè)備柜關(guān)鍵部件均采用冗余設(shè)計(jì):在計(jì)算柜方面,整柜電源模塊冗余,風(fēng)扇采用 N+1 冗余,并配備 2N 和 N+R 等供電系統(tǒng);總線設(shè)備柜的交換機(jī)采用雙電源供電設(shè)計(jì),風(fēng)扇同樣采用 N+1 冗余設(shè)計(jì)。此外,還引入了 NPU HBM 多級(jí) RAS 技術(shù)以及光模塊本體高可靠技術(shù),使 CloudMatrix 超節(jié)點(diǎn)具備萬(wàn)卡集群連續(xù)數(shù)天無(wú)故障運(yùn)行的硬件高可靠能力,系統(tǒng)可用度超過(guò) 95%。

wKgZPGhL-O-AJep8AAIybs8R8b8670.png
CloudMatrix 超節(jié)點(diǎn),圖源:華為技術(shù)報(bào)告

針對(duì)萬(wàn)卡集群規(guī)模大、故障頻發(fā),軟硬技術(shù)棧復(fù)雜,涉及數(shù)據(jù)多、傳播快、依賴復(fù)雜等問(wèn)題,華為團(tuán)隊(duì)提出大規(guī)模集群在線故障感知與診斷技術(shù)。該方案提供全棧監(jiān)控,F(xiàn)lowScope 利用自研可編程設(shè)備實(shí)現(xiàn)準(zhǔn) TB 級(jí)流量預(yù)處理,能夠在域內(nèi)快速定位故障。目前該技術(shù)已在華為云產(chǎn)品技術(shù)棧落地,支持網(wǎng)絡(luò)故障 3 分鐘感知、5 分鐘定界,網(wǎng)絡(luò)故障診斷準(zhǔn)確率達(dá) 95%。

wKgZPGhL-PiAYTqxAAMLovPpLAs521.png
網(wǎng)絡(luò)域故障定位,圖源:華為技術(shù)報(bào)告


為打造緊耦合服務(wù)器模式,華為團(tuán)隊(duì)提出極致可靠性的 CloudMatrix 超節(jié)點(diǎn)系統(tǒng)技術(shù)。單個(gè)超節(jié)點(diǎn)由 48 臺(tái)服務(wù)器組成,每臺(tái)服務(wù)器包含 4 顆 CPU 及 8 顆 NPU。每臺(tái)服務(wù)器的接口數(shù)量為:管存 / VPC 平面 2200GE;參數(shù)面 8400GE;超節(jié)點(diǎn)平面 56×400G HCCS。一個(gè)機(jī)柜最大支持 4 個(gè) 8 卡節(jié)點(diǎn),管存面 / 參數(shù)面交換機(jī)以及超節(jié)點(diǎn) L2 層交換機(jī)外置,支持靈活組網(wǎng)。該超節(jié)點(diǎn)的設(shè)計(jì)目標(biāo)是實(shí)現(xiàn)光模塊閃斷的故障率容忍度超過(guò) 99%;將高頻的 HBM 多比特 ECC 故障恢復(fù)時(shí)間縮短至 1 分鐘,使因 HBM 故障造成的用戶算力損失下降 5%。通過(guò) “系統(tǒng)層容錯(cuò)”“業(yè)務(wù)層容錯(cuò)” 以及后續(xù) “運(yùn)維層容錯(cuò)” 方案,成功實(shí)現(xiàn)了這一目標(biāo)。

wKgZO2hL-QOABPofAAKjfJl-JB4792.png
CloudMatrix 超節(jié)點(diǎn)系統(tǒng)技術(shù),圖源:華為技術(shù)報(bào)告


為做到千億稀疏模型訓(xùn)練線性度優(yōu)化,華為團(tuán)隊(duì)提出 4 項(xiàng)關(guān)鍵技術(shù),包括拓?fù)涓兄膮f(xié)同編排技術(shù) TACO、網(wǎng)絡(luò)級(jí)網(wǎng)存算融合技術(shù) NSF、拓?fù)涓兄膶哟位?a href="http://www.makelele.cn/soft/data/43-44/" target="_blank">通信技術(shù) NB、無(wú)侵入通信跨層測(cè)量與診斷技術(shù) AICT。實(shí)驗(yàn)及理論分析結(jié)果顯示,Pangu Ultra 135B 稠密、Pangu Ultra MoE 718B 稀疏模型訓(xùn)練線性度超過(guò) 95%。具體來(lái)看,訓(xùn)練 Pangu Ultra 135B 稠密模型時(shí),4K 卡 Atlas 800T A2 集群相比 256 卡基線,線性度為 96%;訓(xùn)練 Pangu Ultra MoE 718B 稀疏模型時(shí),8K 卡 A2 集群相比 512 卡基線,線性度為 95.05%;4K 卡 CloudMatrix 集群相比 256 卡基線,線性度為 96.48%。

wKgZPGhL-Q2ADe0cAAKZp2-Qpbk404.png
線性度問(wèn)題分析,圖源:華為技術(shù)報(bào)告

針對(duì)大 EP 推理架構(gòu)的可靠性難題,華為團(tuán)隊(duì)提出千億 MOE 分布式推理分鐘級(jí)恢復(fù)技術(shù),通過(guò)基于請(qǐng)求切流實(shí)例間恢復(fù)、基于實(shí)例 / Pod 重調(diào)度與進(jìn)程原地恢復(fù)的實(shí)例內(nèi)有感恢復(fù)、基于 token 級(jí)重試和減卡容錯(cuò)的實(shí)例內(nèi)無(wú)損恢復(fù)的三級(jí)容錯(cuò)方案,從芯片驅(qū)動(dòng)層、框架層、平臺(tái)層協(xié)同發(fā)力,構(gòu)筑端到端可靠性體系。面向未來(lái),華為團(tuán)隊(duì)還將持續(xù)研發(fā)減卡彈性恢復(fù)技術(shù)和基于快照進(jìn)程的進(jìn)程初始化加速技術(shù)。

wKgZO2hL-RaAMIVNAANrFY199uY985.png
千億 MOE 分布式推理分鐘級(jí)恢復(fù)技術(shù),圖源:華為技術(shù)報(bào)告

結(jié)語(yǔ)

在 AI 算力集群邁向萬(wàn)卡規(guī)模的產(chǎn)業(yè)變革進(jìn)程中,華為昇騰憑借 CloudMatrix 超節(jié)點(diǎn)技術(shù)體系,通過(guò)硬件冗余設(shè)計(jì)、全棧故障感知、系統(tǒng)層容錯(cuò)等創(chuàng)新舉措,將萬(wàn)卡集群可用度提升至行業(yè)領(lǐng)先的 95% 以上,實(shí)現(xiàn)高頻 HBM 故障 30 秒級(jí)恢復(fù)、訓(xùn)練線性度超 95% 的突破,切實(shí)解決了大規(guī)模算力集群穩(wěn)定性與可用性的核心難題。這不僅為 AI 大模型訓(xùn)練與推理構(gòu)建了堅(jiān)實(shí)的算力底座,更以 “每提升 1% 可用度節(jié)省數(shù)千萬(wàn)成本” 的實(shí)際效益,重新定義了算力投資回報(bào)率的行業(yè)標(biāo)準(zhǔn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 華為
    +關(guān)注

    關(guān)注

    218

    文章

    35955

    瀏覽量

    262030
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39666

    瀏覽量

    301275
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    香橙派系列開(kāi)發(fā)板如何部署OpenClaw

    OrangePi AIPro8T/20T、AI Station、AI Studio Pro、AI Studio都可以按同樣的步驟操作。 隨著香橙派
    發(fā)表于 02-25 10:13

    AI+FPGA助力生態(tài)新篇章|2025AI技術(shù)研討會(huì)·杭州站成功舉辦

    中國(guó)·杭州2025年12月17日“華強(qiáng)筑鏈·萬(wàn)里”華為&華強(qiáng)半導(dǎo)體2025AI技術(shù)研討會(huì)
    的頭像 發(fā)表于 12-24 08:05 ?583次閱讀
    <b class='flag-5'>AI</b>+FPGA助力<b class='flag-5'>昇</b><b class='flag-5'>騰</b>生態(tài)新篇章|2025<b class='flag-5'>昇</b><b class='flag-5'>騰</b><b class='flag-5'>AI</b>技術(shù)研討會(huì)·杭州站成功舉辦

    2025AI技術(shù)研討會(huì)·杭州站盛大開(kāi)啟!小眼睛科技誠(chéng)邀您共同見(jiàn)證AI+FPGA賦能新生態(tài)!

    在人工智能浪潮奔涌、產(chǎn)業(yè)智能化縱深躍遷的背景下,AI生態(tài)正成為推動(dòng)中國(guó)AI產(chǎn)業(yè)自主創(chuàng)新的重要力量。小眼睛科技依托
    的頭像 發(fā)表于 12-11 08:03 ?673次閱讀
    2025<b class='flag-5'>昇</b><b class='flag-5'>騰</b><b class='flag-5'>AI</b>技術(shù)研討會(huì)·杭州站盛大開(kāi)啟!小眼睛科技誠(chéng)邀您共同見(jiàn)證<b class='flag-5'>AI</b>+FPGA賦能<b class='flag-5'>昇</b><b class='flag-5'>騰</b>新生態(tài)!

    AI邊緣盒子TS-ATL-A200系列產(chǎn)品規(guī)格書(shū)

    盒子,是基于華為A200I嵌入式ARM架構(gòu)、高
    發(fā)表于 10-27 17:02 ?0次下載

    國(guó)產(chǎn)AI芯片真能扛住“內(nèi)卷”?海思的這波操作藏了多少細(xì)節(jié)?

    最近行業(yè)都在說(shuō)“AI的命門”,但國(guó)產(chǎn)芯片真的能接住這波需求嗎? 前陣子接觸到海思910
    發(fā)表于 10-27 13:12

    華為發(fā)布全球最強(qiáng)超節(jié)點(diǎn)和集群

    華為全聯(lián)接大會(huì)2025(HUAWEI CONNECT 2025)上,華為發(fā)布最強(qiáng)超節(jié)點(diǎn)和集群,并表示將發(fā)展生態(tài)作為公司核心戰(zhàn)略,提升到前所未有的戰(zhàn)略高度。在計(jì)算領(lǐng)域,鯤鵬
    的頭像 發(fā)表于 10-10 17:29 ?2220次閱讀

    華為首次公布芯片新路線圖

    了一劑強(qiáng)心針,標(biāo)志著華為AI 領(lǐng)域?qū)⒊掷m(xù)發(fā),為行業(yè)發(fā)展提供更強(qiáng)大的技術(shù)支撐。 ? 根據(jù)
    的頭像 發(fā)表于 09-19 16:49 ?1714次閱讀
    <b class='flag-5'>華為</b>首次公布<b class='flag-5'>昇</b><b class='flag-5'>騰</b>芯片新路線圖

    什么是AI模組?

    未來(lái),視科技將繼續(xù)深耕AI模組領(lǐng)域,全力推動(dòng)AI邊緣計(jì)算行業(yè)的深度發(fā)展。隨著
    的頭像 發(fā)表于 09-19 15:26 ?1672次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    什么是AI模組?

    未來(lái),視科技將繼續(xù)深耕AI模組領(lǐng)域,全力推動(dòng)AI邊緣計(jì)算行業(yè)的深度發(fā)展。隨著
    的頭像 發(fā)表于 09-19 15:25 ?801次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    中軟國(guó)際出席華為計(jì)算產(chǎn)業(yè)發(fā)展峰會(huì)

    的重大開(kāi)源舉措,深入探討開(kāi)源開(kāi)放的生態(tài)建設(shè)大計(jì),攜手加速AI領(lǐng)域的創(chuàng)新與發(fā)展浪潮。中軟國(guó)際執(zhí)行總裁彭江,中軟國(guó)際華為技術(shù)與解決方案集團(tuán)副總裁、智
    的頭像 發(fā)表于 08-07 18:14 ?1578次閱讀

    華為開(kāi)發(fā)者大會(huì)2025(HDC 2025)亮點(diǎn):華為云發(fā)布盤古大模型5.5 宣布新一代AI云服務(wù)上線

    HarmonyOS、AI云服務(wù)、盤古大模型等最新科技創(chuàng)新成果。 在主題演講中,華為常務(wù)董事、華為云計(jì)算CEO張平安宣布基于CloudMa
    的頭像 發(fā)表于 06-20 20:19 ?4433次閱讀
    <b class='flag-5'>華為</b>開(kāi)發(fā)者大會(huì)2025(HDC 2025)亮點(diǎn):<b class='flag-5'>華為</b>云發(fā)布盤古大模型5.5 宣布新一代<b class='flag-5'>昇</b><b class='flag-5'>騰</b><b class='flag-5'>AI</b>云服務(wù)上線

    KADC 2025,筑起行業(yè)智能化的屏障

    伙伴與開(kāi)發(fā)者,站在鯤鵬基座之后
    的頭像 發(fā)表于 05-29 10:09 ?1229次閱讀
    KADC 2025,筑起<b class='flag-5'>行業(yè)</b>智能化的<b class='flag-5'>算</b><b class='flag-5'>力</b>屏障

    創(chuàng)思遠(yuǎn)達(dá)與合作推動(dòng)AI PC應(yīng)用創(chuàng)新

    近日,端側(cè)智能領(lǐng)域創(chuàng)新者創(chuàng)思遠(yuǎn)達(dá)攜手,基于平臺(tái)正式發(fā)布一系列AIPC應(yīng)用。雙方深度融
    的頭像 發(fā)表于 03-25 10:22 ?1348次閱讀

    (原創(chuàng))310B(8T/20T)力主板定制方案

    310B(20T)力主板規(guī)格書(shū) 1.功能、性能與接口a)310B 20T
    發(fā)表于 03-16 21:43

    潤(rùn)和軟件將持續(xù)深化“+DeepSeek”技術(shù)路線

    (以下簡(jiǎn)稱“潤(rùn)和軟件”)作為生態(tài)核心伙伴受邀出席,人工智能研究院AI總工朱凱分享了基于“ + openEuler + OpenHar
    的頭像 發(fā)表于 03-08 09:39 ?1408次閱讀