91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

智算監(jiān)控的下半場(chǎng):從基礎(chǔ)設(shè)施報(bào)警到算力精算師

京東云 ? 來(lái)源:jf_75140285 ? 作者:jf_75140285 ? 2026-03-18 11:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要: 在十萬(wàn)卡集群與萬(wàn)億參數(shù)模型時(shí)代,基礎(chǔ)設(shè)施的穩(wěn)定性直接決定了模型訓(xùn)練的邊際成本。當(dāng)單次訓(xùn)練成本高達(dá)千萬(wàn)美元時(shí),監(jiān)控系統(tǒng)不再是簡(jiǎn)單的報(bào)警,而是衡量算力價(jià)值的精算師?;谝痪€(xiàn)智算運(yùn)維實(shí)踐,探討如何打破數(shù)據(jù)中心、服務(wù)器與網(wǎng)絡(luò)之間的數(shù)據(jù)壁壘,構(gòu)建具備業(yè)務(wù)感知能力的下一代智算監(jiān)控體系。

一、 核心痛點(diǎn):為什么傳統(tǒng)監(jiān)控在智算時(shí)代失效了?

在通用計(jì)算時(shí)代,我們習(xí)慣用 SLA 來(lái)衡量穩(wěn)定性。但在 AI 大模型訓(xùn)練場(chǎng)景下,這個(gè)指標(biāo)失效了。大模型訓(xùn)練是木桶效應(yīng)的極致放大,傳統(tǒng)監(jiān)控的局限性暴露:

木桶效應(yīng)帶來(lái)的全局脆弱性 在一個(gè)擁有 數(shù)萬(wàn)張 GPU 的集群中,通常采用并行策略進(jìn)行訓(xùn)練。此時(shí),任意一張 GPU 的顯存出現(xiàn) ECC 錯(cuò)誤,或是任意一根光纖的抖動(dòng)導(dǎo)致數(shù)據(jù)重傳,都會(huì)引發(fā)整個(gè)集群訓(xùn)練的停滯。局部微小故障,即意味著全局算力的癱瘓。

煙囪式架構(gòu)導(dǎo)致的可觀(guān)測(cè)性盲區(qū) 傳統(tǒng)的監(jiān)控是割裂的:動(dòng)環(huán)團(tuán)隊(duì)只看水溫和電壓,網(wǎng)絡(luò)團(tuán)隊(duì)只管端口狀態(tài)與帶寬,系統(tǒng)團(tuán)隊(duì)只盯 CPU 負(fù)載和磁盤(pán) IO。當(dāng)訓(xùn)練速度無(wú)故下降 10% 時(shí),三個(gè)團(tuán)隊(duì)的監(jiān)控面板全綠,能夠自證清白,但業(yè)務(wù)受損的根因卻無(wú)從查起。

智算監(jiān)控的下半場(chǎng),必須打破這種割裂,實(shí)現(xiàn)面向訓(xùn)練/推理任務(wù)的可觀(guān)測(cè)性。

二、 理念重塑:構(gòu)建以 訓(xùn)練/推理 為中心的監(jiān)控體系

打破煙囪,核心是構(gòu)建一個(gè)以訓(xùn)練/推理任務(wù)為頂點(diǎn),向下穿透所有軟硬件層級(jí)。監(jiān)控體系需要在以下四個(gè)維度實(shí)現(xiàn)升維突破:

監(jiān)控對(duì)象的升維:從資源池到 訓(xùn)練/推理 的任務(wù) 摒棄孤立的 GPU 利用率、網(wǎng)絡(luò)帶寬等傳統(tǒng)指標(biāo)。確立以 單次訓(xùn)練/推理 迭代時(shí)間為新黃金指標(biāo),并將其精準(zhǔn)拆解為計(jì)算、通信、數(shù)據(jù)加載、排隊(duì)等各階段耗時(shí)。

端到端追蹤:跨層級(jí)的關(guān)聯(lián) 為每一次訓(xùn)練/推理迭代生成全局唯一的追蹤 ID,貫穿任務(wù)調(diào)度、單卡計(jì)算到跨節(jié)點(diǎn)網(wǎng)絡(luò)通信的全鏈路。通過(guò)毫秒級(jí)的時(shí)間同步與統(tǒng)一的元數(shù)據(jù)(任務(wù)、Pod、GPU、交換機(jī)端口、機(jī)架、電源),實(shí)現(xiàn)跨層根因定位。

告警機(jī)制的升維:從故障阻斷到性能劣化告警 不再局限于 端口 Down、GPU 宕機(jī)等硬性故障。新一代告警需聚焦性能劣化:迭代時(shí)間 P99 線(xiàn)同比增加 10%、集群有效算力利用率(MFU)微降 5%。這需要依托動(dòng)態(tài)基線(xiàn)與 AI 算法,在性能受損初期精準(zhǔn)捕獲異常。

預(yù)測(cè)與推演:基于數(shù)字孿生的前置風(fēng)控 基于歷史數(shù)據(jù),構(gòu)建硬件退化(如 GPU 顯存壽命、光模塊光衰)與訓(xùn)練/推理 性能波動(dòng)的關(guān)聯(lián)模型。在進(jìn)行作業(yè)調(diào)度或網(wǎng)絡(luò)拓?fù)渥兏?,可在?shù)字孿生系統(tǒng)中進(jìn)行仿真推演,預(yù)測(cè)其對(duì)全局訓(xùn)練/推理效率的影響。

三、 底層重構(gòu):物理層的核心技術(shù)架構(gòu)

在萬(wàn)卡集群中軟硬件的邊界正在模糊。監(jiān)控必須深入芯片寄存器、光電信號(hào)微觀(guān)層面。

1. 算力層:深入芯片內(nèi)部的健康探針

隨著新一代芯片架構(gòu)的演進(jìn),單臺(tái)服務(wù)器內(nèi)部已是一個(gè)復(fù)雜的拓?fù)渚W(wǎng)絡(luò)。

靜默錯(cuò)誤的捕獲與預(yù)測(cè): 傳統(tǒng)監(jiān)控只看 Crash。智能監(jiān)控必須深入 GPU 寄存器,監(jiān)控單比特錯(cuò)誤的翻轉(zhuǎn)速率。雖然 SBE 會(huì)被 ECC 糾正,但其高頻出現(xiàn)往往是雙比特錯(cuò)誤(DBE)的前兆。結(jié)合 Xid Errors 與 Row Remap 計(jì)數(shù),構(gòu)建 GPU 健康度衰退模型。

片間互聯(lián)的可觀(guān)測(cè)性: 在高速 SerDes 鏈路中,信號(hào)完整性至關(guān)重要。需重點(diǎn)關(guān)注 NVLink Replay Error 和 Recovery Data Error。如果發(fā)現(xiàn)某條鏈路 Replay 次數(shù)異常,即便表層監(jiān)控顯示帶寬打滿(mǎn),其實(shí)際有效吞吐量可能已經(jīng)崩盤(pán)。

2. 網(wǎng)絡(luò)層:微秒級(jí)擁塞與光鏈路的預(yù)測(cè)性維護(hù)

在 RDMA/RoCEv2 網(wǎng)絡(luò)中,網(wǎng)絡(luò)質(zhì)量不僅取決于交換機(jī),更取決于光。

光鏈路的預(yù)測(cè)性維護(hù): 400G/800G 光模塊對(duì)溫度和電壓極度敏感。監(jiān)控不能停留在 有光/無(wú)光狀態(tài),深挖 Pre-FEC BER。當(dāng)其呈現(xiàn)線(xiàn)性惡化趨勢(shì)時(shí),系統(tǒng)應(yīng)在徹底損壞前,自動(dòng)通知調(diào)度器排空該節(jié)點(diǎn),實(shí)現(xiàn)無(wú)感運(yùn)維。

擁塞的精細(xì)化鑒別: 面對(duì) PFC Storm 與 CNP,監(jiān)控系統(tǒng)具備識(shí)別能力:精準(zhǔn)識(shí)別這是因?yàn)榻邮斩颂幚砺龑?dǎo)致的反壓,還是網(wǎng)絡(luò)多打一造成的擁塞,并完成修復(fù)。

3. 基礎(chǔ)設(shè)施層:算力與環(huán)境的深度綁定

當(dāng)機(jī)柜功率密度突破 100kW,液冷與電網(wǎng)監(jiān)控正式成為算力監(jiān)控的一部分。

精細(xì)化熱點(diǎn)追蹤: 建立進(jìn)出水溫差與流速的實(shí)時(shí)關(guān)聯(lián)。若某 CDU 回流水溫正常但流速下降,且對(duì)應(yīng) GPU 溫度飆升,系統(tǒng)應(yīng)迅速預(yù)警過(guò)濾器堵塞或局部漏液風(fēng)險(xiǎn)。

功耗與算力的時(shí)序?qū)R: 將 PDU 電流波形與 GPU Kernel Launch 活動(dòng)進(jìn)行微秒級(jí)對(duì)齊。這一極致的監(jiān)控能力,能敏銳捕捉到電源模塊的瞬態(tài)響應(yīng)不足,從而識(shí)別出導(dǎo)致 GPU 莫名降頻的隱性原因。

四、 產(chǎn)品設(shè)計(jì):告別報(bào)警風(fēng)暴,走向智能自愈

智算監(jiān)控的核心價(jià)值在于提供 MTTI(Mean Time To Innocence,平均自證清白時(shí)間) 和精準(zhǔn)的 RCA(Root Cause Analysis,根因分析)。

拓?fù)涓兄娜敖换D

痛點(diǎn): 告警顯示 Switch-A Port-3 丟包,運(yùn)維人員還需對(duì)照表核對(duì)受影響的服務(wù)器。

設(shè)計(jì): 產(chǎn)品需內(nèi)置動(dòng)態(tài)物理拓?fù)鋱D數(shù)據(jù)庫(kù)。點(diǎn)擊任意報(bào)警節(jié)點(diǎn),系統(tǒng)立刻高亮受影響的計(jì)算節(jié)點(diǎn)、正在運(yùn)行的任務(wù)流水號(hào)以及物理光纖編號(hào),實(shí)現(xiàn)所見(jiàn)即所得。

專(zhuān)家經(jīng)驗(yàn)代碼化:自動(dòng)化的故障確診 系統(tǒng)需將資深運(yùn)維專(zhuān)家的排障邏輯沉淀為判定樹(shù)。

當(dāng)監(jiān)控同時(shí)捕獲 某節(jié)點(diǎn) RDMA 帶寬波動(dòng) + 同時(shí)間段 PCIe AER 錯(cuò)誤增多+ 該 GPU 溫度異常偏高。

系統(tǒng)自動(dòng)判定為 Riser 卡接觸不良或過(guò)熱,直接輸出 RCA 結(jié)論并生成工單建議重新插拔/更換該槽位 Riser 卡,而不是向用戶(hù)發(fā)送三條毫無(wú)關(guān)聯(lián)的獨(dú)立告警。

五、 結(jié)語(yǔ):監(jiān)控即算力

在 AI Infra 領(lǐng)域,監(jiān)控系統(tǒng)正在經(jīng)歷從單純 Observer Controller 的演進(jìn)。未來(lái)的智算監(jiān)控,將通過(guò) eBPF 技術(shù)深潛內(nèi)核, Telemetry 毫秒級(jí)抓取交換機(jī)狀態(tài),海量底層傳感器感知。

智算監(jiān)控下半場(chǎng)的本質(zhì),是將視角從資源供應(yīng)商徹底切換到訓(xùn)練/推理 任務(wù)消費(fèi)者。它要求整個(gè)體系必須能精確回答一個(gè)問(wèn)題:

我的萬(wàn)卡集群,此刻每一分錢(qián)的硬件投資,究竟轉(zhuǎn)化出了多少有效的訓(xùn)練/推理 的吞吐量

為了給出答案必須打通從底層芯片、光電鏈路、液冷機(jī)柜,到上層并行策略、任務(wù)編排的數(shù)據(jù)孤島。這不僅僅是一個(gè)運(yùn)維基礎(chǔ)設(shè)施的升級(jí),更是一項(xiàng)運(yùn)營(yíng) AI 生產(chǎn)力的系統(tǒng)性工程。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40126

    瀏覽量

    301746
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1556

    瀏覽量

    16783
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    海瑞思全流程密封檢測(cè)方案為基礎(chǔ)設(shè)施筑牢安全防線(xiàn)

    ≤ 1.15 的政策要求進(jìn)一步收緊能效約束,使液冷技術(shù)基礎(chǔ)設(shè)施的“可選方案”,逐步演進(jìn)為高力場(chǎng)景下的剛性配置。
    的頭像 發(fā)表于 02-10 16:11 ?602次閱讀

    中科曙光scaleX萬(wàn)卡超集群重塑超大規(guī)模基礎(chǔ)設(shè)施

    在“人工智能+”行動(dòng)深入推進(jìn)的當(dāng)下,基礎(chǔ)設(shè)施已成為國(guó)家戰(zhàn)略競(jìng)爭(zhēng)的核心,而超大規(guī)模集群的運(yùn)維管控難題卻日益凸顯。中科曙光scaleX萬(wàn)卡超集群打造的智能管理體系,正以“能管住-管得
    的頭像 發(fā)表于 01-30 15:43 ?808次閱讀

    云端集中邊緣分布:邊緣智如何重塑網(wǎng)絡(luò)布局

    隨著大模型推理延遲進(jìn)入毫秒級(jí)時(shí)代,整個(gè)科技行業(yè)都意識(shí)網(wǎng)絡(luò)的規(guī)則正在被改寫(xiě)。這場(chǎng)變革的核心,正是云端集中式計(jì)算向邊緣分布式智能的范式轉(zhuǎn)移。據(jù)行業(yè)多家分析機(jī)構(gòu)綜合預(yù)測(cè),全球AI
    的頭像 發(fā)表于 12-25 11:34 ?484次閱讀
    <b class='flag-5'>從</b>云端集中<b class='flag-5'>到</b>邊緣分布:邊緣智<b class='flag-5'>算</b>如何重塑<b class='flag-5'>算</b><b class='flag-5'>力</b>網(wǎng)絡(luò)布局

    錨定中央 “人工智能+” 部署!天數(shù)智以全棧產(chǎn)品,解鎖行業(yè)智能化新可能??

    近日,中央重磅印發(fā)《關(guān)于深入實(shí)施“人工智能+”行動(dòng)的意見(jiàn)》,明確提出要“強(qiáng)化基礎(chǔ)設(shè)施支撐、推動(dòng)AI與重點(diǎn)領(lǐng)域深度融合、拓展民生領(lǐng)域智能應(yīng)用”。作為深耕AI
    的頭像 發(fā)表于 12-11 17:54 ?1920次閱讀
    錨定中央 “人工智能+” 部署!天數(shù)智<b class='flag-5'>算</b>以全棧產(chǎn)品<b class='flag-5'>力</b>,解鎖行業(yè)智能化新可能??

    湘軍,讓變成生產(chǎn)?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    曙光數(shù)創(chuàng)穩(wěn)居2024年中國(guó)中心基礎(chǔ)設(shè)施液冷溫控設(shè)備市場(chǎng)份額第一

    11月18日至20日,CDCE國(guó)際數(shù)據(jù)中心及云計(jì)算展在上海新國(guó)際博覽中心舉行。大會(huì)期間,由中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院、中關(guān)村協(xié)眾創(chuàng)智信息產(chǎn)業(yè)促進(jìn)會(huì)、ICT research聯(lián)合編寫(xiě)的《中國(guó)基礎(chǔ)設(shè)施
    的頭像 發(fā)表于 11-21 17:33 ?1434次閱讀

    CPU、GPUNPU,美格智能持續(xù)優(yōu)化異構(gòu)計(jì)算效能

    前言AI已成為數(shù)字經(jīng)濟(jì)時(shí)代的核心生產(chǎn),但全球AI產(chǎn)業(yè)正面臨“供給不足、成本高企、生態(tài)待建”三重挑戰(zhàn)。據(jù)行業(yè)統(tǒng)計(jì),行業(yè)資源平均利用率
    的頭像 發(fā)表于 11-21 16:05 ?1195次閱讀
    <b class='flag-5'>從</b>CPU、GPU<b class='flag-5'>到</b>NPU,美格智能持續(xù)優(yōu)化異構(gòu)<b class='flag-5'>算</b><b class='flag-5'>力</b>計(jì)算效能

    科士達(dá)全棧解決方案亮相2025 ODCC,驅(qū)動(dòng)綠色AI智基礎(chǔ)設(shè)施革新

    2025年開(kāi)放數(shù)據(jù)中心大會(huì)(ODCC)于9月9日-11日在北京國(guó)際會(huì)議中心盛大啟幕。本屆峰會(huì)以“擁抱AI變革,點(diǎn)燃網(wǎng)引擎”為主題,聚焦AI爆發(fā)背景下基礎(chǔ)設(shè)施面臨的能效、部署與可持
    的頭像 發(fā)表于 09-17 15:40 ?1273次閱讀
    科士達(dá)全棧解決方案亮相2025 ODCC,驅(qū)動(dòng)綠色AI智<b class='flag-5'>算</b><b class='flag-5'>基礎(chǔ)設(shè)施</b>革新

    熱插拔集群

    熱插拔集群指在無(wú)需停機(jī)的情況下,動(dòng)態(tài)增減計(jì)算節(jié)點(diǎn)或硬件的基礎(chǔ)設(shè)施,其核心價(jià)值在于實(shí)現(xiàn)資源的彈性伸縮和業(yè)務(wù)連續(xù)性。以下
    的頭像 發(fā)表于 06-26 09:20 ?1066次閱讀

    軟通智亮相第四屆粵港澳大灣區(qū)(廣東)產(chǎn)業(yè)大會(huì)

    服務(wù)平臺(tái)項(xiàng)目”于本次大會(huì)完成正式簽約,其智基礎(chǔ)設(shè)施建設(shè)能力與技術(shù)創(chuàng)新服務(wù)能力獲得與會(huì)單位和企業(yè)機(jī)構(gòu)一致認(rèn)可。
    的頭像 發(fā)表于 06-17 15:38 ?919次閱讀

    AIGC基礎(chǔ)設(shè)施技術(shù)架構(gòu)與行業(yè)實(shí)踐

    AIGC基礎(chǔ)設(shè)施技術(shù)架構(gòu)與行業(yè)實(shí)踐 一、硬件層:AI的物理載體 芯片技術(shù)升級(jí)? 國(guó)際前沿?:某國(guó)際芯片巨頭2025年發(fā)布的GB200
    的頭像 發(fā)表于 05-29 07:44 ?993次閱讀
    AIGC<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>基礎(chǔ)設(shè)施</b>技術(shù)架構(gòu)與行業(yè)實(shí)踐

    智能基建:RAKsmart如何賦能下一代AI開(kāi)發(fā)工具

    當(dāng)今,AI模型的復(fù)雜化與規(guī)?;瘜?duì)提出了前所未有的要求。然而,傳統(tǒng)的基礎(chǔ)設(shè)施在靈活性、成本效率和可擴(kuò)展性上逐漸顯露出瓶頸。而RAKsm
    的頭像 發(fā)表于 05-07 09:40 ?514次閱讀

    華為助力中國(guó)移動(dòng)全面升級(jí)“九州”互聯(lián)網(wǎng)

    在中國(guó)移動(dòng)云智大會(huì)期間,以“智啟新,安全筑基“為主題的智基礎(chǔ)設(shè)施及安全峰會(huì)成功舉辦。會(huì)上,中國(guó)移動(dòng)聯(lián)合華為等重磅發(fā)布了《“九州”
    的頭像 發(fā)表于 04-14 16:46 ?1212次閱讀

    芯片的生態(tài)突圍與革命

    電子發(fā)燒友網(wǎng)報(bào)道(文 / 李彎彎)大芯片,即具備強(qiáng)大計(jì)算能力的集成電路芯片,主要應(yīng)用于高性能計(jì)算(HPC)、人工智能(AI)、數(shù)據(jù)中心、自動(dòng)駕駛等需要海量數(shù)據(jù)并行計(jì)算的場(chǎng)景。隨著 AI 與大數(shù)
    的頭像 發(fā)表于 04-13 00:02 ?3315次閱讀