91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文梳理:如何構(gòu)建并優(yōu)化GPU云算力中心?

星融元 ? 來源:jf_55437772 ? 作者:jf_55437772 ? 2024-11-15 11:59 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

?【更多詳細(xì)內(nèi)容,請訪問星融元官網(wǎng)https://asterfusion.com/】

目前最常見的AI算力中心部署的GPU集群大小為 2048、1024、512 和 256,且部署成本隨 GPU 數(shù)量線性增長。本文將以相對折中的1024 GPU卡(H100)的規(guī)模為例展開分析。

01 計算節(jié)點的選型

計算節(jié)點是AI算力中心的建設(shè)報價中最昂貴的部分,一開始拿到的 HGX H100 默認(rèn)物料清單(BoM)往往使用的是頂級配置。不同于 DGX 是 NVIDIA 的系統(tǒng)品牌,HGX 作為 NVIDIA 授權(quán)平臺允許合作伙伴構(gòu)建定制的GPU系統(tǒng)。那么,根據(jù)業(yè)務(wù)實際所需,我們可從以下幾個方面嘗試優(yōu)化成本。

默認(rèn) HGX H100 機箱 物料報價清單
組件和服務(wù) 數(shù)量
接近頂級性能的英特爾 Emerald Rapids 處理器 2
8 H100 +4 NVSwitch HGX Baseboard + 8 SXM5 Heatsinks 1
CPU RAM (per Gbyte) 2048
Storage (per TByte) 30
后端 ConnectX-7 NIC 80
Bluefield-3 DPU 2
主板 1
機箱(機箱、布線等) 1
冷卻(CPU 散熱器 + 風(fēng)扇) 1
電源 8
組裝&測試 1
OEM 增值/附加費用 1
合計($):270000+

1、選擇中端CPU

LLM 訓(xùn)練是一項 GPU 高度密集型工作負(fù)載,對 CPU 工作負(fù)載要求低。CPU 運行是一些簡單任務(wù),例如 PyTorch ,控制 GPU 的其他進程、初始化網(wǎng)絡(luò)和存儲調(diào)用,或者運行虛擬機管理程序等。Intel CPU 相對更容易實現(xiàn)正確的 NCCL 性能和虛擬化,而且整體錯誤更少。如果是采用AMD CPU ,則要用 NCCL_IB_PCI_RELAXED_ORDERING 并嘗試不同的 NUMA NPS 設(shè)置來調(diào)優(yōu)。

2、 RAM 降級到 1 TB

RAM 同樣是計算節(jié)點中相對昂貴的部分。許多標(biāo)準(zhǔn)產(chǎn)品都具有 2TB 的 CPU DDR 5 RAM,但常規(guī)的AI工作負(fù)載根本不受 CPU RAM 限制,可以考慮減配。

3、刪除 Bluefield-3 或選擇平替

Bluefield-3 DPU最初是為傳統(tǒng) CPU 云開發(fā)的,賣點在于卸載CPU負(fù)載,讓CPU用于業(yè)務(wù)出租,而不是運行網(wǎng)絡(luò)虛擬化。結(jié)合實際,奔著GPU算力而來的客戶無論如何都不會需要太多 CPU 算力,使用部分 CPU 核心進行網(wǎng)絡(luò)虛擬化是可以接受的。此外Bluefield-3 DPU 相當(dāng)昂貴,使用標(biāo)準(zhǔn) ConnectX 作為前端或采用平替的DPU智能網(wǎng)卡完全可滿足所需。

綜合考慮前述幾項成本優(yōu)化,我們已經(jīng)可為單個服務(wù)器降低約5%的成本。在擁有 128 個計算節(jié)點的 1024 H100 集群中,這個比率背后的金額已經(jīng)相當(dāng)可觀。

4、減少單節(jié)點網(wǎng)卡數(shù)量(謹(jǐn)慎選擇)

標(biāo)準(zhǔn)物料清單中,每臺 H100 計算服務(wù)器配備八個 400G CX-7() NIC,單服務(wù)器的總帶寬達(dá)到 3,200Gb/s。如果只使用四塊網(wǎng)卡,后端計算網(wǎng)的帶寬將會減少 50%。 這種調(diào)整顯而易見可以節(jié)約資金,但多少會也對部分AI工作負(fù)載性能造成不利影響。

02 集群網(wǎng)絡(luò)的選型

集群網(wǎng)絡(luò)是繼計算節(jié)點之后的第二大成本來源。本文舉例的 NVIDIA H100 集群有三種不同的網(wǎng)絡(luò):

后端網(wǎng)絡(luò)(計算網(wǎng),InfiniBand 或 RoCEv2) 用于將 GPU 之間的通信從數(shù)十個機架擴展到數(shù)千個機架。該網(wǎng)絡(luò)可以使 InfiniBand() 或 Spectrum-X 以太網(wǎng),也可以使用其他供應(yīng)商的以太網(wǎng)。

前端網(wǎng)絡(luò)(業(yè)務(wù)管理和存儲網(wǎng)絡(luò)) 用于連接互聯(lián)網(wǎng)、SLURM/Kubernetes() 和網(wǎng)絡(luò)存儲以加載訓(xùn)練數(shù)據(jù)和Checkpoint。該網(wǎng)絡(luò)通常以每 GPU 25-50Gb/s 的速度運行,滿配八卡的情況每臺GPU服務(wù)器的帶寬將達(dá)到 200-400Gb/s。

帶外管理網(wǎng)絡(luò) 用于重新映像操作系統(tǒng)、監(jiān)控節(jié)點健康狀況(如風(fēng)扇速度、溫度、功耗等)。服務(wù)器上的BMC、機柜電源、交換機、液冷裝置等通常連接到此網(wǎng)絡(luò)以監(jiān)控和控制服務(wù)器和各種其他 IT 設(shè)備。

默認(rèn) HGX H100 集群網(wǎng)絡(luò) 物料報價清單
組件和服務(wù) 數(shù)量
InfiniBand 計算網(wǎng)
Quantum-2 IB 交換機(MQM9700) 48
Nvidia LinkX IB 400G 單端口 SR4 收發(fā)器 (MMA4Z00-NS4400) 1024
Nvidia LinkX 800G 雙端口 SR8 收發(fā)器 (MMA4Z00-NS) 1536
Nvidia LinkX 400G 多模光纖 3072
前端光纖架構(gòu)成本
Spectrum Ethernet Switch (SN4600) 6
Nvidia LinkX 200G QSFP56 AOC 收發(fā)器 384
Nvidia LinkX 200G 收發(fā)器 256
Nvidia LinkX 100G 多模光纖 512
帶外管理網(wǎng)
1GbE Spectrum Ethernet Switch (SN2201) 4
RJ45 Cables 232
合計($):490000+

1、計算網(wǎng)絡(luò):RoCEv2替代IB

與量大管飽的以太網(wǎng)解決方案相比,NVIDIA 提供的InfiniBand無疑更昂貴,但一些客戶依舊篤定認(rèn)為以太網(wǎng)性能要低得多,這主要是因為以太網(wǎng)需要進行必要的無損網(wǎng)絡(luò)參數(shù)配置并且針對性調(diào)優(yōu)才能發(fā)揮集合通信庫的性能。

不過從對業(yè)務(wù)性能的影響角度看,目前技術(shù)背景下使用IB或是RoCEv2作為后端計算網(wǎng)沒有并太多差異。畢竟 RoCE 實際上只是將成熟的IB傳輸層和RDMA移植到了同樣成熟的以太網(wǎng)和IP網(wǎng)絡(luò)上,這一點我們將在往后的另一篇文章來分析闡述。

wKgZoWc2xh6AV3VeAAAzrstk9pU046.png

大規(guī)模算力場景中用以太網(wǎng)替代IB組成高性能無損網(wǎng)絡(luò)已形成業(yè)內(nèi)共識,行業(yè)熱點早已轉(zhuǎn)向了如何更好地薅“以太網(wǎng)羊毛”:例如從以太網(wǎng)標(biāo)準(zhǔn)入手,推出下一代面向AI場景的新協(xié)議,以及一些廠商立足于現(xiàn)有協(xié)議標(biāo)準(zhǔn)在簡化RoCE網(wǎng)絡(luò)配置和提高可視化能力上做的創(chuàng)新嘗試。

參閱: Easy RoCE:在SONiC交換機上一鍵啟用無損以太網(wǎng)

無論是在AI訓(xùn)推的測試場景,還是頭部云廠商已有的工程實踐里,AI以太網(wǎng)都有了大量案例可供參考。

據(jù)統(tǒng)計,在全球 TOP500 的超級計算機中,RoCE和IB的占比相當(dāng)。以計算機數(shù)量計算,IB 占比為 47.8%, RoCE 占比為 39%; 而以端口帶寬總量計算,IB占比為 39.2%,RoCE 為 48.5%。與IB相比,我們相信有著開放生態(tài)的以太網(wǎng)將會得到加速發(fā)展。

目前市場上提供適用于AI場景的高性能以太網(wǎng)交換芯片平臺主要有Broadcom Tomahawk、Marvell Teralynx和Cisco Silicon One 等,NVIDIA Spectrum 芯片僅用于Spectrum-X平臺,不單獨銷售。以上平臺都推出了51.2T,800GbE/s的尖端型號,綜合來看部署數(shù)量上 Tomahawk 明顯占優(yōu),轉(zhuǎn)發(fā)時延性能表現(xiàn) Teralynx 更勝一籌。

2、前端網(wǎng)絡(luò):合理降低帶寬速率

NVIDIA 和一些OEM/系統(tǒng)集成商通常會在服務(wù)器提供 2x200GbE 前端網(wǎng)絡(luò)連接,并使用 Spectrum Ethernet SN4600 交換機部署網(wǎng)絡(luò)。

我們知道,這張網(wǎng)絡(luò)僅用于進行存儲和互聯(lián)網(wǎng)調(diào)用以及傳輸基于 SLURM,Kubernetes 等管理調(diào)度平臺的帶內(nèi)管理流量,并不會用于時延敏感和帶寬密集型的梯度同步。每臺服務(wù)器 400G 的網(wǎng)絡(luò)連接在常規(guī)情況下將遠(yuǎn)超實際所需,其中存在一些成本壓縮空間。

3、帶外管理網(wǎng)絡(luò):選用通用的以太網(wǎng)交換機

NVIDIA 默認(rèn)物料清單一般包括 Spectrum 1GbE 交換機,價格昂貴。帶外管理網(wǎng)絡(luò)用到的技術(shù)比較通用,選擇市場上成本更優(yōu)的 1G 以太網(wǎng)交換機完全夠用。

03 計算網(wǎng)絡(luò)的架構(gòu)優(yōu)化

GPU集群計算網(wǎng)將承載并行計算過程中產(chǎn)生的各類集合通信(all-reduce,all-gather 等),流量規(guī)模和性能要求與傳統(tǒng)云網(wǎng)絡(luò)完全不同。

參閱:揭秘AI智算中心網(wǎng)絡(luò)流量 - 大模型訓(xùn)練篇

NVIDIA 推薦的網(wǎng)絡(luò)拓?fù)涫且粋€具有無阻塞連接的兩層胖樹網(wǎng)絡(luò),理論上任意節(jié)點對都應(yīng)該能同時進行線速通信。但由于存在鏈路擁塞、不完善的自適應(yīng)路由和額外跳數(shù)的帶來的通信延遲,真實場景中無法達(dá)到理論最優(yōu)狀態(tài),需要對其進行性能優(yōu)化。

軌道優(yōu)化(Rail-optimized)架構(gòu)

軌道優(yōu)化架構(gòu)下,4臺服務(wù)器的32張 GPU 卡不再是連接到 TOR 交換機,而是來自32臺服務(wù)器的同卡號 GPU 連接各自的軌道交換機——即32臺服務(wù)器的所有 GPU#0 都連接到 Leaf 交換機#0,所有 GPU#1 都連接到 Leaf 交換機#1,依此類推。

wKgaoWc2xkWAdTlDAAHS17ogCUQ092.png

軌道優(yōu)化網(wǎng)絡(luò)的主要優(yōu)勢是減少網(wǎng)絡(luò)擁塞。因為用于 AI 訓(xùn)練的 GPU 會定期并行底發(fā)送數(shù)據(jù),通過集合通信來在不同GPU之間交換梯度并更新參數(shù)。如果來自同一服務(wù)器的所有 GPU 都連接到同一個 ToR 交換機,當(dāng)它們將并行流量發(fā)送到網(wǎng)絡(luò),使用相同鏈路造成擁塞的可能性會非常高。

星融元(Asterfusion)給出的1024卡,128計算節(jié)點 Scale-out 網(wǎng)絡(luò)方案正是基于軌道優(yōu)化后的架構(gòu),其中采用了24臺 CX864E-N(51.2T的單芯片盒式交換機,8臺作為Spine,16臺作為Leaf),產(chǎn)生跨節(jié)點通信的同卡號GPU之間只會相距一跳。

參閱:星融元發(fā)布 51.2T 800G 以太網(wǎng)交換機,賦能AI開放生態(tài)

wKgZomc2xxOAYxqAAASxDegltlk599.pngpoYBAGDYdXCAWkKMAAAAK8RNs4s030.pngwKgaomc2xmeAHheoAARtJWtqtrs377.png

?編輯

來源:星融元(Asterfusion)CX864E-N交換機

wKgaomc2xxSATLgEAAVUHob7UiE636.pngwKgZomc2xnWAP5YzAAS87Ecd8pw086.png

wKgaomc2xoCAQnAzAAILnAHgKfc860.png

來源:星融元(Asterfusion)星智AI網(wǎng)絡(luò)解決方案

如果追求極致的成本優(yōu)化,對于一個32到128個節(jié)點的計算集群甚至可以設(shè)計只有單層軌道交換機的Rail-only網(wǎng)絡(luò),理論上建網(wǎng)成本可以節(jié)約高達(dá)75%。

確定合適的超額訂閱率

軌道優(yōu)化拓?fù)涞牧硪粋€好處可以超額訂閱(Oversubscription)。在網(wǎng)絡(luò)架構(gòu)設(shè)計的語境下,超額訂閱指的是提供更多的下行容量;超額訂閱率即下行容量(到服務(wù)器/存儲)和上行帶寬(到上層Spine交換機)的比值,在 Meta 的 24k H100 集群里這個比率甚至已經(jīng)來到夸張的7:1。

通過設(shè)計超額訂閱,我們可以通過突破無阻塞網(wǎng)絡(luò)的限制進一步優(yōu)化成本。這點之所以可行是因為 8 軌的軌道優(yōu)化拓?fù)淅?,大多?shù)流量傳輸發(fā)生在 pod 內(nèi)部,跨 pod 流量的帶寬要求相對較低。結(jié)合足夠好的自適應(yīng)路由能力和具備較大緩沖空間的交換機,我們可以規(guī)劃一個合適的超額訂閱率以減少上層Spine交換機的數(shù)量。

但值得注意的是,無論是IB還是RoCEv2,當(dāng)前還沒有一個完美的方案規(guī)避擁塞風(fēng)險,兩者應(yīng)對大規(guī)模集合通信流量時均有所不足,故超額訂閱不宜過于激進。(而且最好給Leaf交換機留有足夠端口,以便未來 pod 間流量較大時增加spine交換機)

現(xiàn)階段如果是選用基于以太網(wǎng)的AI網(wǎng)絡(luò)方案我們?nèi)酝扑]1:1的無阻塞網(wǎng)絡(luò)設(shè)計。

04 NVMe 存儲

物理服務(wù)器數(shù)量

為了實現(xiàn)高可用性,大多數(shù)存儲廠商都會建議部署至少 8 臺存儲服務(wù)器。8 臺存儲服務(wù)器每臺可提供 250GB/s 到 400GB/s 的存儲帶寬,足以滿足在 1024 臺 H100 上運行的 AI 工作負(fù)載。我們可以從最小可用數(shù)量開始,但需要注意在存儲系統(tǒng)上留出足夠的端口、NVMe 驅(qū)動器托架、電源和機架空間,以便后續(xù)按需擴展。

存儲網(wǎng)絡(luò)

常見的方案是構(gòu)建專門的200G無損以太網(wǎng)作為存儲網(wǎng)絡(luò)以確保性能,存儲前后端網(wǎng)絡(luò)在物理上合一。

wKgZomc2xq2AVAteAAMxlZiPFvM750.png

來源:星融元(Asterfusion)

存儲服務(wù)器也可以在后端計算網(wǎng)上運行——通常是將IB網(wǎng)卡綁定到 GPU 0來充當(dāng)存儲網(wǎng)卡。雖然存儲基準(zhǔn)測試的延遲和帶寬表現(xiàn)很好,但在實際AI工作負(fù)載中將影響 GPU 0 的性能(IB網(wǎng)卡同時作為存儲網(wǎng)卡會有流量沖突)。當(dāng)存儲集群中的磁盤發(fā)生故障將觸發(fā)重建,會在計算網(wǎng)上造成大量的流量,形成更嚴(yán)重的擁塞。

05 帶內(nèi)管理

為了運行高可用的 UFM 和 CPU 管理節(jié)點,我們建議部署至少兩個通用 x86 服務(wù)器,使用25GE/10GE以太網(wǎng)鏈路連接所有計算節(jié)點和管理節(jié)點,并接入外部網(wǎng)絡(luò)。

wKgZomc2xsGAKQ3jAAOU-yHo1aM490.png

來源:星融元(Asterfusion)

默認(rèn)的NVIDIA Superpod 架構(gòu)中包含了“NVIDIA AI Enterprise”或“Base Command Manager (BCM)”,其建議零售價為4,500 美元/GPU。BCM 是一個提供 AI 工作流和集群管理的軟件包,這一部分軟件費用可以考慮剔除后選擇其他平替方案,或交由用戶自定義。

此外帶內(nèi)管理系統(tǒng)還涉及到其他 IT 設(shè)備,例如防火墻、機架、PDU 等,這部分價格不會顯著增加集群建設(shè)支出。

06 帶外管理

帶外管理系統(tǒng)主要是通過智慧平臺管理接口(IPMI)去監(jiān)視、控制和自動回報大量服務(wù)器的運作狀況。IPMI可獨立于操作系統(tǒng)外自行運作,并允許管理者在受監(jiān)控的系統(tǒng)未開機但有接電源的情況下進行遠(yuǎn)程管理,但這種監(jiān)控功能主要集中在硬件級別。

不同于帶內(nèi)管理,帶外管理構(gòu)建了單獨的網(wǎng)絡(luò)承載物理設(shè)備管理流量,不會承載業(yè)務(wù)流量。我們一般是每GPU計算節(jié)點和存儲節(jié)點配置1條1 GE 鏈路連接IPMI和后端管理平臺。

wKgaomc2xsyAFe-tAAQJ0pjhqnQ784.png

07 驅(qū)動和業(yè)務(wù)調(diào)度程序

GPU驅(qū)動程序

必要的 GPU 驅(qū)動程序有 cuda-drivers-5xx 和 fabricmanager-5xx 以及 cuda-toolkit-12-x。

Cuda-drivers-5xx 是 ubuntu/Linux 與 GPU 交互所需的內(nèi)核空間驅(qū)動程序

fabricmanager-5xx 是一個負(fù)責(zé)配置節(jié)點內(nèi) NV 鏈路結(jié)構(gòu)

Cuda-toolkit-12-x 包含所有用戶空間工具和 API

網(wǎng)絡(luò)驅(qū)動程序

MLNX_OFED

每個 GPU 服務(wù)器上都需要安裝 Mellanox OpenFabrics Enterprise Distribution (MLNX_OFED) 驅(qū)動程序。此軟件包是 ConnectX-7 InfiniBand NIC 的驅(qū)動程序,用于執(zhí)行 RDMA(遠(yuǎn)程直接內(nèi)存訪問)和 OS 內(nèi)核旁路。

GPU Direct RDMA

這是一個包含在 cuda-drivers-5xx 中的附加內(nèi)核驅(qū)動程序,默認(rèn)情況下未啟用。如果沒有此驅(qū)動程序,GPU 將需要先在 CPU RAM 中緩沖消息后才能發(fā)送到 NIC。

啟用 GPUDirect RDMA 的命令是 sudo modprobe nvidia-peermem。

NVIDIA HPC-X

主要用于進一步優(yōu)化 GPU 與 NIC 的通信。

如果沒有上述軟件包,GPU 只能以 80Gbit/s 的速度收發(fā)流量,啟用這些軟件包后點對點收發(fā)速率應(yīng)可達(dá)到 391Gb/s左右。

業(yè)務(wù)調(diào)度和啟動程序

絕大部分的最終用戶會希望擁有一個開箱即用的調(diào)度程序,可以基于SLURM 、K8s 或者其他供應(yīng)商的軟件平臺。從0到1手動安裝并調(diào)試以上平臺,對于不是專精于此的工程師至少需要花費1-2天時間,因此閑置的 GPU 資源對于客戶都是實打?qū)嵉闹С觥?/p>

08 多租戶隔離

參考傳統(tǒng)CPU云的經(jīng)驗,除非客戶長期租用整個GPU集群,否則每個物理集群可能都會有多個并發(fā)用戶,所以GPU云算力中心同樣需要隔離前端以太網(wǎng)和計算網(wǎng)絡(luò),并在客戶之間隔離存儲。

基于以太網(wǎng)實現(xiàn)的多租戶隔離和借助云管平臺的自動化部署已經(jīng)有大量成熟的方案。如采用InfiniBand方案,多租戶網(wǎng)絡(luò)隔離是使用分區(qū)密鑰 (pKeys) 實現(xiàn)的:客戶通過 pKeys 來獲得獨立的網(wǎng)絡(luò),相同 pKeys 的節(jié)點才能相互通信。

09 GPU的虛擬化

與傳統(tǒng)CPU云不同的是,AI用途的GPU云租戶通常會將每個 GPU 計算節(jié)點作為一個整體來租用,深入到節(jié)點內(nèi)部的更細(xì)粒度的虛擬化并無絕對必要。但為了進一步提高GPU資源利用率,很多人還是會選擇GPU虛擬化,目前,GPU虛擬化技術(shù)一般分為三種:軟件模擬、直通獨占(pGPU)、直通共享(如vGPU、MIG)。

AI算力租賃場景的虛擬化程度一般是到單卡層次,即直通獨占(pGPU)——利用 PCIe 直通技?

術(shù),將物理主機上的整塊GPU顯卡直通掛載到虛擬機上使用,原理與網(wǎng)卡直通類似,但這種方式需要主機支持IOMMU()。(一種內(nèi)存管理單元,它將具有直接存儲器訪問能力的I/O總線連接至主內(nèi)存。如傳統(tǒng)的MMU一樣,IOMMU將設(shè)備可見的虛擬地址映射到物理地址)

pGPU直通方式相當(dāng)于虛擬機獨享GPU,硬件驅(qū)動無需修改。因為沒有對可支持的GPU數(shù)量做限制,也沒有閹割GPU功能性,大多數(shù)功能可以在該直通模式下無修改支持。

wKgZomc2xxWAIFdMAAacFMRcPKo370.pngpoYBAGDYdXCAWkKMAAAAK8RNs4s030.png

?編輯

值得一提的是,NCCL 和 NVIDIA 驅(qū)動程序在 GPU 虛擬機內(nèi)運行時無法自動檢測 NUMA 區(qū)域和 PCIe 拓?fù)?,需要通過 NCCL_TOPO_FILE 變量手動傳遞 /etc/nccl.conf中的 NUMA 區(qū)域和 PCIe 拓?fù)湮募駝t NCCL 性能將僅以應(yīng)有帶寬的 50% 運行。

10 監(jiān)控方案

監(jiān)控面板

在監(jiān)控方面,我們至少建議通過 Prometheus + Grafana 構(gòu)建一個集中的監(jiān)控面板,以便用戶跟蹤 GPU 溫度、電源使用情況等BMC指標(biāo),XID錯誤,甚至將業(yè)務(wù)和網(wǎng)絡(luò)統(tǒng)一監(jiān)測。

計算節(jié)點的監(jiān)控包括在每個 GPU 節(jié)點上安裝一個 IPMI 和 DCGM Exporter,然后在管理節(jié)點上部署 Prometheus 與 GPU 上的 Exporter 通信,并將數(shù)據(jù)存儲在數(shù)據(jù)庫中。Grafana 連接到 Prometheus 對收集來的數(shù)據(jù)進行可視化呈現(xiàn)。

網(wǎng)絡(luò)側(cè)的監(jiān)控類似,在這種場景下采用SONiC交換機的優(yōu)勢明顯,因其軟件環(huán)境本身就是開放的容器化架構(gòu),我們能以 docker 形式在交換機運行 exporter 取得所需設(shè)備狀態(tài)數(shù)據(jù),還可借助RESTful API調(diào)用網(wǎng)絡(luò)能力集成進上層管理平臺。

wKgZomc2xtiAXxMYAAEGK8JgeEY200.png

另外,結(jié)合帶內(nèi)網(wǎng)絡(luò)遙測(INT)能力還可對RoCE網(wǎng)絡(luò)實現(xiàn)亞秒級的精細(xì)監(jiān)控,用以輔助網(wǎng)絡(luò)擁塞控制。

來源:星融元提供的Prometheus + Grafana 毫秒級 RoCE 監(jiān)控方案

常見錯誤

診斷消息(dmesg)兩個常見 dmesg 消息是電纜被拔出以及 NIC 或者光收發(fā)器過熱。

靜默數(shù)據(jù)損壞 (SDC)沒有收到診斷消息等錯誤報告,但卻輸出錯誤的矩陣乘法結(jié)果。這些錯誤稱為靜默數(shù)據(jù)損壞 (SDC)。確定 GPU 上是否有該問題的最簡單方法是使用 Nvidia DCGMI 診斷級別 4 工具 sudo dcgmi diag -r 4。該工具將捕獲 95% 的最常見靜默數(shù)據(jù)損壞問題。

NCCL故障 常見NCCL故障包括死鎖和停滯,可能會導(dǎo)致訓(xùn)練作業(yè)暫停 30-35 分鐘, 而后 PyTorch 的 NCCL watchdog 會終止整個訓(xùn)練作業(yè)。對此可以考慮添加電力消耗監(jiān)控來檢查AI作業(yè)是否正常運行。更多NCCL排障請參考:https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/troubleshooting.html

Infiniband UFM 的錯誤代碼 常見如 110(符號錯誤)、112(鏈接中斷)、329(鏈接中斷)、702(端口被視為不健康)和 918(符號位錯誤警告)。遇到上述任何錯誤代碼,應(yīng)立即聯(lián)系網(wǎng)絡(luò)技術(shù)工程師進一步調(diào)查。

11 部署驗收和日常維護

集群規(guī)模的驗收測試應(yīng)持續(xù)至少 3-4 周,盡可能排除早期失效期出現(xiàn)的節(jié)點組件故障。AI訓(xùn)練非常依賴網(wǎng)絡(luò)、HBM() 和 BF16/FP16/FP8 張量核心,而目前常用的高性能計算測試工具,例如LINPACK(國際上使用最廣泛的測試浮點性能的基準(zhǔn)測試)不會大量使用網(wǎng)絡(luò),也不會占用太多 GPU 的 HBM 內(nèi)存,而是僅使用和測試 GPU 的 FP64 核心。穩(wěn)妥起見,我們建議驗收測試盡量以模擬真實業(yè)務(wù)的方式展開。

NCCL-TEST

nccl-test 工具是 NVIDIA 開源的一項用于測試 NCCL 集合通信的工具,我們建議在正式運行業(yè)務(wù)之前先使用nccl-test來檢測集合通信是否正常、壓測集合通信速率等,看看否存在任何性能不足或下降。關(guān)于nccl-test日志的分析我們將在接下來的主題中展開。

日常維護

集群中最常見的問題包括收發(fā)器抖動、GPU掉線、GPU HBM 錯誤和 SDC等。大多數(shù)情況下,這些問題只需簡單地啟動物理服務(wù)器的硬重啟,或者斷電后重啟即可解決。重新插拔收發(fā)器或清除光纖電纜上的灰塵也可以解決一些意外故障。更復(fù)雜的情況請交給廠商技術(shù)服務(wù)團隊處理。

?

?審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5194

    瀏覽量

    135431
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39755

    瀏覽量

    301362
  • AI算力
    +關(guān)注

    關(guān)注

    1

    文章

    143

    瀏覽量

    9857
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1528

    瀏覽量

    16740
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    蘇州市智能產(chǎn)業(yè)創(chuàng)新中心正式成立

    2月28日,蘇州市智能產(chǎn)業(yè)創(chuàng)新中心在中國移動能力中心正式啟動,為蘇州智能
    的頭像 發(fā)表于 03-03 14:58 ?264次閱讀

    GPU 利用率<30%?這款開源智平臺讓不浪費 1%

    套 AI 服務(wù)要折騰幾天,環(huán)境配置、依賴處理耗盡心力;運維告警凌晨轟炸,集群故障診斷如同大海撈針,MTTR(平均修復(fù)時間)高得離譜…… AI 時代的浪費,早已成為制約企業(yè) AI 落地的核心痛點。而秒如科技開源的 Lnjoy
    的頭像 發(fā)表于 01-26 14:20 ?180次閱讀

    墨芯人工智能千卡集群正式簽約入駐新疆中心

    ,通過構(gòu)建“西部訓(xùn)練、東部推理”的協(xié)同范式,推動資源在全國范圍內(nèi)的優(yōu)化配置。 當(dāng)下,我國
    的頭像 發(fā)表于 12-30 17:27 ?690次閱讀

    湘軍,讓變成生產(chǎn)?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    從CPU、GPU到NPU,美格智能持續(xù)優(yōu)化異構(gòu)計算效能

    的科技企業(yè)也在近期表示,將通過軟件層創(chuàng)新大幅提升資源利用率。作為高AI模組和端側(cè)AI領(lǐng)域的領(lǐng)先企業(yè),美格智能長期專注于端側(cè)AI
    的頭像 發(fā)表于 11-21 16:05 ?1152次閱讀
    從CPU、<b class='flag-5'>GPU</b>到NPU,美格智能持續(xù)<b class='flag-5'>優(yōu)化</b>異構(gòu)<b class='flag-5'>算</b><b class='flag-5'>力</b>計算效能

    AI中心的能耗挑戰(zhàn):CM5A 2000 H01霍爾閉環(huán)電流傳感器在AI中心(AIDC)的應(yīng)用分析

    隨著DeepSeek、ChatGPT、Sora等大模型的迭代升級,全球AI中心正經(jīng)歷前所未有的擴張。據(jù)統(tǒng)計,單次大模型訓(xùn)練的耗電量相當(dāng)于數(shù)萬戶家庭個月的用電總和,而AI
    的頭像 發(fā)表于 11-05 17:43 ?865次閱讀
    AI<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>中心</b>的能耗挑戰(zhàn):CM5A 2000 H01霍爾閉環(huán)電流傳感器在AI<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>中心</b>(AIDC)的應(yīng)用分析

    睿海光電領(lǐng)航AI光模塊:超快交付與全場景兼容賦能智時代——以創(chuàng)新實力助力全球客戶構(gòu)建高效底座

    、AI革命催生光模塊新需求,睿海光電以技術(shù)優(yōu)勢搶占制高點 人工智能、超大規(guī)模數(shù)據(jù)中心計算的高速發(fā)展,對光模塊的傳輸效率、兼容性及交
    發(fā)表于 08-13 19:03

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級

    引領(lǐng)AI時代網(wǎng)絡(luò)變革:睿海光電的核心競爭 在AI時代,數(shù)據(jù)中心正經(jīng)歷從傳統(tǒng)架構(gòu)向AI工廠與AI的轉(zhuǎn)型。AI工廠依賴超大規(guī)模GPU集群驅(qū)動大模型訓(xùn)練,要求網(wǎng)絡(luò)具備超高帶寬與超低延遲;
    發(fā)表于 08-13 19:01

    看懂AI集群

    最近這幾年,AI浪潮席卷全球,成為整個社會的關(guān)注焦點。大家在討論AI的時候,經(jīng)常會提到AI集群。AI的三要素,是、算法和數(shù)據(jù)。而AI
    的頭像 發(fā)表于 07-23 12:18 ?1601次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>看懂AI<b class='flag-5'>算</b><b class='flag-5'>力</b>集群

    XR(AR/VR)底座關(guān)鍵特征與技術(shù)路徑

    據(jù)處理,依托AIDC(人工智能數(shù)據(jù)中心)提供智能,2024年中國智能增速超65%。 邊緣節(jié)點?:通過本地化
    的頭像 發(fā)表于 06-19 08:10 ?715次閱讀
    <b class='flag-5'>云</b>XR(AR/VR)<b class='flag-5'>算</b><b class='flag-5'>力</b>底座關(guān)鍵特征與技術(shù)路徑

    【「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】+NVlink技術(shù)從應(yīng)用到原理

    前言 【「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」書中的芯片知識是比較接近當(dāng)前的頂尖芯片水平的,同時包含了芯片架構(gòu)的基礎(chǔ)知識,但該部分知識比較晦澀難懂,或許是由于我
    發(fā)表于 06-18 19:31

    軟通智中標(biāo)韶關(guān)公共服務(wù)平臺項目

    日前,軟通動力旗下軟通智中標(biāo)《韶關(guān)公共服務(wù)平臺(體化網(wǎng)
    的頭像 發(fā)表于 05-22 16:19 ?974次閱讀

    搭建中心,從了解的GPU 特性開始

    ABSTRACT摘要本文介紹如何搭建,介紹A100、H100、H200和B200這些GPU的特性。JAEALOT2025年4月23日隨著人工智能、大數(shù)據(jù)和高性能計算(HPC)的快
    的頭像 發(fā)表于 04-24 11:08 ?3362次閱讀
    搭建<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>中心</b>,從了解的<b class='flag-5'>GPU</b> 特性開始

    芯片的生態(tài)突圍與革命

    電子發(fā)燒友網(wǎng)報道( / 李彎彎)大芯片,即具備強大計算能力的集成電路芯片,主要應(yīng)用于高性能計算(HPC)、人工智能(AI)、數(shù)據(jù)中心、自動駕駛等需要海量數(shù)據(jù)并行計算的場景。隨著
    的頭像 發(fā)表于 04-13 00:02 ?3241次閱讀

    DeepSeek推動AI需求:800G光模塊的關(guān)鍵作用

    數(shù)據(jù)傳輸速率,減少帶寬瓶頸,成為數(shù)據(jù)中心和AI集群架構(gòu)優(yōu)化的重點。光模塊速率的躍升不僅提升了傳輸效率,也為大規(guī)模并行計算任務(wù)提供了必要的帶寬保障。 800G光模塊如何解決DeepSeek大規(guī)模
    發(fā)表于 03-25 12:00