亚洲国产迷奸激情五月天无码,波多野积衣久久久

?【更多詳細(xì)內(nèi)容，請訪問星融元官網(wǎng)https://asterfusion.com/】

目前最常見的AI算力中心部署的GPU集群大小為 2048、1024、512 和 256，且部署成本隨 GPU 數(shù)量線性增長。本文將以相對折中的1024 GPU卡（H100）的規(guī)模為例展開分析。

01 計算節(jié)點的選型

計算節(jié)點是AI算力中心的建設(shè)報價中最昂貴的部分，一開始拿到的 HGX H100 默認(rèn)物料清單（BoM）往往使用的是頂級配置。不同于 DGX 是 NVIDIA 的系統(tǒng)品牌，HGX 作為 NVIDIA 授權(quán)平臺允許合作伙伴構(gòu)建定制的GPU系統(tǒng)。那么，根據(jù)業(yè)務(wù)實際所需，我們可從以下幾個方面嘗試優(yōu)化成本。

默認(rèn) HGX H100 機箱物料報價清單
組件和服務(wù)	數(shù)量
接近頂級性能的英特爾 Emerald Rapids 處理器	2
8 H100 +4 NVSwitch HGX Baseboard + 8 SXM5 Heatsinks	1
CPU RAM (per Gbyte)	2048
Storage (per TByte)	30
后端 ConnectX-7 NIC	80
Bluefield-3 DPU	2
主板	1
機箱（機箱、布線等）	1
冷卻（CPU 散熱器 + 風(fēng)扇）	1
電源	8
組裝&測試	1
OEM 增值/附加費用	1
合計（$）：270000+

1、選擇中端CPU

LLM 訓(xùn)練是一項 GPU 高度密集型工作負(fù)載，對 CPU 工作負(fù)載要求低。CPU 運行是一些簡單任務(wù)，例如 PyTorch ，控制 GPU 的其他進程、初始化網(wǎng)絡(luò)和存儲調(diào)用，或者運行虛擬機管理程序等。Intel CPU 相對更容易實現(xiàn)正確的 NCCL 性能和虛擬化，而且整體錯誤更少。如果是采用AMD CPU ，則要用 NCCL_IB_PCI_RELAXED_ORDERING 并嘗試不同的 NUMA NPS 設(shè)置來調(diào)優(yōu)。

2、 RAM 降級到 1 TB

RAM 同樣是計算節(jié)點中相對昂貴的部分。許多標(biāo)準(zhǔn)產(chǎn)品都具有 2TB 的 CPU DDR 5 RAM，但常規(guī)的AI工作負(fù)載根本不受 CPU RAM 限制，可以考慮減配。

3、刪除 Bluefield-3 或選擇平替

Bluefield-3 DPU最初是為傳統(tǒng) CPU 云開發(fā)的，賣點在于卸載CPU負(fù)載，讓CPU用于業(yè)務(wù)出租，而不是運行網(wǎng)絡(luò)虛擬化。結(jié)合實際，奔著GPU算力而來的客戶無論如何都不會需要太多 CPU 算力，使用部分 CPU 核心進行網(wǎng)絡(luò)虛擬化是可以接受的。此外Bluefield-3 DPU 相當(dāng)昂貴，使用標(biāo)準(zhǔn) ConnectX 作為前端或采用平替的DPU智能網(wǎng)卡完全可滿足所需。

綜合考慮前述幾項成本優(yōu)化，我們已經(jīng)可為單個服務(wù)器降低約5%的成本。在擁有 128 個計算節(jié)點的 1024 H100 集群中，這個比率背后的金額已經(jīng)相當(dāng)可觀。

4、減少單節(jié)點網(wǎng)卡數(shù)量（謹(jǐn)慎選擇）

標(biāo)準(zhǔn)物料清單中，每臺 H100 計算服務(wù)器配備八個 400G CX-7() NIC，單服務(wù)器的總帶寬達(dá)到 3,200Gb/s。如果只使用四塊網(wǎng)卡，后端計算網(wǎng)的帶寬將會減少 50%。這種調(diào)整顯而易見可以節(jié)約資金，但多少會也對部分AI工作負(fù)載性能造成不利影響。

02 集群網(wǎng)絡(luò)的選型

集群網(wǎng)絡(luò)是繼計算節(jié)點之后的第二大成本來源。本文舉例的 NVIDIA H100 集群有三種不同的網(wǎng)絡(luò)：

后端網(wǎng)絡(luò)（計算網(wǎng)，InfiniBand 或 RoCEv2）用于將 GPU 之間的通信從數(shù)十個機架擴展到數(shù)千個機架。該網(wǎng)絡(luò)可以使 InfiniBand() 或 Spectrum-X 以太網(wǎng)，也可以使用其他供應(yīng)商的以太網(wǎng)。

前端網(wǎng)絡(luò)（業(yè)務(wù)管理和存儲網(wǎng)絡(luò)）用于連接互聯(lián)網(wǎng)、SLURM/Kubernetes() 和網(wǎng)絡(luò)存儲以加載訓(xùn)練數(shù)據(jù)和Checkpoint。該網(wǎng)絡(luò)通常以每 GPU 25-50Gb/s 的速度運行，滿配八卡的情況每臺GPU服務(wù)器的帶寬將達(dá)到 200-400Gb/s。

帶外管理網(wǎng)絡(luò) 用于重新映像操作系統(tǒng)、監(jiān)控節(jié)點健康狀況（如風(fēng)扇速度、溫度、功耗等）。服務(wù)器上的BMC、機柜電源、交換機、液冷裝置等通常連接到此網(wǎng)絡(luò)以監(jiān)控和控制服務(wù)器和各種其他 IT 設(shè)備。

默認(rèn) HGX H100 集群網(wǎng)絡(luò) 物料報價清單
組件和服務(wù)	數(shù)量
InfiniBand 計算網(wǎng)
Quantum-2 IB 交換機（MQM9700）	48
Nvidia LinkX IB 400G 單端口 SR4 收發(fā)器 (MMA4Z00-NS4400)	1024
Nvidia LinkX 800G 雙端口 SR8 收發(fā)器 (MMA4Z00-NS)	1536
Nvidia LinkX 400G 多模光纖	3072
前端光纖架構(gòu)成本
Spectrum Ethernet Switch (SN4600)	6
Nvidia LinkX 200G QSFP56 AOC 收發(fā)器	384
Nvidia LinkX 200G 收發(fā)器	256
Nvidia LinkX 100G 多模光纖	512
帶外管理網(wǎng)
1GbE Spectrum Ethernet Switch (SN2201)	4
RJ45 Cables	232
合計（$）：490000+

1、計算網(wǎng)絡(luò)：RoCEv2替代IB

與量大管飽的以太網(wǎng)解決方案相比，NVIDIA 提供的InfiniBand無疑更昂貴，但一些客戶依舊篤定認(rèn)為以太網(wǎng)性能要低得多，這主要是因為以太網(wǎng)需要進行必要的無損網(wǎng)絡(luò)參數(shù)配置并且針對性調(diào)優(yōu)才能發(fā)揮集合通信庫的性能。

不過從對業(yè)務(wù)性能的影響角度看，目前技術(shù)背景下使用IB或是RoCEv2作為后端計算網(wǎng)沒有并太多差異。畢竟 RoCE 實際上只是將成熟的IB傳輸層和RDMA移植到了同樣成熟的以太網(wǎng)和IP網(wǎng)絡(luò)上，這一點我們將在往后的另一篇文章來分析闡述。

大規(guī)模算力場景中用以太網(wǎng)替代IB組成高性能無損網(wǎng)絡(luò)已形成業(yè)內(nèi)共識，行業(yè)熱點早已轉(zhuǎn)向了如何更好地薅“以太網(wǎng)羊毛”：例如從以太網(wǎng)標(biāo)準(zhǔn)入手，推出下一代面向AI場景的新協(xié)議，以及一些廠商立足于現(xiàn)有協(xié)議標(biāo)準(zhǔn)在簡化RoCE網(wǎng)絡(luò)配置和提高可視化能力上做的創(chuàng)新嘗試。

參閱： Easy RoCE：在SONiC交換機上一鍵啟用無損以太網(wǎng)

無論是在AI訓(xùn)推的測試場景，還是頭部云廠商已有的工程實踐里，AI以太網(wǎng)都有了大量案例可供參考。

據(jù)統(tǒng)計，在全球 TOP500 的超級計算機中，RoCE和IB的占比相當(dāng)。以計算機數(shù)量計算，IB 占比為 47.8%, RoCE 占比為 39%; 而以端口帶寬總量計算，IB占比為 39.2%,RoCE 為 48.5%。與IB相比，我們相信有著開放生態(tài)的以太網(wǎng)將會得到加速發(fā)展。

目前市場上提供適用于AI場景的高性能以太網(wǎng)交換芯片平臺主要有Broadcom Tomahawk、Marvell Teralynx和Cisco Silicon One 等，NVIDIA Spectrum 芯片僅用于Spectrum-X平臺，不單獨銷售。以上平臺都推出了51.2T，800GbE/s的尖端型號，綜合來看部署數(shù)量上 Tomahawk 明顯占優(yōu)，轉(zhuǎn)發(fā)時延性能表現(xiàn) Teralynx 更勝一籌。

2、前端網(wǎng)絡(luò)：合理降低帶寬速率

NVIDIA 和一些OEM/系統(tǒng)集成商通常會在服務(wù)器提供 2x200GbE 前端網(wǎng)絡(luò)連接，并使用 Spectrum Ethernet SN4600 交換機部署網(wǎng)絡(luò)。

我們知道，這張網(wǎng)絡(luò)僅用于進行存儲和互聯(lián)網(wǎng)調(diào)用以及傳輸基于 SLURM，Kubernetes 等管理調(diào)度平臺的帶內(nèi)管理流量，并不會用于時延敏感和帶寬密集型的梯度同步。每臺服務(wù)器 400G 的網(wǎng)絡(luò)連接在常規(guī)情況下將遠(yuǎn)超實際所需，其中存在一些成本壓縮空間。

3、帶外管理網(wǎng)絡(luò)：選用通用的以太網(wǎng)交換機

NVIDIA 默認(rèn)物料清單一般包括 Spectrum 1GbE 交換機，價格昂貴。帶外管理網(wǎng)絡(luò)用到的技術(shù)比較通用，選擇市場上成本更優(yōu)的 1G 以太網(wǎng)交換機完全夠用。

03 計算網(wǎng)絡(luò)的架構(gòu)優(yōu)化

GPU集群計算網(wǎng)將承載并行計算過程中產(chǎn)生的各類集合通信（all-reduce，all-gather 等），流量規(guī)模和性能要求與傳統(tǒng)云網(wǎng)絡(luò)完全不同。

參閱：揭秘AI智算中心網(wǎng)絡(luò)流量 - 大模型訓(xùn)練篇

NVIDIA 推薦的網(wǎng)絡(luò)拓?fù)涫且粋€具有無阻塞連接的兩層胖樹網(wǎng)絡(luò)，理論上任意節(jié)點對都應(yīng)該能同時進行線速通信。但由于存在鏈路擁塞、不完善的自適應(yīng)路由和額外跳數(shù)的帶來的通信延遲，真實場景中無法達(dá)到理論最優(yōu)狀態(tài)，需要對其進行性能優(yōu)化。

軌道優(yōu)化（Rail-optimized）架構(gòu)

軌道優(yōu)化架構(gòu)下，4臺服務(wù)器的32張 GPU 卡不再是連接到 TOR 交換機，而是來自32臺服務(wù)器的同卡號 GPU 連接各自的軌道交換機——即32臺服務(wù)器的所有 GPU#0 都連接到 Leaf 交換機#0，所有 GPU#1 都連接到 Leaf 交換機#1，依此類推。

軌道優(yōu)化網(wǎng)絡(luò)的主要優(yōu)勢是減少網(wǎng)絡(luò)擁塞。因為用于 AI 訓(xùn)練的 GPU 會定期并行底發(fā)送數(shù)據(jù)，通過集合通信來在不同GPU之間交換梯度并更新參數(shù)。如果來自同一服務(wù)器的所有 GPU 都連接到同一個 ToR 交換機，當(dāng)它們將并行流量發(fā)送到網(wǎng)絡(luò)，使用相同鏈路造成擁塞的可能性會非常高。

星融元（Asterfusion）給出的1024卡，128計算節(jié)點 Scale-out 網(wǎng)絡(luò)方案正是基于軌道優(yōu)化后的架構(gòu)，其中采用了24臺 CX864E-N（51.2T的單芯片盒式交換機，8臺作為Spine，16臺作為Leaf），產(chǎn)生跨節(jié)點通信的同卡號GPU之間只會相距一跳。

參閱：星融元發(fā)布 51.2T 800G 以太網(wǎng)交換機，賦能AI開放生態(tài)

?編輯

來源：星融元（Asterfusion）CX864E-N交換機

來源：星融元（Asterfusion）星智AI網(wǎng)絡(luò)解決方案

如果追求極致的成本優(yōu)化，對于一個32到128個節(jié)點的計算集群甚至可以設(shè)計只有單層軌道交換機的Rail-only網(wǎng)絡(luò)，理論上建網(wǎng)成本可以節(jié)約高達(dá)75%。

確定合適的超額訂閱率

軌道優(yōu)化拓?fù)涞牧硪粋€好處可以超額訂閱（Oversubscription）。在網(wǎng)絡(luò)架構(gòu)設(shè)計的語境下，超額訂閱指的是提供更多的下行容量；超額訂閱率即下行容量（到服務(wù)器/存儲）和上行帶寬（到上層Spine交換機）的比值，在 Meta 的 24k H100 集群里這個比率甚至已經(jīng)來到夸張的7:1。

通過設(shè)計超額訂閱，我們可以通過突破無阻塞網(wǎng)絡(luò)的限制進一步優(yōu)化成本。這點之所以可行是因為 8 軌的軌道優(yōu)化拓?fù)淅?，大多?shù)流量傳輸發(fā)生在 pod 內(nèi)部，跨 pod 流量的帶寬要求相對較低。結(jié)合足夠好的自適應(yīng)路由能力和具備較大緩沖空間的交換機，我們可以規(guī)劃一個合適的超額訂閱率以減少上層Spine交換機的數(shù)量。

但值得注意的是，無論是IB還是RoCEv2，當(dāng)前還沒有一個完美的方案規(guī)避擁塞風(fēng)險，兩者應(yīng)對大規(guī)模集合通信流量時均有所不足，故超額訂閱不宜過于激進。（而且最好給Leaf交換機留有足夠端口，以便未來 pod 間流量較大時增加spine交換機）

現(xiàn)階段如果是選用基于以太網(wǎng)的AI網(wǎng)絡(luò)方案我們?nèi)酝扑]1：1的無阻塞網(wǎng)絡(luò)設(shè)計。

04 NVMe 存儲

物理服務(wù)器數(shù)量

為了實現(xiàn)高可用性，大多數(shù)存儲廠商都會建議部署至少 8 臺存儲服務(wù)器。8 臺存儲服務(wù)器每臺可提供 250GB/s 到 400GB/s 的存儲帶寬，足以滿足在 1024 臺 H100 上運行的 AI 工作負(fù)載。我們可以從最小可用數(shù)量開始，但需要注意在存儲系統(tǒng)上留出足夠的端口、NVMe 驅(qū)動器托架、電源和機架空間，以便后續(xù)按需擴展。

存儲網(wǎng)絡(luò)

常見的方案是構(gòu)建專門的200G無損以太網(wǎng)作為存儲網(wǎng)絡(luò)以確保性能，存儲前后端網(wǎng)絡(luò)在物理上合一。

來源：星融元（Asterfusion）

存儲服務(wù)器也可以在后端計算網(wǎng)上運行——通常是將IB網(wǎng)卡綁定到 GPU 0來充當(dāng)存儲網(wǎng)卡。雖然存儲基準(zhǔn)測試的延遲和帶寬表現(xiàn)很好，但在實際AI工作負(fù)載中將影響 GPU 0 的性能（IB網(wǎng)卡同時作為存儲網(wǎng)卡會有流量沖突）。當(dāng)存儲集群中的磁盤發(fā)生故障將觸發(fā)重建，會在計算網(wǎng)上造成大量的流量，形成更嚴(yán)重的擁塞。

05 帶內(nèi)管理

為了運行高可用的 UFM 和 CPU 管理節(jié)點，我們建議部署至少兩個通用 x86 服務(wù)器，使用25GE/10GE以太網(wǎng)鏈路連接所有計算節(jié)點和管理節(jié)點，并接入外部網(wǎng)絡(luò)。

來源：星融元（Asterfusion）

默認(rèn)的NVIDIA Superpod 架構(gòu)中包含了“NVIDIA AI Enterprise”或“Base Command Manager (BCM)”，其建議零售價為4,500 美元/GPU。BCM 是一個提供 AI 工作流和集群管理的軟件包，這一部分軟件費用可以考慮剔除后選擇其他平替方案，或交由用戶自定義。

此外帶內(nèi)管理系統(tǒng)還涉及到其他 IT 設(shè)備，例如防火墻、機架、PDU 等，這部分價格不會顯著增加集群建設(shè)支出。

06 帶外管理

帶外管理系統(tǒng)主要是通過智慧平臺管理接口（IPMI）去監(jiān)視、控制和自動回報大量服務(wù)器的運作狀況。IPMI可獨立于操作系統(tǒng)外自行運作，并允許管理者在受監(jiān)控的系統(tǒng)未開機但有接電源的情況下進行遠(yuǎn)程管理，但這種監(jiān)控功能主要集中在硬件級別。

不同于帶內(nèi)管理，帶外管理構(gòu)建了單獨的網(wǎng)絡(luò)承載物理設(shè)備管理流量，不會承載業(yè)務(wù)流量。我們一般是每GPU計算節(jié)點和存儲節(jié)點配置1條1 GE 鏈路連接IPMI和后端管理平臺。

07 驅(qū)動和業(yè)務(wù)調(diào)度程序

GPU驅(qū)動程序

必要的 GPU 驅(qū)動程序有 cuda-drivers-5xx 和 fabricmanager-5xx 以及 cuda-toolkit-12-x。

Cuda-drivers-5xx 是 ubuntu/Linux 與 GPU 交互所需的內(nèi)核空間驅(qū)動程序

fabricmanager-5xx 是一個負(fù)責(zé)配置節(jié)點內(nèi) NV 鏈路結(jié)構(gòu)

Cuda-toolkit-12-x 包含所有用戶空間工具和 API

網(wǎng)絡(luò)驅(qū)動程序

MLNX_OFED

每個 GPU 服務(wù)器上都需要安裝 Mellanox OpenFabrics Enterprise Distribution (MLNX_OFED) 驅(qū)動程序。此軟件包是 ConnectX-7 InfiniBand NIC 的驅(qū)動程序，用于執(zhí)行 RDMA（遠(yuǎn)程直接內(nèi)存訪問）和 OS 內(nèi)核旁路。

GPU Direct RDMA

這是一個包含在 cuda-drivers-5xx 中的附加內(nèi)核驅(qū)動程序，默認(rèn)情況下未啟用。如果沒有此驅(qū)動程序，GPU 將需要先在 CPU RAM 中緩沖消息后才能發(fā)送到 NIC。

啟用 GPUDirect RDMA 的命令是 sudo modprobe nvidia-peermem。

NVIDIA HPC-X

主要用于進一步優(yōu)化 GPU 與 NIC 的通信。

如果沒有上述軟件包，GPU 只能以 80Gbit/s 的速度收發(fā)流量，啟用這些軟件包后點對點收發(fā)速率應(yīng)可達(dá)到 391Gb/s左右。

業(yè)務(wù)調(diào)度和啟動程序

絕大部分的最終用戶會希望擁有一個開箱即用的調(diào)度程序，可以基于SLURM 、K8s 或者其他供應(yīng)商的軟件平臺。從0到1手動安裝并調(diào)試以上平臺，對于不是專精于此的工程師至少需要花費1-2天時間，因此閑置的 GPU 資源對于客戶都是實打?qū)嵉闹С觥?/p>

08 多租戶隔離

參考傳統(tǒng)CPU云的經(jīng)驗，除非客戶長期租用整個GPU集群，否則每個物理集群可能都會有多個并發(fā)用戶，所以GPU云算力中心同樣需要隔離前端以太網(wǎng)和計算網(wǎng)絡(luò)，并在客戶之間隔離存儲。

基于以太網(wǎng)實現(xiàn)的多租戶隔離和借助云管平臺的自動化部署已經(jīng)有大量成熟的方案。如采用InfiniBand方案，多租戶網(wǎng)絡(luò)隔離是使用分區(qū)密鑰 (pKeys) 實現(xiàn)的：客戶通過 pKeys 來獲得獨立的網(wǎng)絡(luò)，相同 pKeys 的節(jié)點才能相互通信。

09 GPU的虛擬化

與傳統(tǒng)CPU云不同的是，AI用途的GPU云租戶通常會將每個 GPU 計算節(jié)點作為一個整體來租用，深入到節(jié)點內(nèi)部的更細(xì)粒度的虛擬化并無絕對必要。但為了進一步提高GPU資源利用率，很多人還是會選擇GPU虛擬化，目前，GPU虛擬化技術(shù)一般分為三種：軟件模擬、直通獨占(pGPU)、直通共享（如vGPU、MIG）。

AI算力租賃場景的虛擬化程度一般是到單卡層次，即直通獨占（pGPU）——利用 PCIe 直通技?

術(shù)，將物理主機上的整塊GPU顯卡直通掛載到虛擬機上使用，原理與網(wǎng)卡直通類似，但這種方式需要主機支持IOMMU()。（一種內(nèi)存管理單元，它將具有直接存儲器訪問能力的I/O總線連接至主內(nèi)存。如傳統(tǒng)的MMU一樣，IOMMU將設(shè)備可見的虛擬地址映射到物理地址）

pGPU直通方式相當(dāng)于虛擬機獨享GPU，硬件驅(qū)動無需修改。因為沒有對可支持的GPU數(shù)量做限制，也沒有閹割GPU功能性，大多數(shù)功能可以在該直通模式下無修改支持。

?編輯

值得一提的是，NCCL 和 NVIDIA 驅(qū)動程序在 GPU 虛擬機內(nèi)運行時無法自動檢測 NUMA 區(qū)域和 PCIe 拓?fù)?，需要通過 NCCL_TOPO_FILE 變量手動傳遞 /etc/nccl.conf中的 NUMA 區(qū)域和 PCIe 拓?fù)湮募駝t NCCL 性能將僅以應(yīng)有帶寬的 50% 運行。

10 監(jiān)控方案

監(jiān)控面板

在監(jiān)控方面，我們至少建議通過 Prometheus + Grafana 構(gòu)建一個集中的監(jiān)控面板，以便用戶跟蹤 GPU 溫度、電源使用情況等BMC指標(biāo)，XID錯誤，甚至將業(yè)務(wù)和網(wǎng)絡(luò)統(tǒng)一監(jiān)測。

計算節(jié)點的監(jiān)控包括在每個 GPU 節(jié)點上安裝一個 IPMI 和 DCGM Exporter，然后在管理節(jié)點上部署 Prometheus 與 GPU 上的 Exporter 通信，并將數(shù)據(jù)存儲在數(shù)據(jù)庫中。Grafana 連接到 Prometheus 對收集來的數(shù)據(jù)進行可視化呈現(xiàn)。

網(wǎng)絡(luò)側(cè)的監(jiān)控類似，在這種場景下采用SONiC交換機的優(yōu)勢明顯，因其軟件環(huán)境本身就是開放的容器化架構(gòu)，我們能以 docker 形式在交換機運行 exporter 取得所需設(shè)備狀態(tài)數(shù)據(jù)，還可借助RESTful API調(diào)用網(wǎng)絡(luò)能力集成進上層管理平臺。

另外，結(jié)合帶內(nèi)網(wǎng)絡(luò)遙測（INT）能力還可對RoCE網(wǎng)絡(luò)實現(xiàn)亞秒級的精細(xì)監(jiān)控，用以輔助網(wǎng)絡(luò)擁塞控制。

來源：星融元提供的Prometheus + Grafana 毫秒級 RoCE 監(jiān)控方案

常見錯誤

診斷消息（dmesg）兩個常見 dmesg 消息是電纜被拔出以及 NIC 或者光收發(fā)器過熱。

靜默數(shù)據(jù)損壞（SDC）沒有收到診斷消息等錯誤報告，但卻輸出錯誤的矩陣乘法結(jié)果。這些錯誤稱為靜默數(shù)據(jù)損壞 (SDC)。確定 GPU 上是否有該問題的最簡單方法是使用 Nvidia DCGMI 診斷級別 4 工具 sudo dcgmi diag -r 4。該工具將捕獲 95% 的最常見靜默數(shù)據(jù)損壞問題。

NCCL故障 常見NCCL故障包括死鎖和停滯，可能會導(dǎo)致訓(xùn)練作業(yè)暫停 30-35 分鐘，而后 PyTorch 的 NCCL watchdog 會終止整個訓(xùn)練作業(yè)。對此可以考慮添加電力消耗監(jiān)控來檢查AI作業(yè)是否正常運行。更多NCCL排障請參考：https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/troubleshooting.html

Infiniband UFM 的錯誤代碼 常見如 110（符號錯誤）、112（鏈接中斷）、329（鏈接中斷）、702（端口被視為不健康）和 918（符號位錯誤警告）。遇到上述任何錯誤代碼，應(yīng)立即聯(lián)系網(wǎng)絡(luò)技術(shù)工程師進一步調(diào)查。

11 部署驗收和日常維護

集群規(guī)模的驗收測試應(yīng)持續(xù)至少 3-4 周，盡可能排除早期失效期出現(xiàn)的節(jié)點組件故障。AI訓(xùn)練非常依賴網(wǎng)絡(luò)、HBM() 和 BF16/FP16/FP8 張量核心，而目前常用的高性能計算測試工具，例如LINPACK（國際上使用最廣泛的測試浮點性能的基準(zhǔn)測試）不會大量使用網(wǎng)絡(luò)，也不會占用太多 GPU 的 HBM 內(nèi)存，而是僅使用和測試 GPU 的 FP64 核心。穩(wěn)妥起見，我們建議驗收測試盡量以模擬真實業(yè)務(wù)的方式展開。

NCCL-TEST

nccl-test 工具是 NVIDIA 開源的一項用于測試 NCCL 集合通信的工具，我們建議在正式運行業(yè)務(wù)之前先使用nccl-test來檢測集合通信是否正常、壓測集合通信速率等，看看否存在任何性能不足或下降。關(guān)于nccl-test日志的分析我們將在接下來的主題中展開。

日常維護

集群中最常見的問題包括收發(fā)器抖動、GPU掉線、GPU HBM 錯誤和 SDC等。大多數(shù)情況下，這些問題只需簡單地啟動物理服務(wù)器的硬重啟，或者斷電后重啟即可解決。重新插拔收發(fā)器或清除光纖電纜上的灰塵也可以解決一些意外故障。更復(fù)雜的情況請交給廠商技術(shù)服務(wù)團隊處理。

?審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴