91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何實(shí)現(xiàn)高效的RoCE網(wǎng)卡狀態(tài)采集與監(jiān)控?

星融元Asterfusion ? 2025-10-29 11:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)下大規(guī)模AI訓(xùn)練成為常態(tài),RoCEv2憑借高性能、低延遲與低CPU開(kāi)銷(xiāo)的優(yōu)勢(shì),已成為構(gòu)建智算中心的優(yōu)先選擇。然而,RoCE對(duì)網(wǎng)絡(luò)無(wú)損的嚴(yán)苛要求,配置不當(dāng)會(huì)放大擁塞,如 PFC、ECN、Buffer滯留等引發(fā)的高延遲、性能下降等,而這些問(wèn)題統(tǒng)一表現(xiàn)為“GPU通信異?!?。而逐項(xiàng)排查的操作相當(dāng)繁瑣。

如何有效采集RoCE網(wǎng)卡狀態(tài)數(shù)據(jù)?

為解決 RoCE 網(wǎng)絡(luò)監(jiān)控運(yùn)維上的不便,我們新推出了EasyRoCE-NE(RoCE網(wǎng)卡狀態(tài)采集,NIC Exporter)RoCE網(wǎng)卡狀態(tài)采集工具。

EasyRoCE 工具集是星融元依托開(kāi)源、開(kāi)放的網(wǎng)絡(luò)架構(gòu)與技術(shù),為AI 智算、超算等場(chǎng)景的RoCE網(wǎng)絡(luò)提供的一系列實(shí)用特性和小工具,如一鍵配置RoCE,高精度流量監(jiān)控等…

wKgZO2kBjHaADN0oAAB5HtW6TZU105.png

NE 是 EasyRoCE 工具集中針對(duì)服務(wù)器網(wǎng)絡(luò)監(jiān)控部分的組件。由兩部分構(gòu)成:Exporter 客戶端(NIC Exporter)、監(jiān)控面板自動(dòng)化創(chuàng)建程序(NIC Generator)

采集數(shù)據(jù)

NIC Exporter 運(yùn)行在GPU服務(wù)器內(nèi)部,采集GPU網(wǎng)卡的配置、流量狀況信息。轉(zhuǎn)換為Prometheus能讀取的標(biāo)準(zhǔn)格式并通過(guò)HTTP接口暴露。

可視化呈現(xiàn)

NIC Generator運(yùn)行在部署EasyRoCE 工具集的服務(wù)器上,從 AID 工具(AI基礎(chǔ)設(shè)施藍(lán)圖規(guī)劃,AI Infrastructure Descriptor)(數(shù)據(jù)庫(kù)組件)讀取GPU服務(wù)器的IP信息。即可自動(dòng)在 UG 工具 (統(tǒng)一監(jiān)控面板,Unified Glancer)中創(chuàng)建可視化面板,將NIC Exporter采集到的信息展示出來(lái)。

wKgZO2kBjIaATrqIAAH5ghnyJPg873.pngwKgZO2kBjJ-AC5w7AAIVNlXhLoI819.png

部署指南

第一步:準(zhǔn)備工作

  1. 下載NE工具包(ne.tgz、nic_exporter)(請(qǐng)聯(lián)系項(xiàng)目銷(xiāo)售/售前人員獲取。)
  2. 先通過(guò)AID完成網(wǎng)絡(luò)規(guī)劃(GPU服務(wù)器硬件信息等),并將其上傳到服務(wù)器的EasyRoCE 工具集目錄下

第二步:開(kāi)始安裝

1.將nic_exporter上傳到GPU服務(wù)器中,并后臺(tái)啟動(dòng)

chmod +x nic_exporter nohup ./ nic_exporter &

2.將nic_exporter.tgz上傳到服務(wù)器的EasyRoCE工具集目錄下并解壓,解壓后其目錄結(jié)構(gòu)如下

. ├── ne_dashboard.json #UG面板文件 ├── nic_generator.py #啟動(dòng)腳本 └── requirements.txt #依賴

其中ne_dashboard.json為UG的面板文件,nic_exporter.py是工具的啟動(dòng)腳本。

注意:這里為了為了避免影響服務(wù)器自身的python環(huán)境,推薦使用venv作資源隔離。

python -m venv .venv source .venv/bin/activate

安裝依賴

pip install -r requirement.txt

3. 啟動(dòng)

./nic_generator.py

4. 打印如下即成功創(chuàng)建UG面板

Pushing dashboard to Grafana... Dashboard pushed successfully: {'id': 116, 'slug': 'gpu-server8', 'status': 'success', 'uid': 'easyroce-ne-gpu-server8', 'url': '/d/easyroce-ne-gpu-server8/gpu-server8', 'version': 4} All dashboards processed. Total: 8. Url: http://10.106.219.5:3000/dashboards/f/2LzXeK6Hk Pushing dashboard to Grafana... Dashboard pushed successfully: {'id': 116, 'slug': 'gpu-server8', 'status': 'success', 'uid': 'easyroce-ne-gpu-server8', 'url': '/d/easyroce-ne-gpu-server8/gpu-server8', 'version': 4} All dashboards processed. Total: 8. Url: http://10.106.219.5:3000/dashboards/f/2LzXeK6Hk

【面板展示】

訪問(wèn)打印信息中的URL即可訪問(wèn)UG面板

wKgZPGkBj6-ANZhMAAEzle4qYn4333.pngNE面板目錄wKgZO2kBj7uAKuJnAAM6uw3gnm0318.pngNE網(wǎng)卡詳細(xì)信息展示

左上角變量就是該服務(wù)器的網(wǎng)卡,切換變量則可以展示不同網(wǎng)卡的信息。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    RoCE與IB對(duì)比分析(一):協(xié)議棧層級(jí)篇

    在 AI 算力建設(shè)中, RDMA 技術(shù)是支持高吞吐、低延遲網(wǎng)絡(luò)通信的關(guān)鍵。目前,RDMA技術(shù)主要通過(guò)兩種方案實(shí)現(xiàn):Infiniband和RoCE(基于RDMA的以太網(wǎng)技術(shù),以下簡(jiǎn)稱為RoCE)。
    的頭像 發(fā)表于 11-15 13:58 ?3658次閱讀
    <b class='flag-5'>RoCE</b>與IB對(duì)比分析(一):協(xié)議棧層級(jí)篇

    RDMA簡(jiǎn)介5之RoCE V2隊(duì)列分析

    (RDMA Write with immediate)操作不在此范圍內(nèi))。RoCE v2作為RoCE v2協(xié)議通信的重要機(jī)制,通常有五種隊(duì)列工作狀態(tài),分別為:重置(RESET)狀態(tài)、初
    發(fā)表于 06-05 17:28

    RDMA設(shè)計(jì)5:RoCE V2 IP架構(gòu)

    控制的核心模塊。RoCE v2 高速數(shù)據(jù)傳輸IP內(nèi)部集成了多種功能,包括 RDMA 建鏈、RDMA 隊(duì)列管理、DMA 傳輸和系統(tǒng)監(jiān)控等。 這些功能均由系統(tǒng)控制模塊進(jìn)行管理。為了對(duì)這些功能進(jìn)行高效的管理
    發(fā)表于 11-25 10:34

    高效的以太網(wǎng)卡電路怎么實(shí)現(xiàn)?

    。該文就是要設(shè)計(jì)一種高性能又不增加芯片成本的以太網(wǎng)卡電路。在仔細(xì)分析以太網(wǎng)的原理和理解CPCI總線原理的基礎(chǔ)上,以Intel 82551為例研究設(shè)計(jì)了一種高效的以太網(wǎng)卡電路。
    發(fā)表于 09-18 07:42

    基于LabWindowsCVI的數(shù)據(jù)采集監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

    基于LabWindowsCVI的數(shù)據(jù)采集監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    發(fā)表于 05-06 08:40

    如何實(shí)現(xiàn)機(jī)房環(huán)境動(dòng)力遠(yuǎn)程實(shí)時(shí)監(jiān)控

    機(jī)房監(jiān)控工業(yè)路由器,機(jī)房監(jiān)控系統(tǒng)的無(wú)線通信終端,實(shí)現(xiàn)機(jī)房環(huán)境動(dòng)力遠(yuǎn)程實(shí)時(shí)監(jiān)控,對(duì)接現(xiàn)場(chǎng)設(shè)備及云服務(wù)器,多方式組網(wǎng)、數(shù)據(jù)采集上云、數(shù)據(jù)監(jiān)測(cè)、視
    發(fā)表于 02-16 07:36

    一種高效數(shù)據(jù)采集監(jiān)控服務(wù)器的實(shí)現(xiàn)

    分析了基于GPRS 網(wǎng)絡(luò)遠(yuǎn)程數(shù)據(jù)采集監(jiān)控系統(tǒng)中數(shù)據(jù)轉(zhuǎn)發(fā)的特點(diǎn),實(shí)現(xiàn)了一種新型高效的按需轉(zhuǎn)發(fā)服務(wù)器。該服務(wù)器克服了將遠(yuǎn)程采集的所有終端數(shù)據(jù)無(wú)篩
    發(fā)表于 01-09 14:26 ?11次下載

    RoCE技術(shù)在HPC中的應(yīng)用分析

    RoCE的延遲有幸有機(jī)會(huì)與IB實(shí)測(cè)對(duì)比了一下:以太網(wǎng)用的是25G Mellanox ConnectX-4 Lx 以太網(wǎng)卡,和Mellanox SN2410交換機(jī);IB用的是100G InfiniBand EDR網(wǎng)卡(Mellan
    發(fā)表于 09-05 10:39 ?2507次閱讀

    網(wǎng)卡啟動(dòng)版本10.2iSCSI RoCE FCoE協(xié)議用戶手冊(cè)

    電子發(fā)燒友網(wǎng)站提供《網(wǎng)卡啟動(dòng)版本10.2iSCSI RoCE FCoE協(xié)議用戶手冊(cè).pdf》資料免費(fèi)下載
    發(fā)表于 07-27 15:20 ?0次下載
    <b class='flag-5'>網(wǎng)卡</b>啟動(dòng)版本10.2iSCSI <b class='flag-5'>RoCE</b> FCoE協(xié)議用戶手冊(cè)

    引導(dǎo)版本10.3適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議用戶手冊(cè)

    電子發(fā)燒友網(wǎng)站提供《引導(dǎo)版本10.3適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議用戶手冊(cè).pdf》資料免費(fèi)下載
    發(fā)表于 07-28 09:42 ?0次下載
    引導(dǎo)版本10.3適用于<b class='flag-5'>網(wǎng)卡</b>、iSCSI、FCoE和<b class='flag-5'>RoCE</b>協(xié)議用戶手冊(cè)

    適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議用戶手冊(cè) 引導(dǎo)版本10.4

    電子發(fā)燒友網(wǎng)站提供《適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議用戶手冊(cè) 引導(dǎo)版本10.4.pdf》資料免費(fèi)下載
    發(fā)表于 08-04 09:25 ?0次下載
    適用于<b class='flag-5'>網(wǎng)卡</b>、iSCSI、FCoE和<b class='flag-5'>RoCE</b>協(xié)議用戶手冊(cè) 引導(dǎo)版本10.4

    適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議 引導(dǎo)版本10.6

    電子發(fā)燒友網(wǎng)站提供《適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議 引導(dǎo)版本10.6.pdf》資料免費(fèi)下載
    發(fā)表于 08-23 15:27 ?0次下載
    適用于<b class='flag-5'>網(wǎng)卡</b>、iSCSI、FCoE和<b class='flag-5'>RoCE</b>協(xié)議 引導(dǎo)版本10.6

    linux 查看網(wǎng)卡狀態(tài)是否開(kāi)啟

    如何查看 Linux 網(wǎng)卡狀態(tài)是否開(kāi)啟 在 Linux 系統(tǒng)中,我們可以使用一些命令來(lái)查看網(wǎng)卡狀態(tài)是否開(kāi)啟。本文將詳細(xì)介紹如何使用這些命令來(lái)查看和確認(rèn)
    的頭像 發(fā)表于 11-17 10:31 ?4958次閱讀

    BMS系統(tǒng)如何實(shí)現(xiàn)遠(yuǎn)程監(jiān)控高效運(yùn)維

    BMS系統(tǒng)(電池管理系統(tǒng))是用來(lái)智能化管理各個(gè)電池單元,監(jiān)控電池的狀態(tài)的系統(tǒng),通過(guò)對(duì)電壓、電流、溫度等參數(shù)采集、計(jì)算,進(jìn)而控制電池的充放電過(guò)程,能夠實(shí)現(xiàn)對(duì)電池的保護(hù)、提升電池的綜合性能
    的頭像 發(fā)表于 11-17 13:43 ?1687次閱讀

    機(jī)床數(shù)據(jù)采集網(wǎng)關(guān)助力實(shí)現(xiàn)生產(chǎn)過(guò)程的智能化與高效

    、故障診斷等功能,為生產(chǎn)過(guò)程的智能化與高效化提供了有力支持。機(jī)床作為制造業(yè)的核心設(shè)備,其數(shù)據(jù)采集監(jiān)控對(duì)于提高生產(chǎn)效率、降低故障率具有重要意義。機(jī)床數(shù)據(jù)采集網(wǎng)關(guān)作為一種連接機(jī)床與
    的頭像 發(fā)表于 12-19 10:37 ?1093次閱讀