91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

InfiniBand與RoCEv2負載均衡機制的技術(shù)梳理與優(yōu)化實踐

星融元Asterfusion ? 2025-04-17 17:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能迅速發(fā)展的今天,大模型訓練已成為推動技術(shù)進步的核心動力。然而,隨著大模型規(guī)模的不斷擴大和訓練需求的增加,智算網(wǎng)絡面臨的挑戰(zhàn)也日益嚴峻。網(wǎng)絡作為連接計算集群的重要基礎設施,其性能直接影響著AI訓練的效率和效果。

智算網(wǎng)絡的主流架構(gòu)

目前智算網(wǎng)絡的領域的兩大主流架構(gòu):InfiniBand 和RoCEv2 在性能、成本、通用性等多個關鍵維度上展現(xiàn)出各自的優(yōu)勢,相互競爭。我們將細致分析這兩種架構(gòu)的技術(shù)特性、它們在 AI 智算網(wǎng)絡中的應用場景,以及各自的優(yōu)勢和局限性。

InfiniBand

InfiniBand 網(wǎng)絡主要通過子網(wǎng)管理器(Subnet Manager,簡稱 SM)來進行集中管理。SM 通常部署在子網(wǎng)內(nèi)的某臺服務器上,充當網(wǎng)絡核心控制器。通過 SM 的集中控制,InfiniBand網(wǎng)絡實現(xiàn)了拓撲發(fā)現(xiàn)、路徑優(yōu)化、故障恢復等功能的自動化,保障高性能與高可靠性。

wKgZPGgAy7mAZWYhAAHeVdfDBzY521.pngInfiniBand網(wǎng)絡架構(gòu)示意圖(來源:2023智算中心網(wǎng)絡架構(gòu)白皮書)

RoCEv2

RoCE(RDMA over Converged Ethernet)協(xié)議是一種能在以太網(wǎng)上進行 RDMA(Remote Direct Memory Access 遠程內(nèi)存直接訪問)的集群網(wǎng)絡通信協(xié)議。RoCEv1作為鏈路協(xié)議層,要求通信雙方位于同一二層網(wǎng)絡內(nèi)。而RoCEv2 則為網(wǎng)絡層協(xié)議,它采用以太網(wǎng)網(wǎng)絡層和 UDP 傳輸層,取代了 InfiniBand 的網(wǎng)絡層,從而提供了更為優(yōu)秀的可擴展性。與 InfiniBand 網(wǎng)絡的集中管理方式不同,RoCEv2 采用的是純分布式架構(gòu),通常由兩層構(gòu)成,在擴展性和部署靈活性方面具有顯著優(yōu)勢。

wKgZPGgAy8-Ab3zoAASGXkh-Cm0427.pngRoCEv2網(wǎng)絡架構(gòu)示意圖(來源:2023智算中心網(wǎng)絡架構(gòu)白皮書)

智算網(wǎng)絡中的負載均衡與流量控制

AI大模型時代下,數(shù)據(jù)中心與智算網(wǎng)絡,如Spine-Leaf架構(gòu),拓撲規(guī)整,選路簡易。就網(wǎng)絡流量模式而言,GPU服務器間常存在多條并行路徑,如Fat tree網(wǎng)絡中會有數(shù)十條。

如何在這些路徑中實現(xiàn)負載均衡路由,成為智算中心路由設計的核心挑戰(zhàn)。

InfiniBand網(wǎng)絡的負載均衡和流控機制

InfiniBand網(wǎng)絡通過多層次技術(shù)協(xié)同,實現(xiàn)了高效的數(shù)據(jù)傳輸與資源管理。在負載均衡方面,子網(wǎng)管理器(SM)作為核心調(diào)度者,首先基于最短路徑算法構(gòu)建初始路由表,為流量分布奠定基礎。盡管SM的動態(tài)路徑優(yōu)化能根據(jù)鏈路負載實時調(diào)整路徑,但其對控制帶寬和計算資源的消耗不容忽視。為進一步提升靈活性,自適應路由(AR)技術(shù)應運而生,允許交換機基于隊列深度、擁塞情況等實時狀態(tài)獨立選擇路徑,既降低了延遲,又增強了網(wǎng)絡可靠性。

然而,AR的動態(tài)特性可能導致數(shù)據(jù)包亂序,這需要上層協(xié)議或應用進行額外處理。為彌補單一路徑的局限性,應用程序還可通過創(chuàng)建多個隊列對(QP),利用硬件隊列的并行傳輸能力分散流量,例如MPI庫或Lustre存儲中間件通過任務分配避免路徑瓶頸,形成應用層與網(wǎng)絡層的雙重負載均衡。

負載均衡機制的高效運行,離不開底層流控機制的強力支撐。InfiniBand采用信用令牌(credit)系統(tǒng),在每條鏈路上預設緩沖區(qū),確保發(fā)送端僅在確認接收端資源充足時傳輸數(shù)據(jù),從根本上避免了緩沖區(qū)溢出或丟包問題。與此同時,網(wǎng)絡還結(jié)合逐包自適應路由技術(shù),為每個數(shù)據(jù)包獨立選擇傳輸路徑,實時響應擁塞、延遲等狀態(tài)變化。這種細粒度的動態(tài)調(diào)整能力,不僅與信用令牌機制形成互補,更在超大規(guī)模網(wǎng)絡中實現(xiàn)了資源的實時優(yōu)化配置,使負載均衡從局部擴展到全局。

由此可見,InfiniBand通過負載均衡與流控機制的深度耦合,構(gòu)建了一個兼具敏捷性、可靠性與擴展性的高性能網(wǎng)絡架構(gòu)。

RoCE網(wǎng)絡的負載均衡和流控機制

wKgZPGgAzBCATLjDAAMPbqpG9Ls979.png負載均衡機制

負載均衡技術(shù)

1、基于流(Flow-based)

ECMP(Equal Cost Multi Path)是一種路由技術(shù),用于在IP交換網(wǎng)絡中實現(xiàn)負載均衡。即等價多路徑路由,當存在多條到達同一個目的地址的相同開銷的路徑,網(wǎng)絡設備按照自有的Hash根據(jù)流量N元組計算多路徑下一跳。由于通用計算以“多流”、“小流”為主,能夠?qū)崿F(xiàn)較好的負載均衡效果。

當AIDC中的大象流連續(xù)到達交換機,傳統(tǒng)Hash通常會將大象流集中在少數(shù)鏈路上傳輸,龐大的數(shù)據(jù)流占用相當大的帶寬資源,導致傳輸鏈路發(fā)生擁塞,而其他鏈路上則處于空閑。這種Hash不均導致了鏈路負載不均,進而出現(xiàn)擁塞和時延加劇。

2、基于包(Packet based)

隨機包噴灑(Random Packet Spraying,RPS)是一種基于包級別的負載均衡策略。當交換機發(fā)現(xiàn)有多條等價路徑指向同一目的地址時,RPS會將數(shù)據(jù)包以單個包為單位分散到這些路徑上。與ECMP不同,RPS以數(shù)據(jù)包為單位進行操作,將同一流中的不同數(shù)據(jù)包轉(zhuǎn)發(fā)到不同的等價路徑上。

RPS的優(yōu)點在于簡單易實施,通過細粒度的負載均衡,可以在多條并行路徑之間實現(xiàn)較為均衡的路由選擇,提升端到端的網(wǎng)絡吞吐率,可以將并行鏈路利用率提高到90%以上。缺點在于可能會造成同一個流的包亂序問題,所以這種方式必須要解決亂序問題。

3、基于流片(Flowlet)

Flowlet是根據(jù)流中的“空閑”時間間隔將一個流劃分為若干片段。在一個Flowlet內(nèi),數(shù)據(jù)包在時間上緊密連續(xù);而兩個Flowlet之間,存在較大的時間間隔。這一間隔遠大于同一流分片內(nèi)數(shù)據(jù)包之間的時間間隔,足以使兩個流分片通過不同的網(wǎng)絡路徑傳輸而不發(fā)生亂序。

wKgZO2gAzH6AOtUfAAEezug1ko4283.png

4、基于遙測的路由

為了將包、flowlet或整個流調(diào)度到不同的路徑上,需要路由協(xié)議的控制。傳統(tǒng)的路由協(xié)議,基于靜態(tài)的網(wǎng)絡信息來計算最優(yōu)路徑,如OSPF基于網(wǎng)絡帶寬計算最短路徑,BGP根據(jù)AS-PATH長度計算ECMP等。這種控制與網(wǎng)絡實際負載脫節(jié),需要加以改進,星融元提出的基于遙測的路由(Int-based Routing)技術(shù)結(jié)合OSPF、BGP和在網(wǎng)遙測(INT)技術(shù),為網(wǎng)絡中任意一對節(jié)點之間計算多條路徑,每個路徑的開銷是動態(tài)測量的延遲,從而能夠根據(jù)實時的網(wǎng)絡負載進行路由,從而充分利用每個路徑的帶寬。

wKgZPGgAzKSACP-aAAj-gIakPGE880.png

流控機制

1、優(yōu)先流控制(PFC)是一種逐跳流控策略,通過合理配置水位標記來充分利用交換機的緩存,以實現(xiàn)以太網(wǎng)絡中的無丟包傳輸。當下游交換機端口的緩存過載時,該交換機就會向上游設備請求停止傳輸。已發(fā)送的數(shù)據(jù)則會存儲在下游交換機的緩存中,等到緩存恢復正常,端口將會請求恢復數(shù)據(jù)包的發(fā)送,從而維持網(wǎng)絡的流暢運行。

【參考白皮書:https://asterfusion.com/priority-based_flow_control_pfc/ 】

2、顯式擁塞通知(ECN)定義了一種基于 IP 層和傳輸層的流量控制和端到端擁塞通知機制。通過在交換機上向服務器端傳遞特定擁塞信息,然后服務器端再發(fā)送至客戶端通知源端降速從而實現(xiàn)擁塞控制的目的。

【參考技術(shù)手冊:https://asterfusion.com/t20250416-ecn/ 】

3、數(shù)據(jù)中心量化擁塞通知(DCQCN)是顯式擁塞通知(ECN)和優(yōu)先流控制(PFC)兩種機制的結(jié)合,旨在支持端到端的無損以太網(wǎng)通信。

對比項InfiniBandRoCEv2
流控機制基于Credit的流控機制PFC/ECN,DCQCN等
轉(zhuǎn)發(fā)模式基于Local ID轉(zhuǎn)發(fā)基于IP轉(zhuǎn)發(fā)
負載均衡模式逐包的自適應路由ECMP方式路由、基于包(Packet based)、基于流片(Flowlet)、基于遙測的路由
故障恢復Self-Healing Interconnect Enhancement for Intelligent Datacenters路由收斂
網(wǎng)絡配置通過UFM實現(xiàn)零配置(按端口收費)手工配置、或基于開放網(wǎng)絡技術(shù)實現(xiàn)的 EasyRoCE

技術(shù)選型

根據(jù)前文我們了解到,InfiniBand和RoCEv2是兩種支持RDMA的高性能網(wǎng)絡協(xié)議,但其負載均衡機制在實現(xiàn)方式、性能和應用場景上存在顯著差異:

  • InfiniBand依賴專用硬件和動態(tài)自適應路由,通過子網(wǎng)管理器實時優(yōu)化路徑,實現(xiàn)超低延遲和高吞吐,但成本高且擴展受限,適合HPC/AI等極致性能場景;
  • RoCEv2基于以太網(wǎng),采用靜態(tài)ECMP哈希多路徑分發(fā),成本低、擴展性強,但依賴無損網(wǎng)絡配置(如PFC/ECN),易受哈希不均影響,適合云數(shù)據(jù)中心等性價比優(yōu)先場景。

雖然RoCE還是很難應對大象流/老鼠流分布不均的影響,但是各廠家也在做各種努力嘗試。

WCMP

結(jié)合前文,ECMP技術(shù)將包、Flowlet或整個流均勻的分布到多個路徑上,很大程度上忽略了不同路徑上的實際負載。為了進一步提升網(wǎng)絡利用率。星融元采用加權(quán)代價多路徑(Weighted Cost Multiple Path)算法,基于遙測獲取的時延等信息,在時延更低的路徑上調(diào)度更多的流量,在時延更高的路徑上調(diào)度更少的流量,從而實現(xiàn)所有路徑的公平利用。在理想情況下,流量經(jīng)過不同路徑的總時延是相等的,可充分利用所有可用帶寬。

星融元CX864E等超級以太網(wǎng)交換機通過支持Flowlet、基于遙測的路由以及WCMP(加權(quán)代價多路徑)三大創(chuàng)新技術(shù),將AI訓練和推理網(wǎng)絡的利用率提升至90%以上,從而加速AI訓練和推理過程,為AI數(shù)據(jù)中心進一步節(jié)省建設成本和運營成本。

wKgZPGgAzV-AEtLmAAHPSmMpmnA826.png

【參考文檔】

  • https://www.c114.com.cn/other/241/a1270305.html
  • https://mp.weixin.qq.com/s?__biz=MzAxNzU3NjcxOA==&mid=2650751430&idx=1&sn=bffa26e57db61c930c8eb2c71b902706&chksm=82a06995994e62a7391df4a0bcf047c0c332c395773964c283a3e9b814db15ced8720f450753#rd
  • https://baijiahao.baidu.com/s?id=1800081227247028165&wfr=spider&for=pc
  • https://blog.csdn.net/weixin_38889300/article/details/140366370
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • InfiniBand
    +關注

    關注

    1

    文章

    31

    瀏覽量

    9572
  • 負載均衡
    +關注

    關注

    0

    文章

    133

    瀏覽量

    12883
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Dubbo路由模塊及負載均衡優(yōu)化手段

    本文主要介紹在vivo內(nèi)部針對Dubbo路由模塊及負載均衡的一些優(yōu)化手段,主要是異步化+緩存,可減少在RPC調(diào)用過程中路由及負載均衡的CPU
    的頭像 發(fā)表于 11-02 09:56 ?1644次閱讀
    Dubbo路由模塊及<b class='flag-5'>負載</b><b class='flag-5'>均衡</b>的<b class='flag-5'>優(yōu)化</b>手段

    負載均衡器的誕生和工作機制

    今天我們來深度揭秘一下負載均衡器 LVS 的秘密,相信大家看了你管這破玩意兒叫負載均衡?這篇文章后,還是有不少疑問,比如 LVS 看起來只有類似路由器的轉(zhuǎn)發(fā)功能,為啥說它是四層(傳輸層
    的頭像 發(fā)表于 01-04 12:26 ?2069次閱讀
    <b class='flag-5'>負載</b><b class='flag-5'>均衡</b>器的誕生和工作<b class='flag-5'>機制</b>

    基于動態(tài)負載均衡的網(wǎng)絡監(jiān)控系統(tǒng)

    設計企業(yè)局域網(wǎng)絡監(jiān)控系統(tǒng)NetMonitor,該系統(tǒng)基于J2EE技術(shù)實現(xiàn)對網(wǎng)絡服務的支持。引入動態(tài)負載均衡機制作為集群服務器網(wǎng)絡監(jiān)控系統(tǒng)的核
    發(fā)表于 04-07 08:52 ?31次下載

    InfiniBand,InfiniBand是什么意思

    InfiniBand,InfiniBand是什么意思 InfiniBand架構(gòu)是一種支持多并發(fā)鏈接的“轉(zhuǎn)換線纜”技術(shù),在這種技術(shù)中,每種鏈
    發(fā)表于 04-10 11:34 ?1356次閱讀

    HBase負載均衡分析及優(yōu)化策略

    HBase負載均衡分析及優(yōu)化策略_黃偉建
    發(fā)表于 01-03 17:41 ?0次下載

    基于蟻群優(yōu)化的任務負載均衡調(diào)度算法

    隨著云計算的蓬勃發(fā)展,針對云計算中虛擬機負載均衡及任務集完成時間較長的問題,提出了一種基于蟻群優(yōu)化的任務負載均衡調(diào)度算法(WLB-ACO)
    發(fā)表于 11-09 14:40 ?2次下載
    基于蟻群<b class='flag-5'>優(yōu)化</b>的任務<b class='flag-5'>負載</b><b class='flag-5'>均衡</b>調(diào)度算法

    基于圖非均衡劃分的SDN異構(gòu)控制器負載優(yōu)化部署方法

    大規(guī)模軟件定義網(wǎng)絡(SDN)往往需要邏輯上集中的控制器在物理上分布式部署。針對控制器部署中控制器負載均衡的問題,提出一種基于圖非均衡劃分的SDN異構(gòu)控制器負載
    發(fā)表于 12-20 09:55 ?0次下載
    基于圖非<b class='flag-5'>均衡</b>劃分的SDN異構(gòu)控制器<b class='flag-5'>負載</b><b class='flag-5'>優(yōu)化</b>部署方法

    基于流量矩陣的負載均衡路由機制

    智慧協(xié)同網(wǎng)絡具有能夠?qū)崟r準確測算流量矩陣的特點。將流量矩陣作為約束,對負載均衡路由優(yōu)化問題進行建模,利用拉格朗日對偶方法,將原問題轉(zhuǎn)化為優(yōu)化目標易實現(xiàn)的對偶問題。為實現(xiàn)對偶問題
    發(fā)表于 02-12 11:18 ?0次下載

    華為云在Kubernetes大規(guī)模場景下的Service性能優(yōu)化實踐

    本文檔的主要內(nèi)容詳細介紹的是華為云在Kubernetes大規(guī)模場景下的Service性能優(yōu)化實踐包括了:1.Kubernetes的Service機制 2.Iptables實現(xiàn)Servi
    發(fā)表于 06-21 08:00 ?0次下載
    華為云在Kubernetes大規(guī)模場景下的Service性能<b class='flag-5'>優(yōu)化</b><b class='flag-5'>實踐</b>

    Apacheproxy負載均衡和Session復制

    Apacheproxy負載均衡和Session復制(電源技術(shù)交流群)-Apacheproxy負載均衡和Session復制? ? ? ? ?
    發(fā)表于 08-31 12:29 ?0次下載
    Apacheproxy<b class='flag-5'>負載</b><b class='flag-5'>均衡</b>和Session復制

    解密負載均衡技術(shù)負載均衡算法

    叫做負載均衡的類型。負載均衡算法的種類非常多,包括從簡單的輪詢負載均衡算法到基于響應狀態(tài)信息的自
    的頭像 發(fā)表于 11-12 09:16 ?2006次閱讀

    InfiniBandRoCEv2網(wǎng)絡簡介及解決方案

    超高帶寬、超低延遲、超高可靠,這是大模型訓練對于網(wǎng)絡的要求。
    的頭像 發(fā)表于 09-22 15:47 ?1.2w次閱讀
    <b class='flag-5'>InfiniBand</b>和<b class='flag-5'>RoCEv2</b>網(wǎng)絡簡介及解決方案

    深入探索InfiniBand網(wǎng)絡、HDR與IB技術(shù)

    InfiniBand和以太網(wǎng)之間的延遲對比可以分為兩個主要組成部分。首先,在交換機層面上,以太網(wǎng)交換機在網(wǎng)絡傳輸模型中作為第2層設備運行,通常采用MAC表查找尋址和存儲轉(zhuǎn)發(fā)機制(某些產(chǎn)品可能采用
    發(fā)表于 04-19 11:01 ?3384次閱讀
    深入探索<b class='flag-5'>InfiniBand</b>網(wǎng)絡、HDR與IB<b class='flag-5'>技術(shù)</b>

    華納云:什么是負載均衡?優(yōu)化資源利用率的策略

    負載均衡是現(xiàn)代計算機網(wǎng)絡架構(gòu)中不可或缺的一部分,它通過智能分配請求和任務,確保系統(tǒng)資源的高效利用。本文將探討負載均衡的概念、工作原理、優(yōu)化
    的頭像 發(fā)表于 10-28 16:07 ?1020次閱讀

    AI智算網(wǎng)絡方案

    基于800G/400G/200G以太網(wǎng)、RoCEv2、智能負載均衡等能力,星融元為各種規(guī)模的AI/ML算力集群提供一站式、高性能、高可靠、低TCO的網(wǎng)絡連接。
    發(fā)表于 09-15 14:22 ?0次下載