在人工智能迅速發(fā)展的今天,大模型訓練已成為推動技術(shù)進步的核心動力。然而,隨著大模型規(guī)模的不斷擴大和訓練需求的增加,智算網(wǎng)絡面臨的挑戰(zhàn)也日益嚴峻。網(wǎng)絡作為連接計算集群的重要基礎設施,其性能直接影響著AI訓練的效率和效果。
智算網(wǎng)絡的主流架構(gòu)
目前智算網(wǎng)絡的領域的兩大主流架構(gòu):InfiniBand 和RoCEv2 在性能、成本、通用性等多個關鍵維度上展現(xiàn)出各自的優(yōu)勢,相互競爭。我們將細致分析這兩種架構(gòu)的技術(shù)特性、它們在 AI 智算網(wǎng)絡中的應用場景,以及各自的優(yōu)勢和局限性。
InfiniBand
InfiniBand 網(wǎng)絡主要通過子網(wǎng)管理器(Subnet Manager,簡稱 SM)來進行集中管理。SM 通常部署在子網(wǎng)內(nèi)的某臺服務器上,充當網(wǎng)絡核心控制器。通過 SM 的集中控制,InfiniBand網(wǎng)絡實現(xiàn)了拓撲發(fā)現(xiàn)、路徑優(yōu)化、故障恢復等功能的自動化,保障高性能與高可靠性。
InfiniBand網(wǎng)絡架構(gòu)示意圖(來源:2023智算中心網(wǎng)絡架構(gòu)白皮書)RoCEv2
RoCE(RDMA over Converged Ethernet)協(xié)議是一種能在以太網(wǎng)上進行 RDMA(Remote Direct Memory Access 遠程內(nèi)存直接訪問)的集群網(wǎng)絡通信協(xié)議。RoCEv1作為鏈路協(xié)議層,要求通信雙方位于同一二層網(wǎng)絡內(nèi)。而RoCEv2 則為網(wǎng)絡層協(xié)議,它采用以太網(wǎng)網(wǎng)絡層和 UDP 傳輸層,取代了 InfiniBand 的網(wǎng)絡層,從而提供了更為優(yōu)秀的可擴展性。與 InfiniBand 網(wǎng)絡的集中管理方式不同,RoCEv2 采用的是純分布式架構(gòu),通常由兩層構(gòu)成,在擴展性和部署靈活性方面具有顯著優(yōu)勢。
RoCEv2網(wǎng)絡架構(gòu)示意圖(來源:2023智算中心網(wǎng)絡架構(gòu)白皮書)智算網(wǎng)絡中的負載均衡與流量控制
AI大模型時代下,數(shù)據(jù)中心與智算網(wǎng)絡,如Spine-Leaf架構(gòu),拓撲規(guī)整,選路簡易。就網(wǎng)絡流量模式而言,GPU服務器間常存在多條并行路徑,如Fat tree網(wǎng)絡中會有數(shù)十條。
如何在這些路徑中實現(xiàn)負載均衡路由,成為智算中心路由設計的核心挑戰(zhàn)。
InfiniBand網(wǎng)絡的負載均衡和流控機制
InfiniBand網(wǎng)絡通過多層次技術(shù)協(xié)同,實現(xiàn)了高效的數(shù)據(jù)傳輸與資源管理。在負載均衡方面,子網(wǎng)管理器(SM)作為核心調(diào)度者,首先基于最短路徑算法構(gòu)建初始路由表,為流量分布奠定基礎。盡管SM的動態(tài)路徑優(yōu)化能根據(jù)鏈路負載實時調(diào)整路徑,但其對控制帶寬和計算資源的消耗不容忽視。為進一步提升靈活性,自適應路由(AR)技術(shù)應運而生,允許交換機基于隊列深度、擁塞情況等實時狀態(tài)獨立選擇路徑,既降低了延遲,又增強了網(wǎng)絡可靠性。
然而,AR的動態(tài)特性可能導致數(shù)據(jù)包亂序,這需要上層協(xié)議或應用進行額外處理。為彌補單一路徑的局限性,應用程序還可通過創(chuàng)建多個隊列對(QP),利用硬件隊列的并行傳輸能力分散流量,例如MPI庫或Lustre存儲中間件通過任務分配避免路徑瓶頸,形成應用層與網(wǎng)絡層的雙重負載均衡。
負載均衡機制的高效運行,離不開底層流控機制的強力支撐。InfiniBand采用信用令牌(credit)系統(tǒng),在每條鏈路上預設緩沖區(qū),確保發(fā)送端僅在確認接收端資源充足時傳輸數(shù)據(jù),從根本上避免了緩沖區(qū)溢出或丟包問題。與此同時,網(wǎng)絡還結(jié)合逐包自適應路由技術(shù),為每個數(shù)據(jù)包獨立選擇傳輸路徑,實時響應擁塞、延遲等狀態(tài)變化。這種細粒度的動態(tài)調(diào)整能力,不僅與信用令牌機制形成互補,更在超大規(guī)模網(wǎng)絡中實現(xiàn)了資源的實時優(yōu)化配置,使負載均衡從局部擴展到全局。
由此可見,InfiniBand通過負載均衡與流控機制的深度耦合,構(gòu)建了一個兼具敏捷性、可靠性與擴展性的高性能網(wǎng)絡架構(gòu)。
RoCE網(wǎng)絡的負載均衡和流控機制
負載均衡機制負載均衡技術(shù)
1、基于流(Flow-based)
ECMP(Equal Cost Multi Path)是一種路由技術(shù),用于在IP交換網(wǎng)絡中實現(xiàn)負載均衡。即等價多路徑路由,當存在多條到達同一個目的地址的相同開銷的路徑,網(wǎng)絡設備按照自有的Hash根據(jù)流量N元組計算多路徑下一跳。由于通用計算以“多流”、“小流”為主,能夠?qū)崿F(xiàn)較好的負載均衡效果。
當AIDC中的大象流連續(xù)到達交換機,傳統(tǒng)Hash通常會將大象流集中在少數(shù)鏈路上傳輸,龐大的數(shù)據(jù)流占用相當大的帶寬資源,導致傳輸鏈路發(fā)生擁塞,而其他鏈路上則處于空閑。這種Hash不均導致了鏈路負載不均,進而出現(xiàn)擁塞和時延加劇。
2、基于包(Packet based)
隨機包噴灑(Random Packet Spraying,RPS)是一種基于包級別的負載均衡策略。當交換機發(fā)現(xiàn)有多條等價路徑指向同一目的地址時,RPS會將數(shù)據(jù)包以單個包為單位分散到這些路徑上。與ECMP不同,RPS以數(shù)據(jù)包為單位進行操作,將同一流中的不同數(shù)據(jù)包轉(zhuǎn)發(fā)到不同的等價路徑上。
RPS的優(yōu)點在于簡單易實施,通過細粒度的負載均衡,可以在多條并行路徑之間實現(xiàn)較為均衡的路由選擇,提升端到端的網(wǎng)絡吞吐率,可以將并行鏈路利用率提高到90%以上。缺點在于可能會造成同一個流的包亂序問題,所以這種方式必須要解決亂序問題。
3、基于流片(Flowlet)
Flowlet是根據(jù)流中的“空閑”時間間隔將一個流劃分為若干片段。在一個Flowlet內(nèi),數(shù)據(jù)包在時間上緊密連續(xù);而兩個Flowlet之間,存在較大的時間間隔。這一間隔遠大于同一流分片內(nèi)數(shù)據(jù)包之間的時間間隔,足以使兩個流分片通過不同的網(wǎng)絡路徑傳輸而不發(fā)生亂序。

4、基于遙測的路由
為了將包、flowlet或整個流調(diào)度到不同的路徑上,需要路由協(xié)議的控制。傳統(tǒng)的路由協(xié)議,基于靜態(tài)的網(wǎng)絡信息來計算最優(yōu)路徑,如OSPF基于網(wǎng)絡帶寬計算最短路徑,BGP根據(jù)AS-PATH長度計算ECMP等。這種控制與網(wǎng)絡實際負載脫節(jié),需要加以改進,星融元提出的基于遙測的路由(Int-based Routing)技術(shù)結(jié)合OSPF、BGP和在網(wǎng)遙測(INT)技術(shù),為網(wǎng)絡中任意一對節(jié)點之間計算多條路徑,每個路徑的開銷是動態(tài)測量的延遲,從而能夠根據(jù)實時的網(wǎng)絡負載進行路由,從而充分利用每個路徑的帶寬。

流控機制
1、優(yōu)先流控制(PFC)是一種逐跳流控策略,通過合理配置水位標記來充分利用交換機的緩存,以實現(xiàn)以太網(wǎng)絡中的無丟包傳輸。當下游交換機端口的緩存過載時,該交換機就會向上游設備請求停止傳輸。已發(fā)送的數(shù)據(jù)則會存儲在下游交換機的緩存中,等到緩存恢復正常,端口將會請求恢復數(shù)據(jù)包的發(fā)送,從而維持網(wǎng)絡的流暢運行。
【參考白皮書:https://asterfusion.com/priority-based_flow_control_pfc/ 】
2、顯式擁塞通知(ECN)定義了一種基于 IP 層和傳輸層的流量控制和端到端擁塞通知機制。通過在交換機上向服務器端傳遞特定擁塞信息,然后服務器端再發(fā)送至客戶端通知源端降速從而實現(xiàn)擁塞控制的目的。
【參考技術(shù)手冊:https://asterfusion.com/t20250416-ecn/ 】
3、數(shù)據(jù)中心量化擁塞通知(DCQCN)是顯式擁塞通知(ECN)和優(yōu)先流控制(PFC)兩種機制的結(jié)合,旨在支持端到端的無損以太網(wǎng)通信。
| 對比項 | InfiniBand | RoCEv2 |
| 流控機制 | 基于Credit的流控機制 | PFC/ECN,DCQCN等 |
| 轉(zhuǎn)發(fā)模式 | 基于Local ID轉(zhuǎn)發(fā) | 基于IP轉(zhuǎn)發(fā) |
| 負載均衡模式 | 逐包的自適應路由 | ECMP方式路由、基于包(Packet based)、基于流片(Flowlet)、基于遙測的路由 |
| 故障恢復 | Self-Healing Interconnect Enhancement for Intelligent Datacenters | 路由收斂 |
| 網(wǎng)絡配置 | 通過UFM實現(xiàn)零配置(按端口收費) | 手工配置、或基于開放網(wǎng)絡技術(shù)實現(xiàn)的 EasyRoCE |
技術(shù)選型
根據(jù)前文我們了解到,InfiniBand和RoCEv2是兩種支持RDMA的高性能網(wǎng)絡協(xié)議,但其負載均衡機制在實現(xiàn)方式、性能和應用場景上存在顯著差異:
- InfiniBand依賴專用硬件和動態(tài)自適應路由,通過子網(wǎng)管理器實時優(yōu)化路徑,實現(xiàn)超低延遲和高吞吐,但成本高且擴展受限,適合HPC/AI等極致性能場景;
- RoCEv2基于以太網(wǎng),采用靜態(tài)ECMP哈希多路徑分發(fā),成本低、擴展性強,但依賴無損網(wǎng)絡配置(如PFC/ECN),易受哈希不均影響,適合云數(shù)據(jù)中心等性價比優(yōu)先場景。
雖然RoCE還是很難應對大象流/老鼠流分布不均的影響,但是各廠家也在做各種努力嘗試。
WCMP
結(jié)合前文,ECMP技術(shù)將包、Flowlet或整個流均勻的分布到多個路徑上,很大程度上忽略了不同路徑上的實際負載。為了進一步提升網(wǎng)絡利用率。星融元采用加權(quán)代價多路徑(Weighted Cost Multiple Path)算法,基于遙測獲取的時延等信息,在時延更低的路徑上調(diào)度更多的流量,在時延更高的路徑上調(diào)度更少的流量,從而實現(xiàn)所有路徑的公平利用。在理想情況下,流量經(jīng)過不同路徑的總時延是相等的,可充分利用所有可用帶寬。
星融元CX864E等超級以太網(wǎng)交換機通過支持Flowlet、基于遙測的路由以及WCMP(加權(quán)代價多路徑)三大創(chuàng)新技術(shù),將AI訓練和推理網(wǎng)絡的利用率提升至90%以上,從而加速AI訓練和推理過程,為AI數(shù)據(jù)中心進一步節(jié)省建設成本和運營成本。

【參考文檔】
- https://www.c114.com.cn/other/241/a1270305.html
- https://mp.weixin.qq.com/s?__biz=MzAxNzU3NjcxOA==&mid=2650751430&idx=1&sn=bffa26e57db61c930c8eb2c71b902706&chksm=82a06995994e62a7391df4a0bcf047c0c332c395773964c283a3e9b814db15ced8720f450753#rd
- https://baijiahao.baidu.com/s?id=1800081227247028165&wfr=spider&for=pc
- https://blog.csdn.net/weixin_38889300/article/details/140366370
-
InfiniBand
+關注
關注
1文章
31瀏覽量
9572 -
負載均衡
+關注
關注
0文章
133瀏覽量
12883
發(fā)布評論請先 登錄
Dubbo路由模塊及負載均衡的優(yōu)化手段
負載均衡器的誕生和工作機制
基于動態(tài)負載均衡的網(wǎng)絡監(jiān)控系統(tǒng)
InfiniBand,InfiniBand是什么意思
基于蟻群優(yōu)化的任務負載均衡調(diào)度算法
基于圖非均衡劃分的SDN異構(gòu)控制器負載優(yōu)化部署方法
基于流量矩陣的負載均衡路由機制
華為云在Kubernetes大規(guī)模場景下的Service性能優(yōu)化實踐
Apacheproxy負載均衡和Session復制
解密負載均衡技術(shù)和負載均衡算法
深入探索InfiniBand網(wǎng)絡、HDR與IB技術(shù)
InfiniBand與RoCEv2負載均衡機制的技術(shù)梳理與優(yōu)化實踐
評論