十多年來,傳統(tǒng)的云數(shù)據(jù)中心一直是計算基礎(chǔ)設(shè)施的基石,滿足了各種用戶和應(yīng)用程序的需求。然而,近年來,為了跟上技術(shù)的進步和對 AI 驅(qū)動的計算需求的激增,數(shù)據(jù)中心進行了發(fā)展。本文探討了網(wǎng)絡(luò)在塑造數(shù)據(jù)中心的未來和推動 AI 時代方面發(fā)揮的關(guān)鍵作用。
專用數(shù)據(jù)中心:AI 工廠和 AI 云
目前正在涌現(xiàn)兩類不同的數(shù)據(jù)中心:AI 工廠和 AI 云。這兩類數(shù)據(jù)中心都是為滿足 AI 工作負載的獨特需求而定制的,其特點是都依賴于加速計算。
AI 工廠旨在處理大語言模型(LLM)和其他基礎(chǔ) AI 模型等大規(guī)模算法模型,這些模型是構(gòu)建更先進 AI 系統(tǒng)的基礎(chǔ)模組。因此,為了實現(xiàn)擁有數(shù)千個 GPU 的集群可以無縫擴展和資源的高效利用,強大的高性能網(wǎng)絡(luò)勢在必行。
AI 云擴展了傳統(tǒng)云基礎(chǔ)設(shè)施的功能,以支持大規(guī)模生成式人工智能應(yīng)用程序。生成式 AI 超越了傳統(tǒng)的 AI 系統(tǒng),它基于其訓(xùn)練的數(shù)據(jù)創(chuàng)建新的內(nèi)容,例如圖像、文本和音頻。管理擁有數(shù)千名用戶的 AI 云需要高級管理工具和網(wǎng)絡(luò)基礎(chǔ)設(shè)施,以便高效處理各種工作負載。
AI 和分布式計算
AI 工作負載具有計算密集型,尤其是涉及 ChatGPT 和 BERT 等大型復(fù)雜模型的工作負載。為了加速模型訓(xùn)練和對大量數(shù)據(jù)集的處理,AI 從業(yè)者已轉(zhuǎn)向分布式計算。這種方法涉及將工作負載分配到多個通過高速、低延時網(wǎng)絡(luò)連接的服務(wù)器節(jié)點上。
分布式計算是 AI 取得成功的關(guān)鍵,而網(wǎng)絡(luò)的可擴展性和處理越來越多節(jié)點的能力至關(guān)重要。高度可擴展的網(wǎng)絡(luò)使 AI 研究人員能夠利用更多的計算資源,從而更快、更出色地提升性能。
在為 AI 數(shù)據(jù)中心構(gòu)建網(wǎng)絡(luò)架構(gòu)時,必須優(yōu)先創(chuàng)建以分布式計算為核心的集成解決方案。需要數(shù)據(jù)中心架構(gòu)師必須認真考慮網(wǎng)絡(luò)設(shè)計,根據(jù)他們計劃部署的 AI 工作負載的獨特需求定制解決方案。
NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 是兩個專為應(yīng)對 AI 數(shù)據(jù)中心的網(wǎng)絡(luò)挑戰(zhàn)而設(shè)計的網(wǎng)絡(luò)平臺,每個平臺都有自己獨特的功能和創(chuàng)新。
InfiniBand 提升 AI 性能
InfiniBand 技術(shù)一直是大規(guī)模復(fù)雜分布式科學(xué)計算部署應(yīng)用的驅(qū)動力。它已成為 AI 工廠網(wǎng)絡(luò)的事實標(biāo)準。憑借超低延遲,InfiniBand 已成為加速當(dāng)今主流高性能計算(HPC)和 AI 應(yīng)用的關(guān)鍵。高效 AI 系統(tǒng)所需的許多關(guān)鍵網(wǎng)絡(luò)功能均原生于 NVIDIA Quantum-2 InfiniBand 平臺。
InfiniBand 的網(wǎng)絡(luò)計算是將基于硬件的計算引擎集成到網(wǎng)絡(luò)中,利用 NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol(SHARP)(一種網(wǎng)絡(luò)內(nèi)聚合機制)。SHARP 支持多個并發(fā)集合操作,可將數(shù)據(jù)帶寬翻倍,以增強集群性能,卸載大量復(fù)雜的計算到網(wǎng)絡(luò)上來。
InfiniBand 自適應(yīng)路由能夠以最佳方式分散流量,從而緩解擁塞并提高資源利用率。在子網(wǎng)管理器的管理下,InfiniBand 會根據(jù)網(wǎng)絡(luò)條件選擇無擁塞的路由,從而在不影響數(shù)據(jù)包到達順序的情況下最大限度地提高效率。
InfiniBand 擁塞控制架構(gòu)可確保確定性帶寬和延遲。它使用三個階段來管理擁塞,從而防止 AI 工作負載中遇到性能瓶頸。
這些固有的優(yōu)化使 InfiniBand 能夠滿足 AI 應(yīng)用的需求,最終實現(xiàn)卓越的性能和效率。
在以太網(wǎng)中探索 AI 部署
為 AI 基礎(chǔ)架構(gòu)部署以太網(wǎng)產(chǎn)品首先需要滿足以太網(wǎng)協(xié)議的特定需求。但是,隨著時間的推移,為了滿足各種網(wǎng)絡(luò)場景的需求,以太網(wǎng)融入了非常廣泛而復(fù)雜的功能。
因此,開箱即用的傳統(tǒng)以太網(wǎng)并非專為高性能而設(shè)計。使用傳統(tǒng)以太網(wǎng)絡(luò)搭建的 AI 云只能實現(xiàn)部署了優(yōu)化過以太網(wǎng)絡(luò)的 AI 云所能實現(xiàn)的一小部分性能。
在多個 AI 作業(yè)同時運行的多租戶環(huán)境中,性能隔離對于防止性能降低至關(guān)重要。如果出現(xiàn)鏈路故障,傳統(tǒng)以太網(wǎng)可能會導(dǎo)致 AI 集群性能減半。這是因為傳統(tǒng)以太網(wǎng)主要針對日常企業(yè)工作流程進行了優(yōu)化,而不是為了滿足那些依賴于 NVIIDA Collective Communication Library(NCCL)的高性能 AI 應(yīng)用程序的需求而設(shè)計的。
這些性能問題是由傳統(tǒng)以太網(wǎng)的固有因素造成的,包括:
-
分立的交換機 Buffer 架構(gòu),這可能會導(dǎo)致帶寬不公平
-
負載均衡缺乏針對 AI 工作負載生成的大型流進行了二次優(yōu)化
-
缺乏性能隔離而導(dǎo)致相鄰噪聲問題嚴重
Spectrum-X 網(wǎng)絡(luò)平臺解決了這些問題以及更多其他問題。Spectrum–X 基于標(biāo)準以太網(wǎng)協(xié)議構(gòu)建,支持 RDMA over Converged Ethernet(RoCE)協(xié)議,可提高 AI 的性能。Spectrum-X 網(wǎng)絡(luò)平臺利用 InfiniBand 原生的最佳實踐,并為以太網(wǎng)帶來了自適應(yīng)路由和擁塞控制等創(chuàng)新。
Spectrum-X 是唯一一款能夠為多租戶生成式 AI 云提供高效帶寬和性能隔離的以太網(wǎng)平臺,這得益于 Spectrum-4 和 NVIDIA BlueField-3 DPU。
總結(jié)
AI 時代已然來臨,而網(wǎng)絡(luò)是其成功的基石。為了充分發(fā)揮 AI 的潛力,數(shù)據(jù)中心架構(gòu)師必須仔細考慮網(wǎng)絡(luò)設(shè)計,并根據(jù) AI 工作負載的獨特需求定制這些設(shè)計。解決網(wǎng)絡(luò)問題是釋放 AI 技術(shù)潛力和推動數(shù)據(jù)中心行業(yè)創(chuàng)新的關(guān)鍵。
NVIDIA Quantum InfiniBand 憑借超低延時、可擴展性能和先進的功能集,成為 AI 工廠的理想選擇。而 NVIDIA Spectrum-X 則憑借專為 AI 打造的技術(shù)創(chuàng)新,為構(gòu)建基于以太網(wǎng)的 AI 云的組織提供了突破性解決方案。
掃描下方二維碼,查看更多有關(guān)NVIDIA Spectrum-X 的信息。

掃描下方二維碼,查看更多有關(guān)NVIDIA Quantum-2 InfiniBand 的信息。

?更多精彩內(nèi)容 新的 MLPerf 推理網(wǎng)絡(luò)部分展現(xiàn) NVIDIA InfiniBand 網(wǎng)絡(luò)和 GPUDirect RDMA 的強大能力
借助 NVIDIA Spectrum 以太網(wǎng)最大限度地提高存儲網(wǎng)絡(luò)性能
使用 NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺加速生成式 AI 工作負載
原文標(biāo)題:適用于數(shù)據(jù)中心和 AI 時代的網(wǎng)絡(luò)
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
英偉達
+關(guān)注
關(guān)注
23文章
4090瀏覽量
99232
原文標(biāo)題:適用于數(shù)據(jù)中心和 AI 時代的網(wǎng)絡(luò)
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
1分鐘帶你了解數(shù)據(jù)中心供電架構(gòu) #電子元器件 #數(shù)據(jù)中心 #供電架構(gòu)
CPO技術(shù)加速未來數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展
華為星河AI高算效數(shù)據(jù)中心網(wǎng)絡(luò)亮相ODCC 2025
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級
華為面向拉美地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)方案
中型數(shù)據(jù)中心應(yīng)用平臺與差分晶體振蕩器參數(shù)對照中型數(shù)據(jù)中心應(yīng)用平臺與差分晶體振蕩器參數(shù)對照
中型數(shù)據(jù)中心中的差分晶體振蕩器應(yīng)用與匹配方案
小型數(shù)據(jù)中心晶振選型關(guān)鍵參數(shù)全解
華為面向亞太地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)方案
華為面向中東中亞地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)
是德科技推出用于大規(guī)模AI數(shù)據(jù)中心的系列解決方案
適用于數(shù)據(jù)中心和 AI 時代的網(wǎng)絡(luò)
評論