大語(yǔ)言模型(LLM)和人工智能應(yīng)用程序(如 ChatGPT 和 DALL-E)最近出現(xiàn)了快速增長(zhǎng)。由于 GPU、CPU、DPU、高速存儲(chǔ)和針對(duì)人工智能優(yōu)化的軟件創(chuàng)新,人工智能現(xiàn)在得到了廣泛使用。您甚至可以在云端或內(nèi)部部署人工智能。
然而,人工智能應(yīng)用程序可能會(huì)對(duì)網(wǎng)絡(luò)造成很大負(fù)擔(dān),這種增長(zhǎng)給 CPU 和 GPU 服務(wù)器以及將這些系統(tǒng)連接到一起的現(xiàn)有底層網(wǎng)絡(luò)基礎(chǔ)設(shè)施帶來了負(fù)擔(dān)。
傳統(tǒng)以太網(wǎng)雖然足以處理主流和企業(yè)應(yīng)用程序,如 Web、視頻或音頻流,但并未針對(duì)支持新一代人工智能工作負(fù)載進(jìn)行優(yōu)化。在松耦合應(yīng)用、低帶寬數(shù)據(jù)流和高抖動(dòng)的情況下,傳統(tǒng)以太網(wǎng)是理想的選擇。它可能足以滿足異構(gòu)流量(如 Web、視頻或音頻流、文件傳輸和游戲),但在發(fā)生超額訂閱時(shí)并不理想。
NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)是一種端到端解決方案,專為滿足人工智能應(yīng)用程序的性能需求而全新設(shè)計(jì),并針對(duì)高速網(wǎng)絡(luò)性能、低延遲和規(guī)模進(jìn)行了優(yōu)化。
NVIDIA Spectrum-X
NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)是為了解決傳統(tǒng)以太網(wǎng)網(wǎng)絡(luò)的局限性而開發(fā)的。它是一種網(wǎng)絡(luò)架構(gòu),旨在滿足要求苛刻的人工智能應(yīng)用程序的需求,用于實(shí)現(xiàn)緊耦合的過程。
這種經(jīng)過 NVIDIA 認(rèn)證和測(cè)試的端到端解決方案結(jié)合了一流的人工智能優(yōu)化網(wǎng)絡(luò)硬件和軟件,可提供人工智能工作負(fù)載所需的可預(yù)測(cè)的、一致的和毫不妥協(xié)的性能水平。

圖 1:NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)將 NVIDIA Spectrum-4 以太網(wǎng)交換機(jī)與 NVIDIA BlueField-3 DPU 相結(jié)合,為 AI 工作負(fù)載提供最佳性能
NVIDIA Spectrum-X 是一種高度通用的技術(shù),可用于各種人工智能應(yīng)用程序。具體而言,它可以在以下用例中顯著提高 AI 集群的性能和效率:
-
GPT 和 BERT 大型語(yǔ)言模型
-
分布式訓(xùn)練和并行處理
-
自然語(yǔ)言處理(NLP)
-
高性能模擬(NVIDIA Omniverse 和 NVIDIA OVX)
-
高性能數(shù)據(jù)分析(Spark)
-
推理應(yīng)用程序
NVIDIA Spectrum-X 平臺(tái)的兩個(gè)關(guān)鍵元素是NVIDIA Spectrum-4 以太網(wǎng)交換機(jī)和 NVIDIA BlueField-3 DPU。
NVIDIA Spectrum-4 以太網(wǎng)交換機(jī)
NVIDIA Spectrum-4 以太網(wǎng)交換機(jī)為基于標(biāo)準(zhǔn)的以太網(wǎng)構(gòu)建的 AI 集群提供了前所未有的應(yīng)用程序性能。要充分發(fā)揮 NVIDIA Spectrum-4 的潛力,需要端到端的、專門構(gòu)建的網(wǎng)絡(luò)架構(gòu)。只有 NVIDIA Spectrum-X 平臺(tái)才能提供支持超大規(guī)模人工智能所需的硬件加速器和卸載。
NVIDIA Spectrum-4 以太網(wǎng)交換機(jī)基于 51.2Tbps 的 Spectrum-4 ASIC 而構(gòu)建,帶寬是上一代產(chǎn)品的 4 倍。它是全球首款以太網(wǎng)人工智能交換平臺(tái)。它專為人工智能工作負(fù)載而設(shè)計(jì),將專用的高性能架構(gòu)與標(biāo)準(zhǔn)以太網(wǎng)連接相結(jié)合。
NVIDIA Spectrum-4 提供:
-
RoCE 擴(kuò)展:具有獨(dú)特增強(qiáng)功能的 RoCE
-
RoCE 自適應(yīng)路由
-
RoCE 性能隔離
-
簡(jiǎn)化、自動(dòng)化的自適應(yīng)路由和 RoCE 配置
-
同步集合
-
用于 HPC 增強(qiáng)的其他 RoCE 功能
-
大規(guī)模以太網(wǎng)上的最高有效帶寬
-
低延遲、低抖動(dòng)和短尾
-
確定性性能和性能隔離
-
全棧和端到端優(yōu)化
-
NVIDIA Cumulus Linux 或 SONiC
圖 2 : NVIDIA Spectrum-4 將專用的高性能架構(gòu)與標(biāo)準(zhǔn)以太網(wǎng)連接相結(jié)合
NVIDIA Spectrum-X 與 NVIDIA Spectrum-4 的主要優(yōu)勢(shì)包括:
-
將 RoCE 擴(kuò)展用于 AI 和自適應(yīng)路由(AR),以實(shí)現(xiàn) NVIDIA 集合通信庫(kù)(NCCL)的最大性能。
-
利用性能隔離來確保在多租戶和多作業(yè)環(huán)境中,一個(gè)作業(yè)不會(huì)影響另一個(gè)作業(yè)。
-
確保在出現(xiàn)網(wǎng)絡(luò)組件故障時(shí),網(wǎng)絡(luò)架構(gòu)能夠繼續(xù)提供最高性能。
-
與 BlueField-3 DPU 同步,實(shí)現(xiàn)最佳 NCCL 和 AI 性能。
-
在各種人工智能工作負(fù)載下保持一致和穩(wěn)定的性能,這對(duì)實(shí)現(xiàn) SLA 至關(guān)重要。
端到端最佳網(wǎng)絡(luò)性能
要構(gòu)建有效的人工智能計(jì)算網(wǎng)絡(luò)架構(gòu),需要優(yōu)化人工智能網(wǎng)絡(luò)的每一個(gè)部分,從 DPU 到交換機(jī)再到網(wǎng)絡(luò)軟件。使用 RoCE 自適應(yīng)路由和高級(jí)擁塞控制機(jī)制等技術(shù),在負(fù)載和規(guī)模需求下實(shí)現(xiàn)最高有效帶寬。結(jié)合在 NVIDIA BlueField-3 DPU 和 Spectrum-4 交換機(jī)上同步工作的功能對(duì)于實(shí)現(xiàn) AI 網(wǎng)絡(luò)架構(gòu)的最高性能和可靠性至關(guān)重要。
RoCE 自適應(yīng)路由
人工智能工作負(fù)載和應(yīng)用程序的特點(diǎn)是少量大象流負(fù)責(zé) GPU 之間的大量數(shù)據(jù)移動(dòng),其中尾部延遲嚴(yán)重影響整個(gè)應(yīng)用程序的性能。使用傳統(tǒng)的網(wǎng)絡(luò)路由機(jī)制來迎合這種流量模式可能會(huì)導(dǎo)致 AI 工作負(fù)載的 GPU 性能不一致且未得到充分利用。
RoCE 自適應(yīng)路由是一種細(xì)粒度的負(fù)載均衡技術(shù)。它動(dòng)態(tài)地重新路由 RDMA 數(shù)據(jù)以避免擁塞,并提供最佳負(fù)載均衡以實(shí)現(xiàn)最高的有效數(shù)據(jù)帶寬。
它是一種端到端功能,包括 Spectrum-4 交換機(jī)和 BlueField-3 DPU 。Spectrum-4 交換機(jī)負(fù)責(zé)為每個(gè)數(shù)據(jù)包選擇最不擁塞的端口進(jìn)行數(shù)據(jù)傳輸。由于同一流的不同數(shù)據(jù)包通過網(wǎng)絡(luò)的不同路徑來傳輸,它們可能會(huì)無序到達(dá)目的地。BlueField-3 在 RoCE 傳輸層轉(zhuǎn)換任何無序數(shù)據(jù),透明地將有序數(shù)據(jù)傳遞給應(yīng)用程序。
Spectrum-4 根據(jù)出口隊(duì)列負(fù)載評(píng)估擁塞,確保所有端口都很好地均衡。對(duì)于每個(gè)網(wǎng)絡(luò)數(shù)據(jù)包,交換機(jī)都會(huì)在其出口隊(duì)列中選擇負(fù)載最小的端口。Spectrum-4 還接收來自相鄰交換機(jī)的狀態(tài)通知,這會(huì)影響路由決策。所評(píng)估的隊(duì)列與服務(wù)質(zhì)量級(jí)別相匹配。
因此,NVIDIA Spectrum-X 能夠在超大規(guī)模系統(tǒng)的負(fù)載和規(guī)模下實(shí)現(xiàn)高達(dá) 95% 的有效帶寬。

圖 3 :NVIDIA Spectrum-4 典型數(shù)據(jù)中心部署結(jié)構(gòu)
RoCE 擁塞控制
由于網(wǎng)絡(luò)層面的擁塞,在超大規(guī)模云系統(tǒng)上并發(fā)運(yùn)行的應(yīng)用程序可能會(huì)出現(xiàn)性能下降和可重復(fù)運(yùn)行時(shí)間縮短的問題。這可能是由應(yīng)用程序本身的網(wǎng)絡(luò)流量或來自其他應(yīng)用程序的后臺(tái)網(wǎng)絡(luò)流量引起的。這種擁塞的主要原因被稱為多對(duì)一擁塞,即存在多個(gè)數(shù)據(jù)發(fā)送方和單一數(shù)據(jù)接收方。
這種擁塞不能使用自適應(yīng)路由來解決,并且實(shí)際上需要對(duì)每個(gè)端點(diǎn)的數(shù)據(jù)流進(jìn)行計(jì)量。擁塞控制是一種端到端的技術(shù),Spectrum-4 交換機(jī)提供代表實(shí)時(shí)擁塞數(shù)據(jù)的網(wǎng)絡(luò)遙測(cè)信息。這些遙測(cè)信息由 BlueField DPU 處理,后者管理和控制數(shù)據(jù)發(fā)送方的數(shù)據(jù)注入速率,從而實(shí)現(xiàn)網(wǎng)絡(luò)共享的最大效率。
如果沒有擁塞控制,多對(duì)一的場(chǎng)景將導(dǎo)致網(wǎng)絡(luò)背壓和擁塞擴(kuò)散,甚至出現(xiàn)丟包,從而極大地降低網(wǎng)絡(luò)和應(yīng)用程序的性能。
在擁塞控制過程中,BlueField-3 DPU 執(zhí)行擁塞控制算法。它們以微秒的反應(yīng)延遲每秒處理數(shù)百萬(wàn)個(gè)擁塞控制事件,并應(yīng)用細(xì)粒度的速率決策。
Spectrum-4 交換機(jī)帶內(nèi)遙測(cè)既包含用于準(zhǔn)確擁塞估計(jì)的排隊(duì)信息,也包含用于快速恢復(fù)的端口利用率指示。NVIDIA RoCE 擁塞控制通過使遙測(cè)數(shù)據(jù)繞過擁塞流排隊(duì)延遲,同時(shí)仍然提供準(zhǔn)確和并發(fā)的遙測(cè),從而顯著改善了擁塞發(fā)現(xiàn)和反應(yīng)時(shí)間。
RoCE 性能隔離
人工智能超大規(guī)模和云基礎(chǔ)設(shè)施需要支持越來越多的用戶(租戶)和并行應(yīng)用程序或工作流。這些用戶和應(yīng)用程序無意中競(jìng)爭(zhēng)基礎(chǔ)設(shè)施的共享資源(如網(wǎng)絡(luò)),因此可能會(huì)影響性能。
NVIDIA Spectrum-X 平臺(tái)包括一些機(jī)制,當(dāng)它們結(jié)合在一起時(shí),可以提供性能隔離。它確保一個(gè)工作負(fù)載不會(huì)影響另一個(gè)工作負(fù)荷的性能。這些機(jī)制確保任何工作負(fù)載都不會(huì)造成網(wǎng)絡(luò)擁塞,從而影響另一個(gè)工作負(fù)載的數(shù)據(jù)移動(dòng)。性能隔離機(jī)制包括服務(wù)質(zhì)量隔離、用于數(shù)據(jù)路徑擴(kuò)展的 RoCE 自適應(yīng)路由和 RoCE 擁塞控制。
NVIDIA Spectrum-X 平臺(tái)具有軟件和硬件的緊密集成功能,能夠更深入地了解人工智能工作負(fù)載和流量模式。這樣的基礎(chǔ)設(shè)施提供了使用專用以太網(wǎng) AI 集群進(jìn)行大型工作負(fù)載測(cè)試的能力。通過利用來自 Spectrum 以太網(wǎng)交換機(jī)和 BlueField-3 DPU 的遙測(cè)技術(shù),NVIDIA NetQ 可以主動(dòng)檢測(cè)網(wǎng)絡(luò)問題并更快地解決網(wǎng)絡(luò)問題,以優(yōu)化網(wǎng)絡(luò)容量的使用。
NVIDIA NetQ 網(wǎng)絡(luò)驗(yàn)證和 ASIC 監(jiān)控工具集提供了對(duì)網(wǎng)絡(luò)健康狀況和行為的可見性。NetQ 流遙測(cè)分析顯示了數(shù)據(jù)流在穿越網(wǎng)絡(luò)時(shí)所采用的路徑,從而提供網(wǎng)絡(luò)延遲和性能洞察。
提高能效
由于對(duì)計(jì)算資源的需求不斷增長(zhǎng)以及控制能源成本的需要,功率封頂已成為數(shù)據(jù)中心的一種常見做法。Spectrum-4 ASIC 和光學(xué)創(chuàng)新可簡(jiǎn)化網(wǎng)絡(luò)設(shè)計(jì),提高了每瓦的性能,實(shí)現(xiàn)了更高效率,并提供了更快的人工智能洞察,而不會(huì)超過網(wǎng)絡(luò)功率預(yù)算。
總結(jié)
NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)專為要求苛刻的人工智能應(yīng)用而設(shè)計(jì)。與傳統(tǒng)以太網(wǎng)相比,NVIDIA Spectrum-X 具有更高的性能、更低的功耗、更低的 TCO、全棧軟硬件集成和大規(guī)模,它是運(yùn)行現(xiàn)有和未來人工智能工作負(fù)載的理想平臺(tái)。
觀看下方視頻
了解更多關(guān)于 NVIDIA Spectrum-X 的信息!
掃描下方二維碼,查看更多有關(guān) NVIDIA Spectrum-X 的信息。

?更多精彩內(nèi)容 COMPUTEX2023 | NVIDIA 推出面向超大規(guī)模生成式 AI 的加速以太網(wǎng)平臺(tái)
原文標(biāo)題:使用 NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)加速生成式 AI 工作負(fù)載
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
23文章
4091瀏覽量
99273
原文標(biāo)題:使用 NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)加速生成式 AI 工作負(fù)載
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
生命科學(xué)領(lǐng)先企業(yè)采用 NVIDIA BioNeMo 平臺(tái)加速 AI 驅(qū)動(dòng)的藥物研發(fā)
NVIDIA DGX SuperPOD為Rubin平臺(tái)橫向擴(kuò)展提供藍(lán)圖
NVIDIA Spectrum-X以太網(wǎng)硅光技術(shù)助力AI工廠網(wǎng)絡(luò)創(chuàng)新
NVIDIA擴(kuò)大與微軟合作推動(dòng)AI超級(jí)工廠建設(shè)
利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)
通過NVIDIA Jetson AGX Thor實(shí)現(xiàn)7倍生成式AI性能
NVIDIA Spectrum-X 以太網(wǎng)交換機(jī)助力 Meta 和 Oracle 加速網(wǎng)絡(luò)性能
NVIDIA在Hot Chips 2025大會(huì)展示創(chuàng)新技術(shù)
NVIDIA推出Spectrum-XGS以太網(wǎng)技術(shù)
使用NVIDIA Earth-2生成式AI基礎(chǔ)模型革新氣候建模
英偉達(dá)GTC2025亮點(diǎn):Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理
英偉達(dá)GTC2025亮點(diǎn):NVIDIA與行業(yè)領(lǐng)先存儲(chǔ)企業(yè)共同推出面向AI時(shí)代的新型企業(yè)基礎(chǔ)設(shè)施
NVIDIA推出全新硅光網(wǎng)絡(luò)交換機(jī)
Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理
NVIDIA 與行業(yè)領(lǐng)先的存儲(chǔ)企業(yè)共同推出面向 AI 時(shí)代的新型企業(yè)基礎(chǔ)設(shè)施
使用 NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)加速生成式 AI 工作負(fù)載
評(píng)論