91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

盤(pán)點(diǎn)一下史上最全大語(yǔ)言模型訓(xùn)練中的網(wǎng)絡(luò)技術(shù)

SDNLAB ? 來(lái)源:SDNLAB ? 2024-03-27 17:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1.引言

人工智能的基礎(chǔ)設(shè)施在大語(yǔ)言模型訓(xùn)練和推理過(guò)程中發(fā)揮了關(guān)鍵的作用。隨著大語(yǔ)言模型規(guī)模不斷增大,其對(duì)計(jì)算和通信的需求也在不斷增加。高性能網(wǎng)絡(luò)是人工智能基礎(chǔ)設(shè)施的重要組成部分,引起了業(yè)界的廣泛關(guān)注。

大語(yǔ)言模型(Large Language Model)的擴(kuò)展定律[40]和涌現(xiàn)能力[9]驅(qū)動(dòng)大語(yǔ)言模型參數(shù)數(shù)量的持續(xù)增大,目前大語(yǔ)言模型的參數(shù)規(guī)模已經(jīng)擴(kuò)展到萬(wàn)億級(jí)別,如此巨大的訓(xùn)練任務(wù)遠(yuǎn)超單個(gè)服務(wù)器的計(jì)算和存儲(chǔ)能力,需要通過(guò)構(gòu)建包含大量服務(wù)器的高性能計(jì)算集群來(lái)共同完成這些任務(wù)。這些服務(wù)器節(jié)點(diǎn)之間通過(guò)高性能網(wǎng)絡(luò)互聯(lián),將工作負(fù)載分布在多個(gè)節(jié)點(diǎn)上加速訓(xùn)練過(guò)程。因此,網(wǎng)絡(luò)性能直接決定了這些服務(wù)器節(jié)點(diǎn)間的通信效率[31,32],進(jìn)而影響整個(gè)計(jì)算集群的吞吐量和性能。并且隨著模型規(guī)模持續(xù)擴(kuò)大,其帶來(lái)的分布式訓(xùn)練規(guī)模和通信量將會(huì)井噴式增長(zhǎng)。

綜合目前業(yè)界的應(yīng)用以及當(dāng)前的技術(shù)現(xiàn)狀,大語(yǔ)言模型的訓(xùn)練網(wǎng)絡(luò)主要面臨著以下重大挑戰(zhàn):

大規(guī)模并行擴(kuò)展

大語(yǔ)言模型的訓(xùn)練需要在數(shù)千甚至數(shù)萬(wàn)個(gè)GPU上進(jìn)行并行訓(xùn)練,這給網(wǎng)絡(luò)組網(wǎng)帶來(lái)了巨大的挑戰(zhàn),需要設(shè)計(jì)高效的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和路由算法。

高通量和低延遲

大語(yǔ)言模型訓(xùn)練過(guò)程中,不同的GPU之間需要交換大量的數(shù)據(jù)[23,24]。這可能會(huì)導(dǎo)致通信瓶頸[31,32],進(jìn)而影響訓(xùn)練的效率。尤其是對(duì)于大語(yǔ)言模型訓(xùn)練任務(wù)而言,整體訓(xùn)練進(jìn)度的完成往往取決于最后一條消息的到達(dá)時(shí)間,這使得網(wǎng)絡(luò)尾延遲指標(biāo)的重要性大大提高。

高昂的網(wǎng)絡(luò)成本

大語(yǔ)言模型訓(xùn)練網(wǎng)絡(luò)的建設(shè)和維護(hù)成本非常高昂,需要探索新的方法來(lái)降低成本,使LLM訓(xùn)練網(wǎng)絡(luò)更加經(jīng)濟(jì)。傳統(tǒng)上分布式訓(xùn)練系統(tǒng)網(wǎng)絡(luò)相關(guān)的成本[25]只占到整個(gè)基礎(chǔ)設(shè)施成本的10%左右,而大語(yǔ)言模型的網(wǎng)絡(luò)成本占比已經(jīng)提高到總成本的20%。

高可靠和高可用

大語(yǔ)言模型的訓(xùn)練周期比較長(zhǎng),計(jì)算節(jié)點(diǎn)和網(wǎng)絡(luò)故障都會(huì)導(dǎo)致整個(gè)訓(xùn)練過(guò)程的重啟,進(jìn)而導(dǎo)致整個(gè)訓(xùn)練周期的延長(zhǎng),因此大語(yǔ)言模型的訓(xùn)練對(duì)網(wǎng)絡(luò)的可靠性和可用性有著更高的要求。據(jù)統(tǒng)計(jì),在某個(gè)千億大模型的訓(xùn)練總時(shí)長(zhǎng)中[11],真正用于模型訓(xùn)練的時(shí)間只有50%,其他時(shí)間都用于處理故障以及進(jìn)行斷點(diǎn)恢復(fù)。

本文進(jìn)一步研究和探討網(wǎng)絡(luò)技術(shù)在大語(yǔ)言模型訓(xùn)練中的應(yīng)用。首先闡述了同構(gòu)和異構(gòu)網(wǎng)絡(luò)的特點(diǎn)與優(yōu)勢(shì),然后針對(duì)網(wǎng)絡(luò)的關(guān)鍵技術(shù)點(diǎn),綜述互聯(lián)協(xié)議、網(wǎng)絡(luò)拓?fù)?、擁塞控制等技術(shù)在大語(yǔ)言模型訓(xùn)練中的研究進(jìn)展和成果。隨之介紹了業(yè)界知名的大語(yǔ)言模型訓(xùn)練網(wǎng)絡(luò),并討論了大語(yǔ)言模型訓(xùn)練網(wǎng)絡(luò)的未來(lái)發(fā)展趨勢(shì)。

2.訓(xùn)練網(wǎng)絡(luò)分類(lèi)

大語(yǔ)言模型訓(xùn)練網(wǎng)絡(luò)有很多種分類(lèi)方法,比如英偉達(dá)根據(jù)訓(xùn)練網(wǎng)絡(luò)的規(guī)模、支持的業(yè)務(wù)類(lèi)型和用戶數(shù)量等維度,將網(wǎng)絡(luò)分為AI factory和AI cloud兩種類(lèi)型。

本文從網(wǎng)絡(luò)技術(shù)類(lèi)型角度將訓(xùn)練網(wǎng)絡(luò)分為同構(gòu)網(wǎng)絡(luò)和異構(gòu)網(wǎng)絡(luò)兩種:

一、同構(gòu)網(wǎng)絡(luò)以Google TPU為代表,通過(guò)使用ICI互聯(lián)協(xié)議,采用3D的環(huán)形網(wǎng)格網(wǎng)絡(luò)構(gòu)建TPU集群;

二、異構(gòu)網(wǎng)絡(luò)以英偉達(dá) GPU訓(xùn)練服務(wù)器為代表,網(wǎng)絡(luò)整體是由兩個(gè)子網(wǎng)絡(luò)組成,第一個(gè)子網(wǎng)絡(luò)(使用NVLINK或者其他自研的高速總線)用于服務(wù)器內(nèi)部的加速器之間的互聯(lián),另一個(gè)子網(wǎng)絡(luò)(使用以太網(wǎng)、RoCE或者IB)用于服務(wù)器之間的高速互聯(lián)。

2.1.同構(gòu)網(wǎng)絡(luò)

業(yè)界知名的同構(gòu)網(wǎng)絡(luò)類(lèi)型,其中之一就是Google TPU使用的自定義網(wǎng)絡(luò),另外一個(gè)就是Intel的Gaudi2 全RoCE互聯(lián)方案。

8c7742ee-ec1b-11ee-a297-92fbcf53809c.png

圖1 Google TPUV4 組網(wǎng)拓?fù)?/p>

Google TPUV4[3]使用自定義網(wǎng)絡(luò)協(xié)議ICI進(jìn)行高速互聯(lián),ICI網(wǎng)絡(luò)是TPU集群專(zhuān)用網(wǎng)絡(luò),在ICI網(wǎng)絡(luò)內(nèi)部由64顆TPU和16顆CPU組成一組(即稱為一個(gè)TPU Slice),通過(guò)直連的銅質(zhì)電纜連接在4*4*4的三維 Cube里面,而在這個(gè)ICI網(wǎng)絡(luò)之外就是OCS光學(xué)背板互連。Google SuperPod在AI工作負(fù)載方面具有性能和總擁有成本的優(yōu)勢(shì),這得益于TPU從微架構(gòu)到系統(tǒng)架構(gòu)的整體設(shè)計(jì),旨在協(xié)同特定模型和算法,以充分發(fā)揮出極致的并行性能和擴(kuò)縮效益。

8c85c594-ec1b-11ee-a297-92fbcf53809c.png

圖2 Intel Gaudi組網(wǎng)示意圖

Intel的Gaudi處理器[12,15]突破傳統(tǒng),采用了獨(dú)特的設(shè)計(jì)策略。不同于使用高性能總線進(jìn)行節(jié)點(diǎn)內(nèi)部互聯(lián),Gaudi直接在處理器內(nèi)部集成了RoCE接口。例如,Gaudi2內(nèi)部整合了21個(gè)100G RoCE接口。在HLS-1(類(lèi)似于英偉達(dá)的DGX服務(wù)器)中,支持8塊Gaudi加速卡,每塊卡利用7個(gè)100G RoCE接口實(shí)現(xiàn)了八塊卡之間的全連接(all to all)互聯(lián)。此外,另外的14個(gè)100G RoCE接口用于實(shí)現(xiàn)HLS-1服務(wù)器之間的互聯(lián)。

2.2.異構(gòu)網(wǎng)絡(luò)

以NVIDIA為代表的異構(gòu)網(wǎng)絡(luò)組網(wǎng)模式,保證了系統(tǒng)的整體性能并降低系統(tǒng)組網(wǎng)成本。H100的GPU服務(wù)器[30]由8個(gè)搭載ConnectX-7 NIC的GPU組成,這些GPU可以通過(guò)連接到NVSwitch的高速NVLink互相通信,各個(gè)GPU通過(guò)每個(gè)方向上3600Gbps的NVLink連接到一組NVSwitch。服務(wù)器內(nèi)的8個(gè)GPU可以通過(guò)其 400Gbps的ConnectX-7 NIC連接到外部交換機(jī)

8c9dec96-ec1b-11ee-a297-92fbcf53809c.png

圖3 Nvidia DGX H100服務(wù)器

3.關(guān)鍵技術(shù)點(diǎn)

3.1.互聯(lián)協(xié)議

大語(yǔ)言模型網(wǎng)絡(luò)的互聯(lián)技術(shù)通常分為兩類(lèi),一類(lèi)稱為總線互聯(lián)協(xié)議(典型總線包括NVLink、PCIE、CCIX、CXL等),用于加速芯片之間短距離、小規(guī)模和高通量互聯(lián);另一類(lèi)稱為網(wǎng)絡(luò)互聯(lián)協(xié)議(典型網(wǎng)絡(luò)互聯(lián)技術(shù)包括RoCE、iWARP、infiniband等),用于服務(wù)器集群之間進(jìn)行長(zhǎng)距離、大規(guī)模的數(shù)據(jù)通信。

隨著總線和網(wǎng)絡(luò)技術(shù)的發(fā)展,這兩類(lèi)技術(shù)已經(jīng)出現(xiàn)了逐漸融合的趨勢(shì),比如英偉達(dá)NVLink4.0已經(jīng)可以支持256個(gè)GPU的互聯(lián),CXL在其規(guī)范中也提到將來(lái)支持機(jī)架間的互聯(lián)。

表1:互聯(lián)協(xié)議對(duì)比

8caec44e-ec1b-11ee-a297-92fbcf53809c.png

3.1.1.總線互聯(lián)協(xié)議

常見(jiàn)的總線互聯(lián)協(xié)議包括英偉達(dá)的NVLink[14]、AMD的infinity fabric[63]、PCI-SIG組織發(fā)布的PCIE[64]和CXL聯(lián)盟推出的開(kāi)放式互聯(lián)新標(biāo)準(zhǔn)CXL[62]。英偉達(dá)的NVLink是目前大模型訓(xùn)練網(wǎng)絡(luò)中最具代表性的總線互聯(lián)協(xié)議,本章將以其為主線進(jìn)行介紹。

NVLink于2014年3月的NVIDIA GTC 2014上發(fā)布,2016發(fā)布的P100是搭載NVLink的第一款產(chǎn)品,單個(gè)GPU具有160GB/s的帶寬,相當(dāng)于PCIe Gen3 * 16帶寬的5倍。GTC 2017上發(fā)布的V100搭載的NVLink 2.0將GPU帶寬提升到了300GB/s,大約是PCIe的10倍,到了最新一代H100支持NVLink4.0,雙向帶寬更是提升到了900GB/s。

8cc28e8e-ec1b-11ee-a297-92fbcf53809c.png

圖4 Nvidia NVLink路標(biāo)

通過(guò)分析現(xiàn)有與NVLink協(xié)議相關(guān)的技術(shù)論文[6],可以得到以下結(jié)論:

1、在底層鏈路延遲方面(NVLink2.0 VS PCIE 3.0),NVLink只有PCIE延遲的55%;

2 、系統(tǒng)的延遲不僅取決于底層鏈路延遲,還與軟硬件的整體配合關(guān)系巨大。在reduce場(chǎng)景下,NVLink延遲意外高于PCIE協(xié)議(18us VS 14us),但是在Broadcast、reduce_scatter、all_gather場(chǎng)景下延遲更低,且不同通訊模式下NVLink延遲表現(xiàn)非常穩(wěn)定。

用于連接 GPU 服務(wù)器中的 8 個(gè) GPU 的 NVLink 交換機(jī)也可以用于構(gòu)建連接 GPU 服務(wù)器之間的交換網(wǎng)絡(luò)。Nvidia 在 2022 年的 Hot Chips 大會(huì)上展示了使用 NVswitch 架構(gòu)連接 32 個(gè)節(jié)點(diǎn)(或 256 個(gè) GPU)的拓?fù)浣Y(jié)構(gòu)。由于 NVLink 是專(zhuān)門(mén)設(shè)計(jì)為連接 GPU 的高速點(diǎn)對(duì)點(diǎn)鏈路,所以它具有比傳統(tǒng)網(wǎng)絡(luò)更高的性能和更低的開(kāi)銷(xiāo)。

表2:總線協(xié)議對(duì)比

8ccc668e-ec1b-11ee-a297-92fbcf53809c.png

3.1.2.網(wǎng)絡(luò)互聯(lián)協(xié)議

表3:InfiniBand與RoCEv2技術(shù)特性對(duì)比

8ce2d392-ec1b-11ee-a297-92fbcf53809c.png

自1999年問(wèn)世以來(lái),InfiniBand(簡(jiǎn)稱IB)[29,34,35]一直被視為高性能互聯(lián)的替代技術(shù),在服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)基礎(chǔ)設(shè)施中得到廣泛應(yīng)用。由于其高速率、低延遲和零包丟失的特點(diǎn),IB長(zhǎng)期在高性能計(jì)算、AI集群和數(shù)據(jù)中心領(lǐng)域處于應(yīng)用的前沿地位。

IB協(xié)議秉持簡(jiǎn)單高效設(shè)計(jì)理念,同時(shí)支持多種通信模式,通過(guò)基于信用的流量控制實(shí)現(xiàn)設(shè)備間的零丟包傳輸目標(biāo)。IB交換機(jī)全面支持遠(yuǎn)程直接內(nèi)存訪問(wèn)(RDMA),從而實(shí)現(xiàn)GPU間的直接內(nèi)存互聯(lián)。然而,在架構(gòu)和擴(kuò)展能力方面,IB存在一定局限性。

相比之下,以太網(wǎng)應(yīng)用范圍更廣,通過(guò)優(yōu)先級(jí)流量控制(PFC)等機(jī)制實(shí)現(xiàn)零丟包傳輸,并通過(guò)RoCEv2[26,27,28,33]實(shí)現(xiàn)了RDMA封裝傳輸。隨著技術(shù)的進(jìn)步,以太網(wǎng)在大規(guī)模AI集群中替代IB的程度不斷增加。代表性的擁塞控制方案如DCQCN、HPCC等已得到廣泛應(yīng)用,部分云服務(wù)商已經(jīng)使用了規(guī)模超過(guò)32KGPU的以太網(wǎng)架構(gòu)。

2023年7月,由英特爾、AMD、惠普企業(yè)、Arista、Broadcom、思科、Meta和微軟等長(zhǎng)期深度參與HPC和網(wǎng)絡(luò)領(lǐng)域的公司牽頭,共同宣布成立超以太網(wǎng)聯(lián)盟(Ultra Ethernet Consortium)。該聯(lián)盟的目標(biāo)是創(chuàng)建一個(gè)“基于以太網(wǎng)的完整通信堆棧架構(gòu)”,使其像以太網(wǎng)一樣具有普及性和成本效益,同時(shí)提供超級(jí)計(jì)算互連所需的性能。聯(lián)盟明確了以下理想特性:靈活的傳輸順序、現(xiàn)代的擁塞控制機(jī)制、多路徑和分組噴射,以及更大的可擴(kuò)展性和端到端遙測(cè)。

中國(guó)移動(dòng)聯(lián)合合作伙伴共同推出了全調(diào)度以太網(wǎng)(GSE)[42]。全調(diào)度以太網(wǎng)是具備無(wú)阻塞、高吞吐、低時(shí)延的新型以太網(wǎng)架構(gòu)。全調(diào)度以太網(wǎng)架構(gòu)自上而下分為三層,分別為控制層、網(wǎng)絡(luò)層和計(jì)算層,引入一種全新的動(dòng)態(tài)全局隊(duì)列調(diào)度機(jī)制。動(dòng)態(tài)全局調(diào)度隊(duì)列(DGSQ)按需、動(dòng)態(tài)基于數(shù)據(jù)流目標(biāo)設(shè)備端口創(chuàng)建,為了節(jié)省隊(duì)列資源數(shù)量,甚至可以基于目標(biāo)或途經(jīng)設(shè)備的擁塞反饋按需創(chuàng)建?;?DGSQ 的調(diào)度可實(shí)現(xiàn)在整個(gè)網(wǎng)絡(luò)層面的高吞吐、低時(shí)延、均衡調(diào)度。

總體來(lái)看,隨著RoCEv2等技術(shù)的成熟[27]、全調(diào)度以太網(wǎng)[42]以及超以太網(wǎng)聯(lián)盟[36]的成立,以太網(wǎng)在AI集群互聯(lián)場(chǎng)景中的地位不斷提升,多種網(wǎng)絡(luò)互連技術(shù)在持續(xù)進(jìn)化中共同推動(dòng)著計(jì)算互聯(lián)的發(fā)展。

3.2.網(wǎng)絡(luò)拓?fù)?/strong>

大語(yǔ)言模型訓(xùn)練網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)拓?fù)涞囊?guī)模、擴(kuò)展性、網(wǎng)絡(luò)直徑、可靠性、功耗和成本提出了更高的要求,比如訓(xùn)練網(wǎng)絡(luò)的擴(kuò)大需要設(shè)計(jì)更小的網(wǎng)絡(luò)直徑來(lái)降低網(wǎng)絡(luò)延遲,具體拓?fù)溥x擇上也需要考慮組網(wǎng)需要的路由器、線纜帶來(lái)的互聯(lián)成本,網(wǎng)絡(luò)拓?fù)湫枰哂凶銐虻臄U(kuò)展性以支持后續(xù)規(guī)模的動(dòng)態(tài)擴(kuò)容等等。

在高性能計(jì)算的發(fā)展中,Torus無(wú)疑占據(jù)了比較重要的位置,比如cray的T3D、T3E均采用了3D Torus的結(jié)構(gòu)。隨著硬件條件的成熟,高維的Torus結(jié)構(gòu)也已經(jīng)被很多主流的高性能計(jì)算系統(tǒng)采用,最典型的就是fujisu公司推出的K computer采用的6D Torus結(jié)構(gòu)。

胖樹(shù)結(jié)構(gòu)[20]是目前在大語(yǔ)言模型訓(xùn)練網(wǎng)絡(luò)中常見(jiàn)的拓?fù)浣Y(jié)構(gòu),胖樹(shù)是一個(gè)靈活性和擴(kuò)展性都比較好的拓?fù)浣Y(jié)構(gòu),隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,其二分帶寬也會(huì)隨著等規(guī)模增加。

8cfef18a-ec1b-11ee-a297-92fbcf53809c.png

圖5 胖樹(shù)拓?fù)鋱D

相比于Torus結(jié)構(gòu),胖樹(shù)網(wǎng)絡(luò)路由算法更容易實(shí)現(xiàn),有更低的網(wǎng)絡(luò)直徑,網(wǎng)絡(luò)性能相對(duì)出色。但是胖樹(shù)網(wǎng)絡(luò)在擴(kuò)展至更大規(guī)模網(wǎng)絡(luò)時(shí)需要增加網(wǎng)絡(luò)層數(shù),從而導(dǎo)致鏈路數(shù)隨之指數(shù)增長(zhǎng),會(huì)大大增加網(wǎng)絡(luò)成本。

Dragonfly是由John Kim等人在2008年的論文[5]中提出,它的特點(diǎn)是網(wǎng)絡(luò)直徑小、成本較低,對(duì)于高性能計(jì)算有著非常大的優(yōu)勢(shì)?,F(xiàn)在已經(jīng)被運(yùn)用在使用Cray XC系列網(wǎng)絡(luò)的各種超算中。

8d155ff6-ec1b-11ee-a297-92fbcf53809c.jpg

圖6 DragonFly拓?fù)鋱D

Dragonfly網(wǎng)絡(luò)雖然在成本、降低交換芯片連接端口數(shù)量等方面有一定優(yōu)勢(shì),但是面對(duì)整體網(wǎng)絡(luò)計(jì)算節(jié)點(diǎn)的增多,Dragonfly、Dragonfly+等網(wǎng)絡(luò)結(jié)構(gòu)依然要面臨網(wǎng)絡(luò)連線較為復(fù)雜,網(wǎng)絡(luò)總體設(shè)計(jì)成本仍然偏高以及整體網(wǎng)絡(luò)所需的全局光纖數(shù)偏高等挑戰(zhàn)。

除了上述拓?fù)浣Y(jié)構(gòu),騰訊的星脈網(wǎng)絡(luò)[58]、MIT和META的rail-only[8]等還提出了定制化拓?fù)浣Y(jié)構(gòu),這些拓?fù)浣Y(jié)構(gòu)專(zhuān)門(mén)針對(duì)大語(yǔ)言模型的通信需求進(jìn)行設(shè)計(jì),旨在提升性能的同時(shí)顯著降低成本。

3.3.擁塞控制

大語(yǔ)言模型訓(xùn)練作為典型的大規(guī)模數(shù)據(jù)密集型應(yīng)用場(chǎng)景,為了應(yīng)對(duì)不斷增長(zhǎng)的高吞吐量和超低延遲需求,優(yōu)秀的擁塞控制算法成為必要的配置。

現(xiàn)有的擁塞控制算法可以根據(jù)擁塞控制驅(qū)動(dòng)點(diǎn)的位置,即發(fā)送端、交換機(jī)或接收端進(jìn)行分類(lèi)。發(fā)送端驅(qū)動(dòng)的方法中發(fā)送端利用在ACK數(shù)據(jù)包中攜帶的信息判定擁塞并觸發(fā)控制動(dòng)作,如DCTCP[47]、DCQCN[49]、TIMELY[48]和HPCC[50]。DCTCP[47]是數(shù)據(jù)中心網(wǎng)絡(luò)的第一個(gè)擁塞控制算法,它利用ECN標(biāo)記在往返時(shí)間內(nèi)調(diào)整速率。DCQCN[49]與DCTCP類(lèi)似,但更準(zhǔn)確地結(jié)合了ECN信息。TIMELY[48]則基于RTT進(jìn)行控制。HPCC[50]利用每一跳帶內(nèi)網(wǎng)絡(luò)遙測(cè)(INT)來(lái)調(diào)整速率和發(fā)送窗口。此類(lèi)方法較為成熟部署也最為廣泛,但它們往往受到長(zhǎng)反饋延時(shí)的影響,難以有效應(yīng)對(duì)瞬時(shí)突發(fā)流量。此外,在這方向上近些年一些基于強(qiáng)化學(xué)習(xí)的擁塞控制算法也不斷出現(xiàn),如RL-CC[51]、DeepCC[52]和Pareto[53]等。

交換機(jī)側(cè)控制的方法是在交換機(jī)上監(jiān)控流量生成顯式反饋控制報(bào)文來(lái)減少控制環(huán)路的延遲。RoCC[56]基于交換機(jī)上的隊(duì)列長(zhǎng)度,通過(guò)PI(Proportional Integral)算法實(shí)現(xiàn)控制。PACC[54]則以動(dòng)態(tài)間隔監(jiān)測(cè)隊(duì)列長(zhǎng)度,區(qū)分突發(fā)流量和擁塞,并直接從交換機(jī)生成通知。此類(lèi)方法較為精確但是又往往依賴于特殊的交換機(jī),限制了部署的范圍。

接收端驅(qū)動(dòng)的方法在接收端檢測(cè)擁塞狀況并產(chǎn)生驅(qū)動(dòng)報(bào)文以調(diào)節(jié)流量。例如RCC [55]結(jié)合了顯式窗口分配和迭代窗口調(diào)整并在接收端實(shí)現(xiàn)控制。

3.4.運(yùn)維技術(shù)

大語(yǔ)言模型訓(xùn)練網(wǎng)絡(luò)不同于傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡(luò),具有訓(xùn)練周期長(zhǎng),中斷次數(shù)多特點(diǎn),其特殊的流量特點(diǎn)要求網(wǎng)絡(luò)運(yùn)維有更高精度的流量采集能力、更精細(xì)化的流量統(tǒng)計(jì)能力以及更全面的對(duì)流控相關(guān)指標(biāo)的采集和統(tǒng)計(jì)能力。只有具備上述能力才能更好使用整個(gè)訓(xùn)練網(wǎng)絡(luò),快速的發(fā)現(xiàn)和定位問(wèn)題。

《智算中心網(wǎng)絡(luò)架構(gòu)白皮書(shū)》[10]中認(rèn)為運(yùn)維技術(shù)的關(guān)鍵技術(shù)包括:1)可視化網(wǎng)管系統(tǒng),實(shí)現(xiàn)對(duì)整個(gè)集群網(wǎng)絡(luò)和節(jié)點(diǎn)內(nèi)部網(wǎng)絡(luò)的可視化;2)高精度流量采集,利用交換設(shè)備上telemetry功能,具備秒級(jí)流量統(tǒng)計(jì)、按需訂閱和高性能的特點(diǎn);3)數(shù)據(jù)可視化展示,通過(guò)telemetry采集各項(xiàng)指標(biāo),用戶選擇性的進(jìn)行前端展示;4)智能化運(yùn)維,實(shí)現(xiàn)自動(dòng)故障分析、定位和修復(fù)。

《星河AI網(wǎng)絡(luò)白皮書(shū)》[11]中首次提出了三層兩維可視化運(yùn)維方案,三層主要是指覆蓋基礎(chǔ)網(wǎng)絡(luò)運(yùn)維、RoCE無(wú)損網(wǎng)絡(luò)通用場(chǎng)景運(yùn)維和AI網(wǎng)絡(luò)特有場(chǎng)景運(yùn)維。兩維主要指從監(jiān)控和排障兩個(gè)維度,針對(duì)三層場(chǎng)景,提供運(yùn)維和能力手段。

3.5.在網(wǎng)計(jì)算

在網(wǎng)計(jì)算功能使得網(wǎng)絡(luò)內(nèi)部的硬件計(jì)算引擎能夠在網(wǎng)絡(luò)通信的過(guò)程中卸載復(fù)雜操作。在網(wǎng)計(jì)算通過(guò)網(wǎng)絡(luò)的交換和端側(cè)設(shè)備共同配合的形式得以實(shí)現(xiàn)。作為一種內(nèi)部網(wǎng)絡(luò)基于樹(shù)狀聚合的機(jī)制,在網(wǎng)計(jì)算可以支持多個(gè)同時(shí)的集合操作。交換機(jī)被標(biāo)識(shí)為聚合節(jié)點(diǎn),將執(zhí)行這樣的數(shù)據(jù)reduce操作。以典型allreduce算子為例,傳統(tǒng)的通信交互復(fù)雜度為O(logN)(N代表網(wǎng)絡(luò)節(jié)點(diǎn)規(guī)模),啟動(dòng)在網(wǎng)計(jì)算功能后其交互復(fù)雜度變?yōu)镺(C)(C代表網(wǎng)絡(luò)層級(jí)),與網(wǎng)絡(luò)節(jié)點(diǎn)規(guī)模無(wú)關(guān),極大減少了計(jì)算節(jié)點(diǎn)之間的通信交互過(guò)程,降低了網(wǎng)絡(luò)時(shí)延,提升了計(jì)算效率。

在AI訓(xùn)練網(wǎng)絡(luò)中最知名的在網(wǎng)計(jì)算技術(shù)就是英偉達(dá)的SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)[17, 18],目前在其infiniband交換機(jī)和nvswitch都已經(jīng)支持。Intel在2018年提出了switchML[19],該系統(tǒng)在其Tofino專(zhuān)用芯片(ASIC)的可編程交換機(jī)上實(shí)現(xiàn)了AllReduce操作,充分利用了交換機(jī)的編程能力。

華為公司NetReduce[22]基于RoCEV2,使用 FPGA 來(lái)實(shí)現(xiàn)了交換機(jī),實(shí)現(xiàn)了數(shù)據(jù)中心中各粒度的 AllReduce 聚合。此外,論文Flare[21]實(shí)現(xiàn)了更靈活的架構(gòu),基于開(kāi)源指令集處理器 RISC-V,使用 sPIN 編程模型設(shè)計(jì)了一個(gè)交換機(jī)支持allreduce計(jì)算。

3.6.鏈路負(fù)載均衡

在大語(yǔ)言模型的推理和訓(xùn)練應(yīng)用中,GPU 或其他類(lèi)型的計(jì)算單元的通訊模式通常包括較少的數(shù)據(jù)流和巨大的每數(shù)據(jù)流吞吐量,這就極易導(dǎo)致負(fù)載不均衡情況的出現(xiàn)。這種不均衡極可能惡化網(wǎng)絡(luò)通訊狀況同時(shí)帶來(lái)帶寬資源的浪費(fèi)。為了解決這個(gè)問(wèn)題,不同的負(fù)載均衡(Load balance)方法被提出,在ECMP[37]中數(shù)據(jù)包使用靜態(tài)哈希分布到等效的多路徑上,該方法以流為傳輸單元。對(duì)于CONGA[38] 和LetFlow [41] , 流片(flowlet)作為傳輸單元,CONGA根據(jù)端到端路徑條件的全局信息的實(shí)時(shí)狀態(tài)選擇流量最佳的下一跳。Letflow根據(jù)預(yù)定時(shí)間間隔對(duì)數(shù)據(jù)包集群進(jìn)行分類(lèi),并隨機(jī)選擇每個(gè)集群的轉(zhuǎn)發(fā)端口。DRILL [39] 通過(guò)采用隨機(jī)策略與工作負(fù)載結(jié)合的機(jī)制選擇轉(zhuǎn)發(fā)端口,Hermes[40] 將流量傳輸劃分,根據(jù)路徑和流的狀態(tài)決定是在流水平重新路由短流還是在數(shù)據(jù)包水平重新路由長(zhǎng)流。

3.7.高性能通信庫(kù)

在大語(yǔ)言模型訓(xùn)練和推理網(wǎng)絡(luò)中,高性能通信庫(kù)扮演著關(guān)鍵的角色,它們負(fù)責(zé)優(yōu)化數(shù)據(jù)傳輸和通信,加速AI工作負(fù)載,提高整體性能。常見(jiàn)的高性能通信庫(kù)包括:

NCCL(NVIDIA Collective Communications Library)[43],它由NVIDIA開(kāi)發(fā),專(zhuān)為GPU集群通信而設(shè)計(jì)。針對(duì)NVIDIA GPU進(jìn)行了優(yōu)化,支持高效的點(diǎn)對(duì)點(diǎn)和集體通信操作,適用于深度學(xué)習(xí)框架如TensorFlow和PyTorch。

OpenMPI[44]:一個(gè)開(kāi)源的消息傳遞接口(MPI)實(shí)現(xiàn),用于并行計(jì)算。適用于多種硬件和網(wǎng)絡(luò)拓?fù)?,支持各種通信模式,廣泛應(yīng)用于科學(xué)計(jì)算和大規(guī)模數(shù)據(jù)分析。

Horovod[45]:Uber工程團(tuán)隊(duì)開(kāi)發(fā)的集合通信庫(kù)支持多種深度學(xué)習(xí)框架,如TensorFlow、PyTorch和MXNet。同時(shí)支持通信優(yōu)化,以加速分布式訓(xùn)練。

Gloo[46]:Facebook開(kāi)源的通信庫(kù)為分布式深度學(xué)習(xí)和模型并行計(jì)算而設(shè)計(jì), 具有高性能的點(diǎn)對(duì)點(diǎn)和集體通信實(shí)現(xiàn),適用于各種硬件和網(wǎng)絡(luò)環(huán)境。

ACCL[57]:ACCL(Alibaba Collective Communication Library)是一款高性能通信庫(kù),提供了AllReduce、AllToAllV、Broadcast等常用集合操作接口以及點(diǎn)到點(diǎn)Send/Recv接口,為多機(jī)多卡訓(xùn)練提供高效的通信支持。

此外還有其他廠家根據(jù)自己的硬件平臺(tái)定制的集合通信庫(kù),比如TCCL(Tencent Collective Communication Library)、HCCL(Huawei Collective Communication Library)等等,這些高性能通信庫(kù)有助于克服在大規(guī)模AI工作負(fù)載中可能遇到的通信瓶頸,提高模型訓(xùn)練和推理的效率。選擇適當(dāng)?shù)耐ㄐ艓?kù)通常取決于硬件架構(gòu)、網(wǎng)絡(luò)拓?fù)浜途唧w的應(yīng)用場(chǎng)景。

4.業(yè)界知名的大模型訓(xùn)練網(wǎng)絡(luò)

很多的云廠商、互聯(lián)網(wǎng)公司紛紛結(jié)合自己的技術(shù)優(yōu)勢(shì),通過(guò)自研和外部合作的方式搭建起自己的大語(yǔ)言模型訓(xùn)練網(wǎng)絡(luò)的基礎(chǔ)設(shè)施。

騰訊采用高性能RDMA網(wǎng)絡(luò)[58],采用自研網(wǎng)絡(luò)協(xié)議TiTa、定制化集合通信庫(kù)TCCL、多軌道網(wǎng)絡(luò)拓?fù)湓偌由献匝腥珬>W(wǎng)絡(luò)運(yùn)營(yíng)系統(tǒng)搭建星脈網(wǎng)絡(luò)集群,支持10萬(wàn)卡的超大規(guī)模,具備3.2T通信帶寬,提升40%的GPU利用率,節(jié)省30-60%的模型訓(xùn)練成本,為AI及大語(yǔ)言模型訓(xùn)練帶來(lái)10倍的通信性能提升。

阿里推出高性能AI訓(xùn)練計(jì)算平臺(tái)-靈駿[59],使用基于內(nèi)存語(yǔ)義的低延遲、高帶寬可線性擴(kuò)展的磐久高性能網(wǎng)絡(luò)predFabric,采用自研Solar-RDMA高速網(wǎng)絡(luò)協(xié)議,并結(jié)合網(wǎng)絡(luò)協(xié)議硬件化,芯片化延時(shí)降低至2微秒,實(shí)現(xiàn)了5倍的通信性能提升,千卡并行計(jì)算效率高達(dá)90%。

百度聯(lián)合英偉達(dá)共同完成容納萬(wàn)卡規(guī)模以上的IB網(wǎng)絡(luò)[10],提供單集群EFLOPS級(jí)別的算力。整個(gè)網(wǎng)絡(luò)采用8通道架構(gòu),通道內(nèi)spine和leaf交換機(jī)做fullmesh全互聯(lián)。為了減少跨交換機(jī)通信,采用網(wǎng)絡(luò)架構(gòu)感知方法,訓(xùn)練任務(wù)調(diào)度時(shí)將同一個(gè)任務(wù)調(diào)度到同一個(gè)匯聚組內(nèi)。對(duì)于跨匯聚組的通信,通過(guò)匯聚組信息對(duì)全局GPU做有序化處理,減少跨交換機(jī)流量。

英偉達(dá)推出了面向超大規(guī)模生成式 AI 的加速以太網(wǎng)平臺(tái)——Spectrum-X[60],其擁有無(wú)損網(wǎng)絡(luò)、動(dòng)態(tài)路由、流量擁塞控制、多業(yè)務(wù)性能隔離等主要特性,能夠滿足云上部署AI或生成式AI工作負(fù)載對(duì)網(wǎng)絡(luò)性能的要求,有助于節(jié)約訓(xùn)練成本、縮短訓(xùn)練時(shí)間,加速大模型走向面市。

MIT和Meta團(tuán)隊(duì)發(fā)布了名為“Rail-Only”的全新大語(yǔ)言模型架構(gòu)設(shè)計(jì)[8],對(duì)專(zhuān)門(mén)用于訓(xùn)練大型語(yǔ)言模型的 GPU 集群的傳統(tǒng)any-to-any網(wǎng)絡(luò)架構(gòu)提出了挑戰(zhàn)。Rail-Only架構(gòu)通過(guò)將GPU分組,組成一個(gè)高帶寬互聯(lián)域(HB域),然后再將這些HB域內(nèi)的特定的GPU跨接到特定的Rail交換機(jī),雖然增加了跨域通信的路由調(diào)度復(fù)雜度,但是通過(guò)合理的HB域和Rail交換機(jī)設(shè)計(jì),整體架構(gòu)可以大量減少交換機(jī)的使用,最多可以降低75%的網(wǎng)絡(luò)通信。

微軟與OpenAI獨(dú)家合作打造了一臺(tái)性能位居全球前五,擁有超過(guò)28.5萬(wàn)個(gè)CPU核心、1萬(wàn)個(gè)GPU,每GPU擁有400Gbps網(wǎng)絡(luò)帶寬的超級(jí)計(jì)算機(jī)——Azure AI超算平臺(tái)[61],主要用于大規(guī)模分布式AI模型訓(xùn)練。

2024年2月字節(jié)跳動(dòng)聯(lián)合北京大學(xué)的研究團(tuán)隊(duì)發(fā)表論文[65],介紹了他們用于訓(xùn)練大語(yǔ)言模型的生產(chǎn)系統(tǒng)MegaScale。MegaScale搭建超過(guò)10000塊GPU的單一集群,在12288個(gè)GPU上訓(xùn)練175B LLM模型時(shí),實(shí)現(xiàn)了55.2%模型FLOP利用率。該系統(tǒng)還包含了一套診斷工具用于監(jiān)控系統(tǒng)組件和事件,找出根本原因,并實(shí)現(xiàn)容錯(cuò)功能。

5.展望

隨著大語(yǔ)言模型規(guī)模的不斷增大,對(duì)網(wǎng)絡(luò)的帶寬、延遲、可靠性和健壯性的要求也越來(lái)越高。未來(lái)的大語(yǔ)言模型訓(xùn)練網(wǎng)絡(luò)組網(wǎng)將向以下幾個(gè)方向發(fā)展:更高的帶寬、更低的延遲、更加可靠的組網(wǎng)以及自動(dòng)化智能運(yùn)維。結(jié)合上述發(fā)展方向,大語(yǔ)言模型訓(xùn)練網(wǎng)絡(luò)組網(wǎng)存在以下幾個(gè)研究領(lǐng)域:

新型網(wǎng)絡(luò)拓?fù)?/strong>

針對(duì)大語(yǔ)言模型訓(xùn)練網(wǎng)絡(luò)研究新的拓?fù)浣Y(jié)構(gòu),以提高網(wǎng)絡(luò)的帶寬和降低網(wǎng)絡(luò)的延遲。例如,可以研究基于Clos拓?fù)浣Y(jié)構(gòu)和Dragonfly拓?fù)浣Y(jié)構(gòu)的混合拓?fù)浣Y(jié)構(gòu),以兼顧網(wǎng)絡(luò)的帶寬和延遲。

優(yōu)化流量工程算法

為優(yōu)化網(wǎng)絡(luò)中的數(shù)據(jù)流向,減少網(wǎng)絡(luò)擁塞,研究新的流量工程算法。例如,可以研究基于機(jī)器學(xué)習(xí)的流量工程算法,以動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)中的數(shù)據(jù)流向,避免網(wǎng)絡(luò)擁塞。

智能運(yùn)維管理技術(shù)

在網(wǎng)絡(luò)管理技術(shù)上進(jìn)一步深入研究,以盡可能簡(jiǎn)化網(wǎng)絡(luò)的管理和維護(hù)。例如,可以研究基于人工智能的網(wǎng)絡(luò)管理技術(shù),以自動(dòng)發(fā)現(xiàn)和修復(fù)網(wǎng)絡(luò)故障,并根據(jù)網(wǎng)絡(luò)的實(shí)時(shí)狀態(tài)進(jìn)行優(yōu)化。

領(lǐng)域定制高速互聯(lián)技術(shù)

觀察AI大模型網(wǎng)絡(luò)流量特點(diǎn),針對(duì)關(guān)鍵技術(shù)如協(xié)議定義、擁塞和流量控制等進(jìn)行針對(duì)性優(yōu)化,以期更好的適配大模型網(wǎng)絡(luò)的訓(xùn)練特點(diǎn)。同時(shí)在架構(gòu)設(shè)計(jì)上需要有足夠的靈活性允許引入新的功能,使其具備持續(xù)演進(jìn)的能力。

這些研究領(lǐng)域?qū)τ诖笳Z(yǔ)言模型訓(xùn)練網(wǎng)絡(luò)組網(wǎng)的未來(lái)發(fā)展至關(guān)重要。通過(guò)對(duì)這些領(lǐng)域的深入研究,我們可以研發(fā)出更高效、更可靠、更安全以及更智能的AI大模型訓(xùn)練網(wǎng)絡(luò),以滿足大語(yǔ)言模型訓(xùn)練的需求。



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:史上最全大語(yǔ)言模型訓(xùn)練中的網(wǎng)絡(luò)技術(shù)盤(pán)點(diǎn)

文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    什么是大模型,智能體...?大模型100問(wèn),快速全面了解!

    、概念篇1.什么是大模型?大模型是指參數(shù)規(guī)模巨大(通常達(dá)到數(shù)十億甚至萬(wàn)億級(jí)別)、使用海量數(shù)據(jù)訓(xùn)練而成的人工智能模型。2.什么是大
    的頭像 發(fā)表于 02-02 16:36 ?931次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問(wèn),快速全面了解!

    摩爾線程新代大語(yǔ)言模型對(duì)齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領(lǐng)域取得重要突破,其提出的新代大語(yǔ)言模型對(duì)齊框架——URPO統(tǒng)獎(jiǎng)勵(lì)與策略優(yōu)化,相關(guān)研究論文已被人工智能領(lǐng)域的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議AAAI 2026收錄。這
    的頭像 發(fā)表于 11-17 16:03 ?504次閱讀
    摩爾線程新<b class='flag-5'>一</b>代大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>對(duì)齊框架URPO入選AAAI 2026

    構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的般化建議

    :Dropout層隨機(jī)跳過(guò)神經(jīng)網(wǎng)絡(luò)模型某些神經(jīng)元之間的連接,通過(guò)隨機(jī)制造缺陷進(jìn)行訓(xùn)練提升整個(gè)神經(jīng)網(wǎng)絡(luò)的魯棒性。 6)指定合理的學(xué)習(xí)率策
    發(fā)表于 10-28 08:02

    在Ubuntu20.04系統(tǒng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗(yàn)。我們采用jupyter notebook作為開(kāi)發(fā)IDE,以TensorF
    發(fā)表于 10-22 07:03

    鋇錸技術(shù):2025工業(yè)智能體元年,盤(pán)點(diǎn)已推出的工業(yè)AI大模型總有款適合您

    應(yīng)用。 這不僅僅是次產(chǎn)品展示,更釋放了個(gè)信號(hào): 工業(yè)大模型,正在成為制造業(yè)的下個(gè)競(jìng)爭(zhēng)焦點(diǎn)。無(wú)論是電力、煤礦,還是鋼鐵、儲(chǔ)能,大家都在問(wèn)同
    的頭像 發(fā)表于 09-26 16:17 ?797次閱讀

    華為網(wǎng)絡(luò)智能體NetMaster榮獲2025 AI網(wǎng)絡(luò)技術(shù)“智驅(qū)應(yīng)用標(biāo)桿獎(jiǎng)”

    [中國(guó),北京,2025年8月9日]2025 AI網(wǎng)絡(luò)技術(shù)應(yīng)用創(chuàng)新大會(huì)在北京成功舉辦。在本次大會(huì)期間的2025 AI網(wǎng)絡(luò)技術(shù)年度評(píng)選頒獎(jiǎng)盛典上,華為網(wǎng)絡(luò)智能體NetMaster憑借AI技術(shù)
    的頭像 發(fā)表于 08-12 09:40 ?2644次閱讀

    摩爾線程“AI工廠”:五大核心技術(shù)支撐,打造大模型訓(xùn)練超級(jí)工廠

    演講中表示,為應(yīng)對(duì)生成式AI爆發(fā)式增長(zhǎng)的大模型訓(xùn)練效率瓶頸,摩爾線程將通過(guò)系統(tǒng)級(jí)工程創(chuàng)新,構(gòu)建新代AI訓(xùn)練基礎(chǔ)設(shè)施,致力于為AGI時(shí)代打
    的頭像 發(fā)表于 07-28 11:28 ?4563次閱讀
    摩爾線程“AI工廠”:五大核心<b class='flag-5'>技術(shù)</b>支撐,打造大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>超級(jí)工廠

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】書(shū)籍介紹+第章讀后心得

    模型圈子,其多項(xiàng)性能超過(guò)了當(dāng)時(shí)處于領(lǐng)先地位的ChatGPT 4,也證明了不需要高昂的費(fèi)用也能訓(xùn)練出優(yōu)質(zhì)大模型。這激起了我的好奇心,借著這次機(jī)會(huì)好好閱讀一下DeepSeek的核心
    發(fā)表于 07-17 11:59

    運(yùn)行kmodel模型驗(yàn)證直報(bào)錯(cuò)怎么解決?

    我這運(yùn)行kmodel模型驗(yàn)證直報(bào)錯(cuò),所以沒(méi)法做kmodel模型好壞驗(yàn)證,不知道怎么解決這個(gè)問(wèn)題,重新訓(xùn)練個(gè)kmodel
    發(fā)表于 06-10 08:02

    【書(shū)籍評(píng)測(cè)活動(dòng)NO.62】本書(shū)讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    、語(yǔ)言致性),優(yōu)化模型在數(shù)學(xué)、編程等結(jié)構(gòu)化任務(wù)的表現(xiàn)。 通用對(duì)齊RL:融入人類(lèi)偏好獎(jiǎng)勵(lì)模型,確保模型
    發(fā)表于 06-09 14:38

    算力網(wǎng)絡(luò)的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)分布式訓(xùn)練范式

    ? 電子發(fā)燒友網(wǎng)綜合報(bào)道 隨著AI技術(shù)迅猛發(fā)展,尤其是大型語(yǔ)言模型的興起,對(duì)于算力的需求呈現(xiàn)出爆炸性增長(zhǎng)。這不僅推動(dòng)了智算中心的建設(shè),還對(duì)網(wǎng)絡(luò)互聯(lián)
    的頭像 發(fā)表于 06-08 08:11 ?7466次閱讀
    算力<b class='flag-5'>網(wǎng)絡(luò)</b>的“神經(jīng)突觸”:AI互聯(lián)<b class='flag-5'>技術(shù)</b>如何重構(gòu)分布式<b class='flag-5'>訓(xùn)練</b>范式

    適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)

    隨著人工智能(AI)技術(shù)的迅猛發(fā)展,數(shù)據(jù)中心面臨著前所未有的計(jì)算和網(wǎng)絡(luò)壓力。從大語(yǔ)言模型(LLM)訓(xùn)練到生成式AI應(yīng)用,海量數(shù)據(jù)處理需求推動(dòng)
    發(fā)表于 03-25 17:35

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)步講解更多的
    的頭像 發(fā)表于 03-21 18:24 ?4335次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制預(yù)<b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    數(shù)據(jù)標(biāo)注服務(wù)—奠定大模型訓(xùn)練的數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過(guò)程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練,數(shù)
    的頭像 發(fā)表于 03-21 10:30 ?3360次閱讀

    標(biāo)貝數(shù)據(jù)標(biāo)注服務(wù):奠定大模型訓(xùn)練的數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過(guò)程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練,數(shù)
    的頭像 發(fā)表于 03-21 10:27 ?1125次閱讀
    標(biāo)貝數(shù)據(jù)標(biāo)注服務(wù):奠定大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>的數(shù)據(jù)基石