開放數(shù)據(jù)中心委員會(huì)ODCC冬季全員會(huì)議于12月4日-6日在春暖花開的昆明舉行。奇異摩爾首席系統(tǒng)架構(gòu)師朱琛作為網(wǎng)絡(luò)工作組ETH-X超節(jié)點(diǎn)項(xiàng)目的核心成員分享了AI Networking Scale Up卡間互聯(lián)的新路徑解決方案并展開了相關(guān)應(yīng)用分析。
隨著人工智能大模型訓(xùn)推的需求日益增長,更大的模型并行規(guī)模,模型并行中Tensor并行或MOE類型的Expert并行都會(huì)在GPU之間產(chǎn)生大量的通信。這對(duì)于AI網(wǎng)絡(luò)Scale Up加速卡通訊提出了更高的顯存容量及帶寬、更低的延遲需求。
通常來說,Scale Up相對(duì)于Scale Out和業(yè)務(wù)網(wǎng)絡(luò)需要更高一個(gè)數(shù)量級(jí)(10倍以上)的帶寬,同時(shí)由于對(duì)于延遲的需求,要求GPU Direct直出互聯(lián)的設(shè)計(jì),并節(jié)省更多的面積給芯片的計(jì)算核心、更高的IO集成能力。
傳統(tǒng)的做法是GPU SoC內(nèi)部集成不同的IO IP通過片上網(wǎng)絡(luò)進(jìn)行通信互聯(lián)。然而,Scale Up網(wǎng)絡(luò)還在不斷的演進(jìn)當(dāng)中,行業(yè)目前在標(biāo)準(zhǔn)制定與生態(tài)上還缺乏完備的解決方案。隨著相關(guān)技術(shù)的革新與演進(jìn),對(duì)GPU的未來設(shè)計(jì)及其相關(guān)性能提出更復(fù)雜的需求與挑戰(zhàn)。
傳統(tǒng)基于GPU SoC IO IP的方案在先進(jìn)工藝的成本與靈活性方面缺乏優(yōu)勢(shì),計(jì)算芯片需要和IP使用統(tǒng)一一致的工藝節(jié)點(diǎn);另一方面,如果對(duì)于互聯(lián)的設(shè)計(jì)產(chǎn)生較大的改變,將花費(fèi)更多的時(shí)間與精力重新設(shè)計(jì)整體芯片方案。

(傳統(tǒng)直接集成IO IP的計(jì)算芯片)
奇異摩爾作為ETH-X超節(jié)點(diǎn)項(xiàng)目的成員提出了一種新的GPU片間互聯(lián)路徑。一種GPU內(nèi)集成IO Die (邊緣IO Chiplet)的創(chuàng)新方案在未來Scale Up互聯(lián)的場景下能夠靈活應(yīng)用并達(dá)到更可靠的GPU互聯(lián)通信效率。

(基于IO Die的計(jì)算芯片,計(jì)算芯粒和IO芯粒解耦,通過UCIe互聯(lián))
GPU計(jì)算芯粒與IO 芯粒解耦,更靈活的技術(shù)演進(jìn)和創(chuàng)新
IO Die 讓GPU芯粒和IO芯粒解耦并通過UCIe D2D互聯(lián),這種方式讓GPU芯粒和IO Die能夠分開進(jìn)行設(shè)計(jì),并使用不同的先進(jìn)工藝節(jié)點(diǎn)。當(dāng)前Scale up的技術(shù)正處于不斷演進(jìn)的過程中,基于IO Die的方案相比SoC可以提供更快的技術(shù)迭代。
復(fù)用IO Die,降低成本
采用獨(dú)立的IO Die使在新的設(shè)計(jì)中復(fù)用已有的IOD成為可能,比如Central IOD AMD EPYC Turin繼續(xù)復(fù)用上一代6nm制程的IOD 繼續(xù)實(shí)現(xiàn)制程/芯粒解耦,減少工藝成本。Intel的至強(qiáng)6使用了邊緣IOD的方式同樣實(shí)現(xiàn)了計(jì)算芯粒和IOD的解耦。

(圖:AMD 使用Central IOD實(shí)現(xiàn)內(nèi)核工藝節(jié)點(diǎn)與IO分開 ,并復(fù)用IOD來降低成本)
靈活性及擴(kuò)展性
基于Chiplet 的靈活性,用戶根據(jù)各自的帶寬需求自主選擇IO Die的數(shù)量和類型,在Scale Up的場景下來實(shí)現(xiàn)互聯(lián)帶寬的靈活配置。
奇異摩爾的Kiwi NDSA-G2G就是上述這種GPGPU集成IO Die芯粒的新路徑解決方案,不僅具備上述所列優(yōu)勢(shì),并內(nèi)建Scale Up所需要的網(wǎng)絡(luò)加速控制引擎??蛻糁恍枳匝杏?jì)算芯粒,免去自研互聯(lián)芯粒的成本,基于統(tǒng)一的互聯(lián)協(xié)議和接口采用Kiwi NDSA-G2G芯粒來實(shí)現(xiàn)片間TB級(jí)的互聯(lián)。
使用UCIe建立GPU芯粒與IO Die間互聯(lián)

奇異摩爾的GPU Link NDSA G2G (IO Chiplet) 通過基于UCIe的D2D IP與計(jì)算芯?;ヂ?lián)。UCIe是主流的D2D國際互聯(lián)標(biāo)準(zhǔn),目前已經(jīng)受到了廣泛芯粒上下游的認(rèn)可。UCIe 1.1v 本身支持主流Streaming等協(xié)議,并通過FLIT的按需交織實(shí)現(xiàn)多協(xié)議的復(fù)用?;赨CIe的D2D互聯(lián)無論從芯片面積占用、延遲(ns)、以及功耗的增加都在一個(gè)極低的可控制范圍。
關(guān)于GPU芯粒和IO Die的通信
如果GPU芯粒和IO Die在協(xié)議層使用同種協(xié)議,互通可以無縫實(shí)現(xiàn),無需進(jìn)行額外的協(xié)議轉(zhuǎn)換。如果GPU芯粒和IO Die在協(xié)議層采用不同的協(xié)議時(shí),協(xié)議適配與轉(zhuǎn)換可以根據(jù)客戶的芯粒設(shè)計(jì)所處階段來適配協(xié)議在哪一側(cè)進(jìn)行轉(zhuǎn)換。
隨著國內(nèi)芯粒生態(tài)以及Scale Up網(wǎng)絡(luò)相關(guān)技術(shù)標(biāo)準(zhǔn)的日益完善,奇異摩爾展望從片間協(xié)議再到片內(nèi)協(xié)議,推動(dòng)行業(yè)建立統(tǒng)一互聯(lián)標(biāo)準(zhǔn),從而攜手產(chǎn)業(yè)鏈共同實(shí)現(xiàn)超過十萬張加速卡的高效互聯(lián)。AI網(wǎng)絡(luò)的春天即將到來,希望的曙光在不久的將來將照拂行業(yè)的每一位前行者。
關(guān)于我們
AI網(wǎng)絡(luò)全棧式互聯(lián)架構(gòu)產(chǎn)品及解決方案提供商
奇異摩爾,成立于2021年初,是一家行業(yè)領(lǐng)先的AI網(wǎng)絡(luò)全棧式互聯(lián)產(chǎn)品及解決方案提供商。公司依托于先進(jìn)的高性能RDMA 和Chiplet技術(shù),創(chuàng)新性地構(gòu)建了統(tǒng)一互聯(lián)架構(gòu)——Kiwi Fabric,專為超大規(guī)模AI計(jì)算平臺(tái)量身打造,以滿足其對(duì)高性能互聯(lián)的嚴(yán)苛需求。我們的產(chǎn)品線豐富而全面,涵蓋了面向不同層次互聯(lián)需求的關(guān)鍵產(chǎn)品,如面向北向Scale out網(wǎng)絡(luò)的AI原生智能網(wǎng)卡、面向南向Scale up網(wǎng)絡(luò)的GPU片間互聯(lián)芯粒、以及面向芯片內(nèi)算力擴(kuò)展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產(chǎn)品共同構(gòu)成了全鏈路互聯(lián)解決方案,為AI計(jì)算提供了堅(jiān)實(shí)的支撐。
奇異摩爾的核心團(tuán)隊(duì)匯聚了來自全球半導(dǎo)體行業(yè)巨頭如NXP、Intel、Broadcom等公司的精英,他們憑借豐富的AI互聯(lián)產(chǎn)品研發(fā)和管理經(jīng)驗(yàn),致力于推動(dòng)技術(shù)創(chuàng)新和業(yè)務(wù)發(fā)展。團(tuán)隊(duì)擁有超過50個(gè)高性能網(wǎng)絡(luò)及Chiplet量產(chǎn)項(xiàng)目的經(jīng)驗(yàn),為公司的產(chǎn)品和服務(wù)提供了強(qiáng)有力的技術(shù)保障。我們的使命是支持一個(gè)更具創(chuàng)造力的芯世界,愿景是讓計(jì)算變得簡單。奇異摩爾以創(chuàng)新為驅(qū)動(dòng)力,技術(shù)探索新場景,生態(tài)構(gòu)建新的半導(dǎo)體格局,為高性能AI計(jì)算奠定穩(wěn)固的基石。
-
gpu
+關(guān)注
關(guān)注
28文章
5196瀏覽量
135510 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
18文章
5654瀏覽量
75039 -
奇異摩爾
+關(guān)注
關(guān)注
0文章
79瀏覽量
4037
原文標(biāo)題:聚焦昆明ODCC 冬季全員會(huì)議,奇異摩爾分享計(jì)算芯片Scale Up 片間互聯(lián)新途徑
文章出處:【微信號(hào):奇異摩爾,微信公眾號(hào):奇異摩爾】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
Credo發(fā)布新品Blue Heron 224G AI Scale-Up Retimer芯片
THine發(fā)布無光學(xué)DSP芯片組,賦能下一代Scale-Up型AI網(wǎng)絡(luò)“Slow and Wide”互聯(lián)
奇異摩爾參編人工智能加速器互聯(lián)芯粒技術(shù)要求團(tuán)體標(biāo)準(zhǔn)發(fā)布
奇異摩爾助力中國移動(dòng)GSE 2.5版本協(xié)議標(biāo)準(zhǔn)發(fā)布
奇異摩爾Networking for AI生態(tài)沙龍成功舉辦
奇異摩爾助力OISA全向智感互聯(lián)IO芯粒技術(shù)白皮書發(fā)布
奇異摩爾攜手中國移動(dòng)發(fā)布OISA 2.0協(xié)議
奇異摩爾Die-to-Die片內(nèi)互聯(lián)方案持續(xù)升級(jí)
奇異摩爾出席第三屆芯粒開發(fā)者大會(huì)AI芯片與系統(tǒng)分論壇
奇異摩爾田陌晨榮獲中國半導(dǎo)體行業(yè)領(lǐng)軍人物獎(jiǎng)
奇異摩爾亮相2025中國AI算力大會(huì)
奇異摩爾攜手UALink聯(lián)盟助力AI網(wǎng)絡(luò)繁榮發(fā)展
奇異摩爾以互聯(lián)之長推進(jìn)OISA GPU卡間互聯(lián)生態(tài)適配
奇異摩爾分享計(jì)算芯片Scale Up片間互聯(lián)新途徑
評(píng)論