第29屆IEEE高性能計(jì)算機(jī)架構(gòu)國(guó)際會(huì)議(HPCA 2023, the 29th IEEE International Symposium on High-Performance Computer Architecture)在加拿大蒙特利爾召開(kāi)。期間,在第二屆“高性能芯粒與互連架構(gòu)國(guó)際研討會(huì)”(The 2nd?International workshop on High Performance Chiplet and Interconnect Architectures, HiPChips)上,來(lái)自清華大學(xué)、AMD、ARM、英特爾、華盛頓大學(xué)、哈佛大學(xué)、開(kāi)放計(jì)算項(xiàng)目基金(OCP)、曦智科技等學(xué)界及業(yè)界專家,就互連技術(shù)的創(chuàng)新研究和行業(yè)標(biāo)準(zhǔn),及其如何影響芯粒架構(gòu)設(shè)計(jì)及軟件系統(tǒng)生態(tài)展開(kāi)了討論。
曦智科技作為全球光電混合計(jì)算領(lǐng)軍企業(yè)首次受邀參加國(guó)際計(jì)算機(jī)架構(gòu)頂級(jí)會(huì)議。曦智科技聯(lián)合創(chuàng)始人兼首席技術(shù)官孟懷宇博士在HiPChips上發(fā)表了《片上光網(wǎng)絡(luò)在大規(guī)模芯粒(Chiplet)架構(gòu)上的應(yīng)用》的主旨演講,介紹在當(dāng)下面臨算力需求的驟增,曦智科技如何利用片上光網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)低延遲、低能耗的高效片間互連系統(tǒng),助力大規(guī)模芯粒架構(gòu)的實(shí)現(xiàn)。
孟懷宇 博士
Dr. Huaiyu Meng
孟懷宇博士現(xiàn)任曦智科技聯(lián)合創(chuàng)始人兼首席技術(shù)官,負(fù)責(zé)公司技術(shù)路線的制定、產(chǎn)品定義及知識(shí)產(chǎn)權(quán)保護(hù)。他擁有麻省理工學(xué)院電子工程博士學(xué)位,主要研究方向?yàn)榧晒韫饧夹g(shù)在人工智能、數(shù)字通信生物傳感等方向的應(yīng)用。
HiPChips
“高性能芯粒與互連架構(gòu)國(guó)際研討會(huì)”(International Workshop on High Performance Chiplet and Interconnect Architectures, HiPChips)于2022年在國(guó)際計(jì)算機(jī)架構(gòu)頂會(huì)International Symposium on Computer Architecture(ISCA)上由學(xué)術(shù)界和產(chǎn)業(yè)界專家共同發(fā)起,旨在探討Chiplet(芯粒)和互連技術(shù)對(duì)未來(lái)計(jì)算架構(gòu)的影響,從而推動(dòng)工業(yè)和學(xué)術(shù)界加速合作、共建Chiplet生態(tài)。
一、單節(jié)點(diǎn)算力提升的現(xiàn)有路徑與挑戰(zhàn)
機(jī)器學(xué)習(xí) (ML) 、人工智能 (AI) 應(yīng)用的廣泛部署一直在推動(dòng)數(shù)據(jù)中心和邊緣計(jì)算需求不斷增長(zhǎng)。ChatGPT千億級(jí)大規(guī)模參數(shù)模型的出現(xiàn),更是對(duì)單卡算力的上限提出了超乎想象的挑戰(zhàn)。單節(jié)點(diǎn)內(nèi)算力的縱向提升和多節(jié)點(diǎn)間的算力橫向擴(kuò)展同步發(fā)展,成為未來(lái)數(shù)據(jù)中心算力和算效提升不可或缺的兩個(gè)方面。
隨著摩爾定律的放緩,單節(jié)點(diǎn)內(nèi)的算力縱向提升出現(xiàn)了不同的思路,目前的解決方案主要有計(jì)算架構(gòu)的創(chuàng)新和擴(kuò)大芯片面積這兩種方式。 ? 孟懷宇博士將異構(gòu)計(jì)算架構(gòu)創(chuàng)新歸納為以下三個(gè)方面:
早期的通用計(jì)算架構(gòu)創(chuàng)新,包括指令級(jí)別并行(Instruction-Level Parallelism,ILP),在芯片上集成更多邏輯功能從而改善“內(nèi)存墻”問(wèn)題(以谷歌TPU為例),以及超線程、多核再到眾線程架構(gòu)等。
領(lǐng)域?qū)S眉軜?gòu)(Domain Specific Architecture,DSA)
生物計(jì)算、量子計(jì)算、基于憶阻器的存內(nèi)計(jì)算等非馮·諾伊曼架構(gòu) ?

通過(guò)架構(gòu)創(chuàng)新實(shí)現(xiàn)硬件性能提升
而由于晶體管密度提高的放緩,通過(guò)擴(kuò)大芯片面積實(shí)現(xiàn)底層算力的提升成為另一種自然的探索方向。但受限于倍縮光罩的尺寸,為了突破單個(gè)芯片面積的上限,芯粒系統(tǒng)應(yīng)運(yùn)而生,較為具有代表性的是英特爾的Ponte Vecchio GPU,由超過(guò)40個(gè)芯粒組成,總面積超過(guò)了3,000mm2,以及Cerebras Systems的晶圓級(jí)計(jì)算引擎(Wafer Scale Engine,WSE),其總面積超過(guò)了40,000mm2。

英特爾Ponte Vecchio GPU和Cerebras Systems晶圓級(jí)計(jì)算引擎 ?
然而芯片面積的增大導(dǎo)致數(shù)據(jù)搬運(yùn)的時(shí)間和能耗成本隨之增加,電在進(jìn)行數(shù)據(jù)傳輸時(shí),由于距離增大導(dǎo)致的能耗提升顯露無(wú)疑;同時(shí),由于較大的計(jì)算任務(wù)通常會(huì)被映射到多個(gè)計(jì)算單元,為了避免長(zhǎng)距離數(shù)據(jù)搬運(yùn),只能用更為復(fù)雜的算法來(lái)優(yōu)化計(jì)算任務(wù)的映射。

大規(guī)模MCM需要更高效的互連解決方案 ? 尋找超越傳統(tǒng)電互連的物理層創(chuàng)新,以及易用性強(qiáng)的計(jì)算任務(wù)適配軟件棧,成為高效可擴(kuò)展芯粒系統(tǒng)急需解決的技術(shù)瓶頸。
二、片上光網(wǎng)絡(luò)助力高效芯粒系統(tǒng)
針對(duì)芯粒系統(tǒng)在規(guī)模擴(kuò)大的同時(shí)帶來(lái)的信號(hào)傳輸瓶頸問(wèn)題,孟懷宇博士介紹了曦智科技的片上光網(wǎng)絡(luò)(Opitical Network On Chip,以下簡(jiǎn)稱oNOC)技術(shù)方案,oNOC的技術(shù)優(yōu)勢(shì)主要體現(xiàn)在:
光信號(hào)在晶圓級(jí)別的傳輸中 衰減小
光的 功耗、延遲 對(duì)距離不敏感
集成硅光芯片作為有源中介層
光電轉(zhuǎn)換可在集成硅光芯片中完成

曦智科技o(jì)NOC系統(tǒng)側(cè)視圖及俯視圖 如上圖所示,圖(a)中兩個(gè)電芯片被堆疊在同一個(gè)光芯片上,電芯片之間的數(shù)據(jù)傳輸由光芯片上的光波導(dǎo)鏈路實(shí)現(xiàn)。基于光傳輸對(duì)于距離不敏感的特點(diǎn),片上光網(wǎng)絡(luò)可以包括大量的長(zhǎng)距離通道。如圖(b)所示,光芯片能夠擴(kuò)展到整個(gè)晶圓,從而實(shí)現(xiàn)晶圓級(jí)的光互連網(wǎng)絡(luò),可支持?jǐn)?shù)十個(gè)以上的電芯片互連,實(shí)現(xiàn)二維環(huán)繞等各向同性網(wǎng)絡(luò)拓?fù)洌ㄈ鐖D(b)中橙線所示)。 ?
在這樣的拓?fù)湎拢瑢⒂?jì)算任務(wù)映射到不同芯片的工作被極大簡(jiǎn)化,并且達(dá)到更高的利用率。不僅如此,片上光網(wǎng)絡(luò)也憑借其高帶寬和低延遲的特性可以為面向未來(lái)AI加速器的多形態(tài)計(jì)算架構(gòu)(Polymorphic Architecture)提供關(guān)鍵的片上互連基礎(chǔ)設(shè)施。
三、全球首款oNOC光電混合計(jì)算芯片
在HiPChips上,孟懷宇博士也分享了曦智科技在片上光網(wǎng)絡(luò)(oNOC)技術(shù)上的最新進(jìn)展。它由一塊硅光芯片和一塊CMOS電子芯片,通過(guò)中介層垂直封裝構(gòu)成。其中,光波導(dǎo)替代了銅導(dǎo)線,形成片上光網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)傳輸。該系統(tǒng)的通道數(shù)為512,單通道最長(zhǎng)廣播距離50mm,廣播延時(shí)1ns,單通道頻率4GHz,片上總帶寬2Tbps。實(shí)測(cè)數(shù)據(jù)顯示,該計(jì)算系統(tǒng)能在1ns內(nèi)完成多個(gè)計(jì)算核之間All-to-AIl的數(shù)據(jù)廣播,這將大幅提高每個(gè)計(jì)算核的算力利用率。

曦智科技o(jì)NOC光電混合芯片
基于該計(jì)算芯片,曦智科技正在加速落地第一款商用級(jí)光電混合計(jì)算加速卡,并搭載公司自研軟件棧,在商用場(chǎng)景下發(fā)揮低延遲、低功耗的優(yōu)勢(shì)。 ?
寫(xiě)在最后
集成硅光技術(shù)得益于光子的物理優(yōu)勢(shì),一方面可以從計(jì)算底層技術(shù)原理的顛覆式創(chuàng)新,提供一條超越摩爾定律的算力提升路徑,我們?cè)谇拔摹独霉庾?a target="_blank">集成電路實(shí)現(xiàn)伊辛模型加速》(點(diǎn)擊閱讀)中有過(guò)一定的闡述。另一方面,晶圓級(jí)片上光網(wǎng)絡(luò)技術(shù)使得異構(gòu)計(jì)算芯片系統(tǒng)可以和傳統(tǒng)的電芯片以及存儲(chǔ)芯片有效協(xié)同,助力大規(guī)模高效芯粒系統(tǒng)的實(shí)現(xiàn)。 但正如孟懷宇博士在結(jié)束演講時(shí)所說(shuō),片上光網(wǎng)絡(luò)技術(shù)的大規(guī)模應(yīng)用仍面臨一些挑戰(zhàn)。芯粒架構(gòu)整體生態(tài)系統(tǒng)的成熟尚需時(shí)日,芯粒間需要有標(biāo)準(zhǔn)的協(xié)議接口,集成硅光供應(yīng)鏈成本需通過(guò)量產(chǎn)得到降低。這些問(wèn)題需要全行業(yè)的共同努力協(xié)作才能突破解決,這也是“高性能芯粒與互連架構(gòu)國(guó)際研討會(huì)”等國(guó)際交流的意義所在。
編輯:黃飛
?
電子發(fā)燒友App












評(píng)論