如何利用片上光網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)低延遲、低能耗的高效片間互連系統(tǒng)

第29屆IEEE高性能計(jì)算機(jī)架構(gòu)國(guó)際會(huì)議（HPCA 2023, the 29th IEEE International Symposium on High-Performance Computer Architecture）在加拿大蒙特利爾召開(kāi)。期間，在第二屆“高性能芯粒與互連架構(gòu)國(guó)際研討會(huì)”（The 2nd?International workshop on High Performance Chiplet and Interconnect Architectures, HiPChips）上，來(lái)自清華大學(xué)、AMD、ARM、英特爾、華盛頓大學(xué)、哈佛大學(xué)、開(kāi)放計(jì)算項(xiàng)目基金（OCP）、曦智科技等學(xué)界及業(yè)界專家，就互連技術(shù)的創(chuàng)新研究和行業(yè)標(biāo)準(zhǔn)，及其如何影響芯粒架構(gòu)設(shè)計(jì)及軟件系統(tǒng)生態(tài)展開(kāi)了討論。

曦智科技作為全球光電混合計(jì)算領(lǐng)軍企業(yè)首次受邀參加國(guó)際計(jì)算機(jī)架構(gòu)頂級(jí)會(huì)議。曦智科技聯(lián)合創(chuàng)始人兼首席技術(shù)官孟懷宇博士在HiPChips上發(fā)表了《片上光網(wǎng)絡(luò)在大規(guī)模芯粒（Chiplet）架構(gòu)上的應(yīng)用》的主旨演講，介紹在當(dāng)下面臨算力需求的驟增，曦智科技如何利用片上光網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)低延遲、低能耗的高效片間互連系統(tǒng)，助力大規(guī)模芯粒架構(gòu)的實(shí)現(xiàn)。

孟懷宇博士

Dr. Huaiyu Meng

孟懷宇博士現(xiàn)任曦智科技聯(lián)合創(chuàng)始人兼首席技術(shù)官，負(fù)責(zé)公司技術(shù)路線的制定、產(chǎn)品定義及知識(shí)產(chǎn)權(quán)保護(hù)。他擁有麻省理工學(xué)院電子工程博士學(xué)位，主要研究方向?yàn)榧晒韫饧夹g(shù)在人工智能、數(shù)字通信生物傳感等方向的應(yīng)用。

HiPChips

“高性能芯粒與互連架構(gòu)國(guó)際研討會(huì)”（International Workshop on High Performance Chiplet and Interconnect Architectures, HiPChips）于2022年在國(guó)際計(jì)算機(jī)架構(gòu)頂會(huì)International Symposium on Computer Architecture（ISCA）上由學(xué)術(shù)界和產(chǎn)業(yè)界專家共同發(fā)起，旨在探討Chiplet（芯粒）和互連技術(shù)對(duì)未來(lái)計(jì)算架構(gòu)的影響，從而推動(dòng)工業(yè)和學(xué)術(shù)界加速合作、共建Chiplet生態(tài)。

一、單節(jié)點(diǎn)算力提升的現(xiàn)有路徑與挑戰(zhàn)

機(jī)器學(xué)習(xí) (ML) 、人工智能 (AI) 應(yīng)用的廣泛部署一直在推動(dòng)數(shù)據(jù)中心和邊緣計(jì)算需求不斷增長(zhǎng)。ChatGPT千億級(jí)大規(guī)模參數(shù)模型的出現(xiàn)，更是對(duì)單卡算力的上限提出了超乎想象的挑戰(zhàn)。單節(jié)點(diǎn)內(nèi)算力的縱向提升和多節(jié)點(diǎn)間的算力橫向擴(kuò)展同步發(fā)展，成為未來(lái)數(shù)據(jù)中心算力和算效提升不可或缺的兩個(gè)方面。

隨著摩爾定律的放緩，單節(jié)點(diǎn)內(nèi)的算力縱向提升出現(xiàn)了不同的思路，目前的解決方案主要有計(jì)算架構(gòu)的創(chuàng)新和擴(kuò)大芯片面積這兩種方式。 ? 孟懷宇博士將異構(gòu)計(jì)算架構(gòu)創(chuàng)新歸納為以下三個(gè)方面：

早期的通用計(jì)算架構(gòu)創(chuàng)新，包括指令級(jí)別并行（Instruction-Level Parallelism，ILP），在芯片上集成更多邏輯功能從而改善“內(nèi)存墻”問(wèn)題（以谷歌TPU為例），以及超線程、多核再到眾線程架構(gòu)等。

領(lǐng)域?qū)Ｓ眉軜?gòu)（Domain Specific Architecture，DSA）

生物計(jì)算、量子計(jì)算、基于憶阻器的存內(nèi)計(jì)算等非馮·諾伊曼架構(gòu) ?

通過(guò)架構(gòu)創(chuàng)新實(shí)現(xiàn)硬件性能提升

而由于晶體管密度提高的放緩，通過(guò)擴(kuò)大芯片面積實(shí)現(xiàn)底層算力的提升成為另一種自然的探索方向。但受限于倍縮光罩的尺寸，為了突破單個(gè)芯片面積的上限，芯粒系統(tǒng)應(yīng)運(yùn)而生，較為具有代表性的是英特爾的Ponte Vecchio GPU，由超過(guò)40個(gè)芯粒組成，總面積超過(guò)了3,000mm2，以及Cerebras Systems的晶圓級(jí)計(jì)算引擎（Wafer Scale Engine，WSE），其總面積超過(guò)了40,000mm2。

英特爾Ponte Vecchio GPU和Cerebras Systems晶圓級(jí)計(jì)算引擎 ?

然而芯片面積的增大導(dǎo)致數(shù)據(jù)搬運(yùn)的時(shí)間和能耗成本隨之增加，電在進(jìn)行數(shù)據(jù)傳輸時(shí)，由于距離增大導(dǎo)致的能耗提升顯露無(wú)疑；同時(shí)，由于較大的計(jì)算任務(wù)通常會(huì)被映射到多個(gè)計(jì)算單元，為了避免長(zhǎng)距離數(shù)據(jù)搬運(yùn)，只能用更為復(fù)雜的算法來(lái)優(yōu)化計(jì)算任務(wù)的映射。

大規(guī)模MCM需要更高效的互連解決方案 ? 尋找超越傳統(tǒng)電互連的物理層創(chuàng)新，以及易用性強(qiáng)的計(jì)算任務(wù)適配軟件棧，成為高效可擴(kuò)展芯粒系統(tǒng)急需解決的技術(shù)瓶頸。

二、片上光網(wǎng)絡(luò)助力高效芯粒系統(tǒng)

針對(duì)芯粒系統(tǒng)在規(guī)模擴(kuò)大的同時(shí)帶來(lái)的信號(hào)傳輸瓶頸問(wèn)題，孟懷宇博士介紹了曦智科技的片上光網(wǎng)絡(luò)（Opitical Network On Chip，以下簡(jiǎn)稱oNOC）技術(shù)方案，oNOC的技術(shù)優(yōu)勢(shì)主要體現(xiàn)在：

光信號(hào)在晶圓級(jí)別的傳輸中 衰減小

光的 功耗、延遲 對(duì)距離不敏感

集成硅光芯片作為有源中介層

光電轉(zhuǎn)換可在集成硅光芯片中完成

曦智科技o(jì)NOC系統(tǒng)側(cè)視圖及俯視圖如上圖所示，圖(a)中兩個(gè)電芯片被堆疊在同一個(gè)光芯片上，電芯片之間的數(shù)據(jù)傳輸由光芯片上的光波導(dǎo)鏈路實(shí)現(xiàn)。基于光傳輸對(duì)于距離不敏感的特點(diǎn)，片上光網(wǎng)絡(luò)可以包括大量的長(zhǎng)距離通道。如圖(b)所示，光芯片能夠擴(kuò)展到整個(gè)晶圓，從而實(shí)現(xiàn)晶圓級(jí)的光互連網(wǎng)絡(luò)，可支持?jǐn)?shù)十個(gè)以上的電芯片互連，實(shí)現(xiàn)二維環(huán)繞等各向同性網(wǎng)絡(luò)拓?fù)洌ㄈ鐖D(b)中橙線所示）。 ?

在這樣的拓?fù)湎拢瑢⒂?jì)算任務(wù)映射到不同芯片的工作被極大簡(jiǎn)化，并且達(dá)到更高的利用率。不僅如此，片上光網(wǎng)絡(luò)也憑借其高帶寬和低延遲的特性可以為面向未來(lái)AI加速器的多形態(tài)計(jì)算架構(gòu)（Polymorphic Architecture）提供關(guān)鍵的片上互連基礎(chǔ)設(shè)施。

三、全球首款oNOC光電混合計(jì)算芯片

在HiPChips上，孟懷宇博士也分享了曦智科技在片上光網(wǎng)絡(luò)（oNOC）技術(shù)上的最新進(jìn)展。它由一塊硅光芯片和一塊CMOS電子芯片，通過(guò)中介層垂直封裝構(gòu)成。其中，光波導(dǎo)替代了銅導(dǎo)線，形成片上光網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)傳輸。該系統(tǒng)的通道數(shù)為512，單通道最長(zhǎng)廣播距離50mm，廣播延時(shí)1ns，單通道頻率4GHz，片上總帶寬2Tbps。實(shí)測(cè)數(shù)據(jù)顯示，該計(jì)算系統(tǒng)能在1ns內(nèi)完成多個(gè)計(jì)算核之間All-to-AIl的數(shù)據(jù)廣播，這將大幅提高每個(gè)計(jì)算核的算力利用率。

曦智科技o(jì)NOC光電混合芯片

基于該計(jì)算芯片，曦智科技正在加速落地第一款商用級(jí)光電混合計(jì)算加速卡，并搭載公司自研軟件棧，在商用場(chǎng)景下發(fā)揮低延遲、低功耗的優(yōu)勢(shì)。 ?

寫(xiě)在最后

集成硅光技術(shù)得益于光子的物理優(yōu)勢(shì)，一方面可以從計(jì)算底層技術(shù)原理的顛覆式創(chuàng)新，提供一條超越摩爾定律的算力提升路徑，我們?cè)谇拔摹独霉庾?a target="_blank">集成電路實(shí)現(xiàn)伊辛模型加速》（點(diǎn)擊閱讀）中有過(guò)一定的闡述。另一方面，晶圓級(jí)片上光網(wǎng)絡(luò)技術(shù)使得異構(gòu)計(jì)算芯片系統(tǒng)可以和傳統(tǒng)的電芯片以及存儲(chǔ)芯片有效協(xié)同，助力大規(guī)模高效芯粒系統(tǒng)的實(shí)現(xiàn)。 但正如孟懷宇博士在結(jié)束演講時(shí)所說(shuō)，片上光網(wǎng)絡(luò)技術(shù)的大規(guī)模應(yīng)用仍面臨一些挑戰(zhàn)。芯粒架構(gòu)整體生態(tài)系統(tǒng)的成熟尚需時(shí)日，芯粒間需要有標(biāo)準(zhǔn)的協(xié)議接口，集成硅光供應(yīng)鏈成本需通過(guò)量產(chǎn)得到降低。這些問(wèn)題需要全行業(yè)的共同努力協(xié)作才能突破解決，這也是“高性能芯粒與互連架構(gòu)國(guó)際研討會(huì)”等國(guó)際交流的意義所在。

編輯：黃飛

閱讀全文