異構(gòu)計(jì)算已經(jīng)成了半導(dǎo)體業(yè)界不得不思考的一個(gè)話題,傳統(tǒng)通用計(jì)算的性能捉襟見肘,過去承諾的每隔一段時(shí)間芯片性能翻倍的豪言壯語已經(jīng)沒有人再提了。如今我們用到的手機(jī)中,各種除CPU以外的計(jì)算單元層出不窮,無論是神經(jīng)網(wǎng)絡(luò)處理器還是圖像處理器。
異構(gòu)計(jì)算的存在可以說創(chuàng)造了另一個(gè)維度,這個(gè)維度上我們又有了堆性能的空間,小至手機(jī)SoC、汽車芯片,大到服務(wù)器芯片和超算處理器,異構(gòu)帶來了更大的算力。但與此同時(shí),異構(gòu)計(jì)算也帶來了一些潛在的問題。
異構(gòu)計(jì)算的崛起
異構(gòu)計(jì)算其實(shí)早在計(jì)算機(jī)時(shí)代的早期就開始零星出現(xiàn)了,比如英特爾在80年代推出的浮點(diǎn)協(xié)處理器(FPU)i487,Inmos./ST在1996年推出的多媒體加速器Chameleon等等。轉(zhuǎn)眼進(jìn)入了新世紀(jì),異構(gòu)出現(xiàn)的頻率也越來越高,2010年蘋果推出了首個(gè)自研的處理器A4,將CPU、GPU和其它加速器集成至一起。在超算領(lǐng)域,加速器和協(xié)處理器也數(shù)量也在逐步增加。

全球超算系統(tǒng)加速器/協(xié)處理器的應(yīng)用趨勢 / TOP500
2020年以后,各國的超級計(jì)算機(jī)計(jì)劃都定位在了Exascale的百億億級別,要想實(shí)現(xiàn)目標(biāo),要么靠堆核心規(guī)模來堆性能,要么就是選擇異構(gòu)計(jì)算。如今前十的超算系統(tǒng)中,有一半以上都采用了CPU+GPU的異構(gòu)設(shè)計(jì)。
明眼人都能看出,這種CPU+GPU的異構(gòu)設(shè)計(jì)也開始變得愈發(fā)緊密,比如英偉達(dá)今年宣布的Arm CPU Grace,該處理器靠著英偉達(dá)專利互聯(lián)技術(shù)NVLink的加持,成功將CPU與GPU之間的互聯(lián)速度做到了夸張的900GB/s,是傳統(tǒng)PCIe的10倍以上,CPU更是靠LPDDR5X實(shí)現(xiàn)了500GB/s的內(nèi)存帶寬。
非傳統(tǒng)的架構(gòu)更是層出不窮,Graphcore的IPU、谷歌的TPU、矢量引擎和FPGA等等,相信XPU的命名形式馬上就要用完26個(gè)字母了。促使大家選擇異構(gòu)的動力究竟是什么?答案很簡單,異構(gòu)給到了一個(gè)更高效的方案,能夠?qū)崿F(xiàn)的算力更高。既然你CPU在計(jì)算上落后了,我GPU自然要上位,更何況我還有這么多成熟的I/O和互聯(lián)技術(shù)為我撐腰。
異構(gòu)計(jì)算真就完美無缺?
異構(gòu)計(jì)算就真的如此完美嗎?并非如此。異構(gòu)計(jì)算的存在其實(shí)也引出了不少隱患,比如極度差異化的編程模型,從過去的單向編程轉(zhuǎn)為了多向編程。因?yàn)楫悩?gòu)系統(tǒng)中存在多個(gè)計(jì)算設(shè)備,又有著不同的系統(tǒng)架構(gòu)、指令集和編程模型,因此異構(gòu)系統(tǒng)的編程與傳統(tǒng)的CPU編程相比有很大的差距。通常來說,異構(gòu)混合計(jì)算系統(tǒng)需要多套不同的代碼,這增大了應(yīng)用開發(fā)的難度,紙面參數(shù)是好看了,卻苦了軟件開發(fā)者。

IPU / Graphcore
其次,GPU、FPGA和AI處理器廠商都推出了截然不同的加速器方案,這些方案不僅僅采用了自己專用的處理器架構(gòu),還有自己的執(zhí)行指令和編譯器。在這樣不統(tǒng)一的架構(gòu)下,將并行程序移植到異構(gòu)處理器上需要的可不只是重新編譯,還有代碼重寫。也正因如此,HPC的代碼生態(tài)雖然不弱,但近半數(shù)以上可能永遠(yuǎn)都不會被移植到其他加速器上,甚至這一部分工作量還分?jǐn)偟搅思铀倨鲝S商的軟件開發(fā)工作量上。
所以,必須得使用優(yōu)秀的軟件棧,這樣才能讓開發(fā)者充分利用異構(gòu)處理器的計(jì)算資源,而不用在編程時(shí)考慮復(fù)雜的硬件細(xì)節(jié)。現(xiàn)在已經(jīng)有了不少跨平臺的編程標(biāo)準(zhǔn),比如C++/Fortran、OpenMP、SYCL和Kokkos等。
最后是復(fù)雜的數(shù)據(jù)存取過程,異構(gòu)帶來的不僅是不同層級的計(jì)算架構(gòu),還有不同層級的存儲架構(gòu),比如主存儲、主緩存、設(shè)備主存、設(shè)備緩存和寄存器等等。數(shù)據(jù)要在多種存儲類型之間移動,程序執(zhí)行要在同時(shí)對多種存儲進(jìn)行存取,這些存儲方式的帶寬和延遲也不盡相同。
異構(gòu)計(jì)算的未來
在近期舉辦的CIUK 2021大會上,HPC研究組的Simon McIntosh-Smith教授發(fā)表了他自己對異構(gòu)計(jì)算未來的看法。他認(rèn)為異構(gòu)計(jì)算的趨勢還將繼續(xù)發(fā)展下去,差異化不會消失,但也不會出現(xiàn)極度差異化的情況。
其次CPU與GPU的關(guān)系將更加緊密,比如緩存一致和封裝集成等,其他加速器在特定場景下聲稱的性能數(shù)據(jù)都很優(yōu)秀,但要說通用計(jì)算性能,GPU還是要略勝一籌。而且依目前的趨勢來看,CPU也在慢慢汲取GPU上的優(yōu)點(diǎn),比如HBM、寬矢量處理器的核心、核心內(nèi)部的加速器等等。編程的困境固然已經(jīng)有了改善的跡象,但還有一段長路要走。
異構(gòu)計(jì)算的存在可以說創(chuàng)造了另一個(gè)維度,這個(gè)維度上我們又有了堆性能的空間,小至手機(jī)SoC、汽車芯片,大到服務(wù)器芯片和超算處理器,異構(gòu)帶來了更大的算力。但與此同時(shí),異構(gòu)計(jì)算也帶來了一些潛在的問題。
異構(gòu)計(jì)算的崛起
異構(gòu)計(jì)算其實(shí)早在計(jì)算機(jī)時(shí)代的早期就開始零星出現(xiàn)了,比如英特爾在80年代推出的浮點(diǎn)協(xié)處理器(FPU)i487,Inmos./ST在1996年推出的多媒體加速器Chameleon等等。轉(zhuǎn)眼進(jìn)入了新世紀(jì),異構(gòu)出現(xiàn)的頻率也越來越高,2010年蘋果推出了首個(gè)自研的處理器A4,將CPU、GPU和其它加速器集成至一起。在超算領(lǐng)域,加速器和協(xié)處理器也數(shù)量也在逐步增加。

全球超算系統(tǒng)加速器/協(xié)處理器的應(yīng)用趨勢 / TOP500
2020年以后,各國的超級計(jì)算機(jī)計(jì)劃都定位在了Exascale的百億億級別,要想實(shí)現(xiàn)目標(biāo),要么靠堆核心規(guī)模來堆性能,要么就是選擇異構(gòu)計(jì)算。如今前十的超算系統(tǒng)中,有一半以上都采用了CPU+GPU的異構(gòu)設(shè)計(jì)。
明眼人都能看出,這種CPU+GPU的異構(gòu)設(shè)計(jì)也開始變得愈發(fā)緊密,比如英偉達(dá)今年宣布的Arm CPU Grace,該處理器靠著英偉達(dá)專利互聯(lián)技術(shù)NVLink的加持,成功將CPU與GPU之間的互聯(lián)速度做到了夸張的900GB/s,是傳統(tǒng)PCIe的10倍以上,CPU更是靠LPDDR5X實(shí)現(xiàn)了500GB/s的內(nèi)存帶寬。
非傳統(tǒng)的架構(gòu)更是層出不窮,Graphcore的IPU、谷歌的TPU、矢量引擎和FPGA等等,相信XPU的命名形式馬上就要用完26個(gè)字母了。促使大家選擇異構(gòu)的動力究竟是什么?答案很簡單,異構(gòu)給到了一個(gè)更高效的方案,能夠?qū)崿F(xiàn)的算力更高。既然你CPU在計(jì)算上落后了,我GPU自然要上位,更何況我還有這么多成熟的I/O和互聯(lián)技術(shù)為我撐腰。
異構(gòu)計(jì)算真就完美無缺?
異構(gòu)計(jì)算就真的如此完美嗎?并非如此。異構(gòu)計(jì)算的存在其實(shí)也引出了不少隱患,比如極度差異化的編程模型,從過去的單向編程轉(zhuǎn)為了多向編程。因?yàn)楫悩?gòu)系統(tǒng)中存在多個(gè)計(jì)算設(shè)備,又有著不同的系統(tǒng)架構(gòu)、指令集和編程模型,因此異構(gòu)系統(tǒng)的編程與傳統(tǒng)的CPU編程相比有很大的差距。通常來說,異構(gòu)混合計(jì)算系統(tǒng)需要多套不同的代碼,這增大了應(yīng)用開發(fā)的難度,紙面參數(shù)是好看了,卻苦了軟件開發(fā)者。

IPU / Graphcore
其次,GPU、FPGA和AI處理器廠商都推出了截然不同的加速器方案,這些方案不僅僅采用了自己專用的處理器架構(gòu),還有自己的執(zhí)行指令和編譯器。在這樣不統(tǒng)一的架構(gòu)下,將并行程序移植到異構(gòu)處理器上需要的可不只是重新編譯,還有代碼重寫。也正因如此,HPC的代碼生態(tài)雖然不弱,但近半數(shù)以上可能永遠(yuǎn)都不會被移植到其他加速器上,甚至這一部分工作量還分?jǐn)偟搅思铀倨鲝S商的軟件開發(fā)工作量上。
所以,必須得使用優(yōu)秀的軟件棧,這樣才能讓開發(fā)者充分利用異構(gòu)處理器的計(jì)算資源,而不用在編程時(shí)考慮復(fù)雜的硬件細(xì)節(jié)。現(xiàn)在已經(jīng)有了不少跨平臺的編程標(biāo)準(zhǔn),比如C++/Fortran、OpenMP、SYCL和Kokkos等。
最后是復(fù)雜的數(shù)據(jù)存取過程,異構(gòu)帶來的不僅是不同層級的計(jì)算架構(gòu),還有不同層級的存儲架構(gòu),比如主存儲、主緩存、設(shè)備主存、設(shè)備緩存和寄存器等等。數(shù)據(jù)要在多種存儲類型之間移動,程序執(zhí)行要在同時(shí)對多種存儲進(jìn)行存取,這些存儲方式的帶寬和延遲也不盡相同。
異構(gòu)計(jì)算的未來
在近期舉辦的CIUK 2021大會上,HPC研究組的Simon McIntosh-Smith教授發(fā)表了他自己對異構(gòu)計(jì)算未來的看法。他認(rèn)為異構(gòu)計(jì)算的趨勢還將繼續(xù)發(fā)展下去,差異化不會消失,但也不會出現(xiàn)極度差異化的情況。
其次CPU與GPU的關(guān)系將更加緊密,比如緩存一致和封裝集成等,其他加速器在特定場景下聲稱的性能數(shù)據(jù)都很優(yōu)秀,但要說通用計(jì)算性能,GPU還是要略勝一籌。而且依目前的趨勢來看,CPU也在慢慢汲取GPU上的優(yōu)點(diǎn),比如HBM、寬矢量處理器的核心、核心內(nèi)部的加速器等等。編程的困境固然已經(jīng)有了改善的跡象,但還有一段長路要走。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報(bào)投訴
-
異構(gòu)
+關(guān)注
關(guān)注
0文章
47瀏覽量
13542 -
異構(gòu)計(jì)算
+關(guān)注
關(guān)注
2文章
112瀏覽量
17177
發(fā)布評論請先 登錄
相關(guān)推薦
熱點(diǎn)推薦
低溫?zé)o壓燒結(jié)銀的前世今生:從發(fā)明到未來趨勢
低溫?zé)o壓燒結(jié)銀的前世今生:從發(fā)明到未來趨勢 低溫?zé)o壓燒結(jié)銀(Low-Temperature Pressureless Sintered Silver, LT-PSS)作為第三代半導(dǎo)體封裝與高端電子
芯片裝甲的前世今生
一前言眾所周知,晶圓的特性如同玻璃一樣容易破碎,但為什么做成成品的IC又能通過高震動與跌落可靠性測試,并且能在高溫環(huán)境下非常穩(wěn)定運(yùn)行?這其實(shí)是一個(gè)關(guān)鍵的半導(dǎo)體技術(shù)——封裝的功勞。它像一道“防護(hù)城墻”,既要屏蔽灰塵、水汽、沖擊,也要兼顧散熱、電性能和成本。在如今人人都知道先進(jìn)半導(dǎo)體工藝已經(jīng)先進(jìn)到2nm的今天,對于不起眼的封裝技術(shù),卻鮮有人熟知。接下來,讓我們從
【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全國產(chǎn)化智能異構(gòu)計(jì)算平臺
TEC100TAI-KIT是一款基于國產(chǎn)100TAI的全國產(chǎn)智能異構(gòu)計(jì)算平臺開發(fā)套件,該套件包含1個(gè)100TAI核心板和1個(gè)PCIE規(guī)格的擴(kuò)展底板。
該套件的核心板集成了100TAI的最小
PCIe協(xié)議分析儀能測試哪些設(shè)備?
PCIe協(xié)議分析儀能測試多種依賴PCIe總線進(jìn)行高速數(shù)據(jù)傳輸?shù)脑O(shè)備,其測試范圍覆蓋計(jì)算、存儲、網(wǎng)絡(luò)及異構(gòu)計(jì)算等多個(gè)領(lǐng)域,具體設(shè)備類型及測試場景如下:一、核心計(jì)算設(shè)備
GPU(圖形處理器)
測試
發(fā)表于 07-25 14:09
【PZ-ZU15EG-KFB】——ZYNQ UltraScale + 異構(gòu)架構(gòu)下的智能邊緣計(jì)算標(biāo)桿
璞致電子推出PZ-ZU15EG-KFB異構(gòu)計(jì)算開發(fā)板,搭載Xilinx ZYNQ UltraScale+ XCZU15EG芯片,整合四核ARM Cortex-A53、雙核Cortex-R5F
智能安防邊緣計(jì)算的技術(shù)解析
維度,剖析核心板如何推動安防從"被動記錄"到"主動決策"的升級,并給出選型建議。 ? --- 一、核心板的硬件架構(gòu)創(chuàng)新** ? 1. 異構(gòu)計(jì)算架構(gòu):算力與能效的平衡? 以SSD2351為例,其采用**"CPU+NPU+IVE"三級計(jì)算架構(gòu)**: ? - **CPU**(雙
異構(gòu)計(jì)算構(gòu)建更智能、更高效的AI未來
人工智能 (AI) 不再只是一個(gè)科研課題,它已然成為我們?nèi)粘I畹囊徊糠?。從個(gè)性化醫(yī)療、智能可穿戴設(shè)備,到沉浸式數(shù)字娛樂以及自主機(jī)器人,AI 正在重塑我們生活、工作和創(chuàng)新的方式。然而,隨著 AI 應(yīng)用日益復(fù)雜,底層的基礎(chǔ)設(shè)施也必須隨之不斷演進(jìn)。
異構(gòu)計(jì)算解決方案(兼容不同硬件架構(gòu))
異構(gòu)計(jì)算解決方案通過整合不同類型處理器(如CPU、GPU、NPU、FPGA等),實(shí)現(xiàn)硬件資源的高效協(xié)同與兼容,滿足多樣化計(jì)算需求。其核心技術(shù)與實(shí)踐方案如下: 一、硬件架構(gòu)設(shè)計(jì) 異構(gòu)處理器組合? 主從
第三屆大會回顧第3期 | FFRT并發(fā)框架在OpenHarmony中的設(shè)計(jì)與實(shí)踐
演講嘉賓 | 黃佑鐘 回顧整理 | 廖 ? 濤 排版校對 | 宋夕明 嘉賓介紹 開發(fā)框架分論壇? 黃佑鐘 ,海思Kirin解決方案并行與異構(gòu)計(jì)算專家。 正文內(nèi)容 多任務(wù)并發(fā)能更有效地利用CPU資源
如何釋放異構(gòu)計(jì)算的潛能?Imagination與Baya Systems的系統(tǒng)架構(gòu)實(shí)踐啟示
報(bào)告作者:PallaviSharma,Imaginaiton產(chǎn)品管理總監(jiān)Dr.EricNorige,BayaSystems首席軟件架構(gòu)師關(guān)注Imagination公眾號,消息框發(fā)送【異構(gòu)計(jì)算】,即可
能效提升3倍!異構(gòu)計(jì)算架構(gòu)讓AI跑得更快更省電
電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)異構(gòu)計(jì)算架構(gòu)通過集成多種不同類型的處理單元(如CPU、GPU、NPU、FPGA、DSP等),針對不同計(jì)算任務(wù)的特點(diǎn)進(jìn)行分工協(xié)作,從而在性能、能效和靈活性之間實(shí)現(xiàn)最優(yōu)平衡
Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計(jì)算生態(tài)
近日, Imagination Technologies 與國內(nèi)領(lǐng)先的異構(gòu)計(jì)算軟件與智算混合云服務(wù)提供商 澎峰科技 ( PerfXLab )正式簽署合作備忘錄( MoU ),圍繞 GPU 與 AI
發(fā)表于 05-21 09:40
?1216次閱讀
Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計(jì)算生態(tài)
近日,ImaginationTechnologies與國內(nèi)領(lǐng)先的異構(gòu)計(jì)算軟件與智算混合云服務(wù)提供商澎峰科技(PerfXLab)正式簽署合作備忘錄(MoU),圍繞GPU與AI的深度融合展開合作。雙方將
全志科技多核異構(gòu)SoC助力行業(yè)智能化創(chuàng)新
近日, “第十二屆開源操作系統(tǒng)年度技術(shù)會議”在北京舉行,全志科技受邀參會。會上,全志進(jìn)行了題為《多核異構(gòu)SoC在行業(yè)應(yīng)用中軟件方案的思考與實(shí)踐》的分享。分享從市場和技術(shù)洞察、方案設(shè)計(jì)創(chuàng)新、場景化應(yīng)用落地三個(gè)維度展開系統(tǒng)性分享,全面展現(xiàn)了全志科技在異構(gòu)計(jì)算領(lǐng)域的技術(shù)積累與行
RAKsmart智能算力架構(gòu):異構(gòu)計(jì)算+低時(shí)延網(wǎng)絡(luò)驅(qū)動企業(yè)AI訓(xùn)練范式升級
在AI大模型參數(shù)量突破萬億、多模態(tài)應(yīng)用爆發(fā)的今天,企業(yè)AI訓(xùn)練正面臨算力效率與成本的雙重挑戰(zhàn)。RAKsmart推出的智能算力架構(gòu),以異構(gòu)計(jì)算資源池化與超低時(shí)延網(wǎng)絡(luò)為核心,重構(gòu)AI訓(xùn)練基礎(chǔ)設(shè)施,助力企業(yè)實(shí)現(xiàn)訓(xùn)練速度提升、硬件成本下降與算法迭代加速的三重突破。
異構(gòu)計(jì)算的前世今生
評論