不知大家是否還記得去年英偉達(dá)發(fā)布的A100 GPU,作為V100推出三年后的又一大計(jì)算卡,其性能較V100提升了20倍,英偉達(dá)更是稱(chēng)其為最大的7nm芯片,面積達(dá)到826 mm2。而初創(chuàng)公司Cerebras則在近日發(fā)布了第二代Wafer Scale Engine(WSE-2)芯片,奪下了7nm下面積最大芯片的寶座。
WSE-2 芯片/ Cerebras
從2015年到2020年,全球在訓(xùn)練大型模型上的計(jì)算已經(jīng)到了30萬(wàn)倍,AI的限制更像是運(yùn)算能力的限制,而不單單只是應(yīng)用和創(chuàng)意。驗(yàn)證一個(gè)猜想和訓(xùn)練一個(gè)新模型可能會(huì)花上數(shù)周乃至數(shù)月的時(shí)間,Cerebras的WSE-2旨在解決這些影響創(chuàng)新速度的問(wèn)題。
一塊晶圓 =一個(gè)芯片
WSE-2與A100面積大小對(duì)比 / Cerebras
WSE-2從上一代的16nm工藝替換為7nm,盡管面積不變,但新制程的密度優(yōu)勢(shì)使其晶體管數(shù)量翻倍,達(dá)到了26000億,AI核心數(shù)更是增加至85萬(wàn)個(gè)。Cerebras是在參數(shù)簡(jiǎn)介上直接對(duì)標(biāo)英偉達(dá)的A100,與826 mm2 的A100相比,46225 mm2的WSE-2是前者的56倍。WSE-2片上內(nèi)存為40GB,是A100的千倍,內(nèi)存帶寬更是做到A100的上萬(wàn)倍。WSE內(nèi)含85萬(wàn)個(gè)專(zhuān)為AI應(yīng)用優(yōu)化的稀疏線(xiàn)性代數(shù)計(jì)算(SLAC)核心,非常適合神經(jīng)網(wǎng)絡(luò)運(yùn)算。
Cerebras也指出內(nèi)存也是計(jì)算中重要的一環(huán)。就拿上面提到的A100來(lái)說(shuō),A100只有40MB的L2 cache,卻有著40GB的HBM2內(nèi)存,但這種圖形處理器的缺點(diǎn)就在于這種顯存往往是片外內(nèi)存,而且速度太慢,延遲過(guò)高。而WSE-2的40GB內(nèi)存則是均勻分布在AI核心上,且?guī)捒梢赃_(dá)到20PB/s。
其實(shí)早在去年的HotChips大會(huì)上,Cerebras就已經(jīng)透露過(guò)這個(gè)85萬(wàn)AI核的新處理器,但由于一些延誤,他們沒(méi)法及時(shí)在去年發(fā)布。Cerebras聯(lián)合創(chuàng)始人Andrew Feldman在近期采訪(fǎng)中提到,與客戶(hù)合作了一年之后,他們汲取了一些經(jīng)驗(yàn)教訓(xùn),并將其整合進(jìn)了新的AI核心中去,因此這一推遲很可能是由于對(duì)AI核心微架構(gòu)的改進(jìn)。
以往一個(gè)晶圓需要切割成多個(gè)芯片,經(jīng)過(guò)封裝后再作為處理器上市售賣(mài)。而Cerebras的解決方案是晶圓級(jí)集成技術(shù),直接利用一個(gè)晶圓的最大面積來(lái)生產(chǎn)單一芯片,不過(guò)考慮到目前矩形芯片依然是效率最高的選擇,自然不可能直接拿整個(gè)圓形晶圓來(lái)制造芯片,Cerebras也從一塊晶圓中選取了最大的正方形。雖然從12英寸晶圓的面積來(lái)看,制造一個(gè)WSE-2只用到了2/3的面積,但與芯片的售價(jià)相比,哪怕這些邊角料被浪費(fèi),損失也只是滄海一粟而已。要知道Cerebras賣(mài)給匹茨堡超算中心的兩臺(tái)基于WSE-1的系統(tǒng),可是從中獲利近500萬(wàn)美元。
基于WSE-2的AI計(jì)算平臺(tái)
但更強(qiáng)大的芯片放在一個(gè)老舊的系統(tǒng)里并非一定能實(shí)現(xiàn)全部的性能,反而可能會(huì)凸顯出原有系統(tǒng)的瓶頸,比如通信結(jié)構(gòu)、芯片I/O、電源和散熱等等。這就像是拿法拉利的引擎放在大眾車(chē)?yán)?,也跑不出前者的速度一樣?/p>
CS-2散熱系統(tǒng) / Cerebras
基于WSE-2、Cerebras的系統(tǒng)以及軟件平臺(tái),Cerebras也推出了新一代深度學(xué)習(xí)系統(tǒng)CS-2,來(lái)突破系統(tǒng)上的限制。這么強(qiáng)大的性能自然需要強(qiáng)大的供電,CS-2采用了9+3的冗余供電配置來(lái)驅(qū)動(dòng)WSE-2。但這樣的供電自然也面臨著散熱上的挑戰(zhàn),Cerebras在CS-2內(nèi)部運(yùn)用了一套水冷散熱系統(tǒng),用水冷來(lái)對(duì)WSE-2散熱,再由風(fēng)冷來(lái)降低水溫。與此同時(shí),CS-2的空間占用并不大,這個(gè)26英寸高的機(jī)器僅僅占用15U的機(jī)架空間,雖然大于英偉達(dá)的HGX A100系統(tǒng),但考慮到性能的提升,這點(diǎn)空間占用還是可以接受的。
CS-2 系統(tǒng)/ Cerebras
據(jù)Cerebras透露,WSE-2和CS-2都將于今年第三季度推出,而CS-2的價(jià)格也將從CS-1的2到3百萬(wàn)美元漲到“幾百萬(wàn)”美元的不具體數(shù)字。
小結(jié)
盡管Cerebras的WSE-2是一個(gè)性能怪獸,但它的應(yīng)用面并沒(méi)有A100那么廣,更像是面向小眾市場(chǎng)。就拿WSE-1的一些客戶(hù)來(lái)說(shuō),多數(shù)在進(jìn)行一些生物及醫(yī)學(xué)研究,比如癌癥治療、藥物發(fā)現(xiàn)等,且多用于超算中心與國(guó)家實(shí)驗(yàn)室,比如上面提到的匹茨堡超算中心和阿貢國(guó)家實(shí)驗(yàn)室。而英偉達(dá)的A100則可以用于各種AI和HPC應(yīng)用,這也是Cerebras目前的解決方案沒(méi)有突破的,但考慮到Cerebras的定位也不是為了做到全面覆蓋,專(zhuān)注于一個(gè)市場(chǎng)反而是Cerebras能做到如此優(yōu)秀的原因所在。
其實(shí)最值得去突破的仍是這種晶圓級(jí)集成的技術(shù),固然芯片設(shè)計(jì)廠(chǎng)商希望從單一晶圓中獲取更多的芯片,獲取更高的利潤(rùn),但這種純粹追求性能的芯片反而適合如今不少Power-hungry的應(yīng)用。話(huà)雖如此,實(shí)現(xiàn)這類(lèi)芯片的良率同樣是一大挑戰(zhàn),并不是每家公司都像Cerebras一樣在WSE-2上實(shí)現(xiàn)100%的良率的。
本文由電子發(fā)燒友原創(chuàng),轉(zhuǎn)載請(qǐng)注明以上來(lái)源。如需入群交流,請(qǐng)?zhí)砑游⑿舉lecfans999,投稿爆料采訪(fǎng)需求,請(qǐng)發(fā)郵箱huangjingjing@elecfans.com。
-
處理器
+關(guān)注
關(guān)注
68文章
20261瀏覽量
252632 -
芯片
+關(guān)注
關(guān)注
463文章
54040瀏覽量
466536
發(fā)布評(píng)論請(qǐng)先 登錄
三星2nm良率提升至50%,2027年前實(shí)現(xiàn)晶圓代工業(yè)務(wù)盈利可期
恩智浦全新S32N7處理器釋放軟件定義汽車(chē)(SDV)的全部潛力
恩智浦發(fā)布全新S32N7系列超高集成度處理器
Genio 720處理器規(guī)格參數(shù)_MTK8391高算力核心板方案
海光3350處理器能被廣泛應(yīng)用的原因
S32Z2:安全可靠的高性能實(shí)時(shí)處理器
S32E2:引領(lǐng)電動(dòng)汽車(chē)控制與智能驅(qū)動(dòng)的高性能實(shí)時(shí)處理器
長(zhǎng)晶接口電路CJLSF0102系列一顆料同時(shí)替代TI與安世
不到一塊錢(qián)的帶USB 2.4G收發(fā) SOC芯片,集成2.4G射頻 32位MCU
英偉達(dá)首片美國(guó)制造Blackwell晶圓下線(xiàn),重塑AI芯片制造格局
不同晶圓尺寸清洗的區(qū)別
基于兆芯開(kāi)先KX-7000處理器的升騰M460 2筆記本電腦亮相
國(guó)民技術(shù)能否開(kāi)展一個(gè)M7處理器的試用活動(dòng)。
扇出型晶圓級(jí)封裝技術(shù)的工藝流程
一塊晶圓等于一顆芯片!全球最大WSE-2處理器發(fā)布!7nm,面積達(dá)826 mm2
評(píng)論