91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

奔向大模型時(shí)代,存算一體成為突破算力瓶頸的關(guān)鍵技術(shù)?

Carol Li ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-04-03 00:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)大模型的訓(xùn)練和推理需要高性能的算力支持。以ChatGPT為例,據(jù)估算,在訓(xùn)練方面,1746億參數(shù)的GPT-3模型大約需要375-625臺(tái)8卡DGXA100服務(wù)器訓(xùn)練10天左右,對(duì)應(yīng)A100GPU數(shù)量約3000-5000張。

在推理方面,如果以A100GPU單卡單字輸出需要350ms為基準(zhǔn)計(jì)算,假設(shè)每日訪問(wèn)客戶數(shù)量高達(dá)5,000萬(wàn)人時(shí),按單客戶每日發(fā)問(wèn)ChatGPT應(yīng)用10次,單次需要50字回答,則每日消耗GPU的計(jì)算時(shí)間將會(huì)高達(dá)243萬(wàn)個(gè)小時(shí),對(duì)應(yīng)的GPU需求數(shù)量將超過(guò)10萬(wàn)個(gè)。

大模型的訓(xùn)練和推理依賴通用GPU

算力即計(jì)算能力,具體指硬件對(duì)數(shù)據(jù)收集、傳輸、計(jì)算和存儲(chǔ)的能力,算力的大小表明了對(duì)數(shù)字化信息處理能力的強(qiáng)弱,常用計(jì)量單位是FLOPS(Floating-pointoperationspersecond),表示每秒浮點(diǎn)運(yùn)算次數(shù)。

當(dāng)前大模型的訓(xùn)練和推理多采用GPGPU。GPGPU是一種由GPU去除圖形處理和輸出,僅保留科學(xué)計(jì)算、AI訓(xùn)練和推理功能的GPU。GPU芯片最初用于計(jì)算機(jī)系統(tǒng)圖像顯示的運(yùn)算,但因其相比于擅長(zhǎng)橫向計(jì)算的CPU更擅長(zhǎng)于并行計(jì)算,在涉及到大量的矩陣或向量計(jì)算的AI計(jì)算中很有優(yōu)勢(shì),GPGPU應(yīng)運(yùn)而生。

在這波ChatGPT浪潮中長(zhǎng)期押注AI的英偉達(dá)可以說(shuō)受益最多,ChatGPT、包括各種大模型的訓(xùn)練和推理,基本都采用英偉達(dá)的GPU。目前國(guó)內(nèi)多個(gè)廠商都在布局GPGPU,包括天數(shù)智芯、燧原科技、壁仞科技、登臨科技等,不過(guò)當(dāng)前還較少能夠應(yīng)用于大模型。

事實(shí)上業(yè)界認(rèn)為,隨著模型參數(shù)越來(lái)越大,GPU在提供算力支持上也存在瓶頸。在GPT-2之前的模型時(shí)代,GPU內(nèi)存還能滿足AI大模型的需求,近年來(lái),隨著Transformer模型的大規(guī)模發(fā)展和應(yīng)用,模型大小每?jī)赡昶骄鲩L(zhǎng)240倍,實(shí)際上GPT-3等大模型的參數(shù)增長(zhǎng)已經(jīng)超過(guò)了GPU內(nèi)存的增長(zhǎng)。傳統(tǒng)的設(shè)計(jì)趨勢(shì)已經(jīng)不能適應(yīng)當(dāng)前的需求,芯片內(nèi)部、芯片之間或AI加速器之間的通信成為了AI計(jì)算的瓶頸。

存算一體技術(shù)如何突破算力瓶頸

而存算一體作為一種新型架構(gòu)形式受到關(guān)注,存算一體將存儲(chǔ)和計(jì)算有機(jī)結(jié)合,直接在存儲(chǔ)單元中處理數(shù)據(jù),避免了在存儲(chǔ)單元和計(jì)算單元之間頻繁轉(zhuǎn)移數(shù)據(jù),減少了不必要的數(shù)據(jù)搬移造成的開(kāi)銷,不僅大幅降低了功耗,還可以利用存儲(chǔ)單元進(jìn)行邏輯計(jì)算提高算力,顯著提升計(jì)算效率。

大模型的訓(xùn)練和部署不僅對(duì)算力提出了高要求,對(duì)能耗的要求也很高,從這個(gè)角度來(lái)看,存算一體降低功耗,提升計(jì)算效率等特性在大模型方面確實(shí)更具優(yōu)勢(shì)。

因?yàn)楠?dú)具優(yōu)勢(shì),過(guò)去幾年已經(jīng)有眾多企業(yè)進(jìn)入到存算一體領(lǐng)域,包括知存科技、千芯科技、蘋芯科技、后摩智能、億鑄科技等。各企業(yè)的技術(shù)方向也有所不同,從介質(zhì)層面來(lái)看,有的采用NORFlash,有的采用SRAM,也有的采用RRAM。

從目前的情況來(lái)看,基于NORFlash的存算一體產(chǎn)品,在算力上難以做大,應(yīng)用場(chǎng)景主要是對(duì)算力要求不高,對(duì)功耗要求高的可穿戴設(shè)備等領(lǐng)域;基于SRAM的存算一體算力可以更大些,能夠用于自動(dòng)駕駛領(lǐng)域;而真正能夠在算力上實(shí)現(xiàn)突破,可以稱之為大算力AI芯片的,目前只有億鑄科技主推的基于RRAM的存算一體技術(shù)。

在大模型對(duì)大算力的需求背景下,億鑄科技近期更是提出了存算一體超異構(gòu)計(jì)算。超異構(gòu)計(jì)算能夠把更多的異構(gòu)計(jì)算整合重構(gòu),從而各類型處理器間充分地、靈活地進(jìn)行數(shù)據(jù)交互而形成的計(jì)算。

簡(jiǎn)單來(lái)說(shuō),就是結(jié)合DSA、GPU、CPU、CIM等多個(gè)類型引擎的優(yōu)勢(shì),實(shí)現(xiàn)性能的飛躍:DSA負(fù)責(zé)相對(duì)確定的大計(jì)算量的工作;GPU負(fù)責(zé)應(yīng)用層有一些性能敏感的并且有一定彈性的工作;CPU啥都能干,負(fù)責(zé)兜底;CIM就是存內(nèi)計(jì)算,超異構(gòu)和普通異構(gòu)的主要區(qū)別就是加入了CIM,由此可以實(shí)現(xiàn)同等算力,更低能耗,同等能耗,更高算力。另外,CIM由于器件的優(yōu)勢(shì),能負(fù)擔(dān)比DSA更大的算力。

億鑄科技創(chuàng)始人、董事長(zhǎng)兼CEO熊大鵬博士表示,存算一體超異構(gòu)計(jì)算的好處在于:一是在系統(tǒng)層,能夠把整體的效率做到最優(yōu);二是在軟件層,能夠?qū)崿F(xiàn)跨平臺(tái)架構(gòu)統(tǒng)一。

基于存算一體超異構(gòu)概念,億鑄科技提出了自己的技術(shù)暢想:若能把新型憶阻器技術(shù)(RRAM)、存算一體架構(gòu)、芯粒技術(shù)(Chiplet)、3D封裝等技術(shù)結(jié)合,將會(huì)實(shí)現(xiàn)更大的有效算力、放置更多的參數(shù)、實(shí)現(xiàn)更高的能效比、更好的軟件兼容性、從而突破性能瓶頸,抬高AI大算力芯片的發(fā)展天花板。

圖源:億鑄科技

目前國(guó)內(nèi)已公開(kāi)的能夠?qū)崿F(xiàn)存算一體AI大算力的芯片公司僅有億鑄科技,其基于RRAM的存算一體AI大算力芯片將在今年回片。

小結(jié)

無(wú)論是大模型的訓(xùn)練還是部署,對(duì)大算力芯片的需求都很大,從目前的情況來(lái)看,大模型的訓(xùn)練在很長(zhǎng)時(shí)間都將要依賴于英偉達(dá)的GPU芯片。

而在大模型的推理部署方面,除了GPU,存算一體將是非常合適的選擇。未來(lái)大模型的部署規(guī)模會(huì)很大,從前不久英偉達(dá)專門推出適合大型語(yǔ)言模型部署的芯片平臺(tái)也能看出來(lái)。據(jù)億鑄科技透露,公司規(guī)劃的產(chǎn)品,在同等功耗下,性能將超越英偉達(dá)H100系列的推理芯片。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39820

    瀏覽量

    301496
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    9065

    瀏覽量

    143776
  • 存算一體
    +關(guān)注

    關(guān)注

    1

    文章

    121

    瀏覽量

    5140
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3651

    瀏覽量

    5193
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    憶聯(lián)UH812a以極致破局大模型載入瓶頸

    隨著大模型技術(shù)規(guī)?;涞兀珹I應(yīng)用的實(shí)時(shí)性正成為企業(yè)競(jìng)爭(zhēng)的核心。然而,在力持續(xù)升級(jí)的同時(shí),模型
    的頭像 發(fā)表于 03-04 16:22 ?773次閱讀
    憶聯(lián)UH812a以極致<b class='flag-5'>存</b><b class='flag-5'>力</b>破局大<b class='flag-5'>模型</b>載入<b class='flag-5'>瓶頸</b>

    曙光存儲(chǔ)兩大核心技術(shù)與全棧產(chǎn)品矩陣推動(dòng)范式革新

    當(dāng)AI大模型參數(shù)規(guī)模邁入萬(wàn)億級(jí)別,萬(wàn)卡級(jí)超集群已成為前沿AI研發(fā)與應(yīng)用的核心載體。然而澎湃的背后,數(shù)據(jù)
    的頭像 發(fā)表于 01-23 11:37 ?703次閱讀

    革命下的隱形基石:一體時(shí)代呼喚更精準(zhǔn)的“時(shí)間心跳”

    正在浮現(xiàn):決定系統(tǒng)最終效率與可靠性的,往往并非峰值本身,而是數(shù)據(jù)在存儲(chǔ)與計(jì)算單元之間反復(fù)搬運(yùn)所產(chǎn)生的巨大功耗與延遲瓶頸。為了突破“存
    的頭像 發(fā)表于 01-21 08:44 ?768次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>革命下的隱形基石:<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b><b class='flag-5'>時(shí)代</b>呼喚更精準(zhǔn)的“時(shí)間心跳”

    湘軍,讓變成生產(chǎn)

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    載譽(yù)而歸 | 蘋芯科技斬獲AABI火炬技術(shù)轉(zhuǎn)移獎(jiǎng),一體技術(shù)探索跨境創(chuàng)新合作

    (PimchipTechnology)憑借在一體芯片領(lǐng)域的技術(shù)突破與跨境技術(shù)轉(zhuǎn)化成果,成功斬
    的頭像 發(fā)表于 11-04 10:03 ?772次閱讀
    載譽(yù)而歸 | 蘋芯科技斬獲AABI火炬<b class='flag-5'>技術(shù)</b>轉(zhuǎn)移獎(jiǎng),<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b><b class='flag-5'>技術(shù)</b>探索跨境創(chuàng)新合作

    后摩爾定律時(shí)代,3D-CIM+RISC-V打造國(guó)產(chǎn)一體新范式

    ,、能效與帶寬瓶頸成為行業(yè)前行的關(guān)鍵阻礙,而美西方的技術(shù)禁運(yùn)更讓中國(guó)芯片產(chǎn)業(yè)面臨嚴(yán)峻挑戰(zhàn)。
    發(fā)表于 09-17 09:31 ?5904次閱讀
    后摩爾定律<b class='flag-5'>時(shí)代</b>,3D-CIM+RISC-V打造國(guó)產(chǎn)<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>新范式

    在TR組件優(yōu)化與一體架構(gòu)中構(gòu)建技術(shù)話語(yǔ)權(quán)

    電磁兼容性、熱管理在內(nèi)的12項(xiàng)專業(yè)能力評(píng)估。\"這種評(píng)估體系,正是行業(yè)對(duì)技術(shù)人才的分級(jí)認(rèn)證標(biāo)準(zhǔn)。 1.2 異構(gòu)計(jì)算架構(gòu)下的能力矩陣 一體架構(gòu)的普及正在重構(gòu)工程師的知識(shí)體系: 近內(nèi)
    發(fā)表于 08-26 10:40

    文看懂“一體

    今天這篇文章,我們來(lái)聊個(gè)最近幾年很火的概念——一體。為什么會(huì)提出“
    的頭像 發(fā)表于 08-18 12:15 ?1451次閱讀
    <b class='flag-5'>一</b>文看懂“<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>”

    一體技術(shù)加持!后摩智能 160TOPS 端邊大模型AI芯片正式發(fā)布

    ,同步推出力擎?系列M.2卡、謀?系列加速卡及計(jì)算盒子等硬件組合,形成覆蓋移動(dòng)終端與邊緣場(chǎng)景的完整產(chǎn)品矩陣。這系列動(dòng)作標(biāo)志著后摩智能在一體
    的頭像 發(fā)表于 07-30 07:57 ?8380次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b><b class='flag-5'>技術(shù)</b>加持!后摩智能 160TOPS 端邊大<b class='flag-5'>模型</b>AI芯片正式發(fā)布

    文看懂AI集群

    ,可以給AI浪潮提供源源不斷的動(dòng)力。那么,AI集群,到底是由哪些東西組成的呢?它為什么能夠提供澎湃的?它的內(nèi)部結(jié)構(gòu)又是怎樣的呢?包括了哪些關(guān)
    的頭像 發(fā)表于 07-23 12:18 ?1633次閱讀
    <b class='flag-5'>一</b>文看懂AI<b class='flag-5'>算</b><b class='flag-5'>力</b>集群

    緩解高性能一體芯片IR-drop問(wèn)題的軟硬件協(xié)同設(shè)計(jì)

    在高性能計(jì)算與AI芯片領(lǐng)域,基于SRAM的一體(Processing-In-Memory, PIM)架構(gòu)因兼具計(jì)算密度、能效和精度優(yōu)勢(shì)成為主流方案。隨著
    的頭像 發(fā)表于 07-11 15:11 ?1346次閱讀
    緩解高性能<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>芯片IR-drop問(wèn)題的軟硬件協(xié)同設(shè)計(jì)

    國(guó)際首創(chuàng)新突破!中國(guó)團(tuán)隊(duì)以一體排序架構(gòu)攻克智能硬件加速難題

    2025 年 6 月 25 日,北京大學(xué)團(tuán)隊(duì)在智能計(jì)算硬件方面取得領(lǐng)先突破,國(guó)際上首次實(shí)現(xiàn)了基于一體技術(shù)的高效排序硬件架構(gòu) (A fas
    的頭像 發(fā)表于 07-02 16:50 ?841次閱讀
    國(guó)際首創(chuàng)新<b class='flag-5'>突破</b>!中國(guó)團(tuán)隊(duì)以<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>排序架構(gòu)攻克智能硬件加速難題

    蘋芯科技 N300 一體 NPU,開(kāi)啟端側(cè) AI 新征程

    隨著端側(cè)人工智能技術(shù)的爆發(fā)式增長(zhǎng),智能設(shè)備對(duì)本地與能效的需求日益提高。而傳統(tǒng)馮·諾依曼架構(gòu)在數(shù)據(jù)處理效率上存在瓶頸,“內(nèi)存墻”問(wèn)題成為
    的頭像 發(fā)表于 05-06 17:01 ?1123次閱讀
    蘋芯科技 N300 <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b> NPU,開(kāi)啟端側(cè) AI 新征程

    DeepSeek推動(dòng)AI需求:800G光模塊的關(guān)鍵作用

    集群的部署過(guò)程中,帶寬瓶頸成為制約發(fā)揮的關(guān)鍵因素,而光模塊的速率躍升
    發(fā)表于 03-25 12:00

    接棒,慧榮科技以主控技術(shù)突破AI存儲(chǔ)極限

    電子發(fā)燒友網(wǎng)報(bào)道(文/黃山明)在AI的高速增長(zhǎng)下,尤其是以DeepSeek為代表的AI大模型推動(dòng)存儲(chǔ)需求激增,增長(zhǎng)倒逼升級(jí)。而存儲(chǔ)是
    的頭像 發(fā)表于 03-19 01:29 ?2852次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>力</b>接棒<b class='flag-5'>算</b><b class='flag-5'>力</b>,慧榮科技以主控<b class='flag-5'>技術(shù)</b><b class='flag-5'>突破</b>AI存儲(chǔ)極限