91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

存算一體芯片如何支持Transformer等不同模型?

后摩智能 ? 來(lái)源:后摩智能 ? 2024-01-05 14:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

后摩智能致力于打造通用人工智能芯片,自主研發(fā)的存算一體芯片在支持各類模型方面表現(xiàn)突出,包括YOLO系列網(wǎng)絡(luò)、BEV系列網(wǎng)絡(luò)、點(diǎn)云系列網(wǎng)絡(luò)等。這一系列芯片不僅在性能上有著顯著的優(yōu)勢(shì),而且特別針對(duì)目前自動(dòng)駕駛領(lǐng)域的算法進(jìn)行了專門(mén)的優(yōu)化。近期,后摩智能剛完成新一款技術(shù)驗(yàn)證芯片的量產(chǎn)測(cè)試,屬于國(guó)內(nèi)首款基于存算一體架構(gòu)的7nm車規(guī)級(jí)技術(shù)驗(yàn)證芯片,專為T(mén)ransformer 等車端大模型設(shè)計(jì)。

當(dāng)前,自動(dòng)駕駛等領(lǐng)域中,Transformer模型的應(yīng)用逐漸占據(jù)主導(dǎo)地位。這一架構(gòu)的優(yōu)勢(shì)在于其能夠更好地捕捉長(zhǎng)距離依賴關(guān)系,有助于提高模型對(duì)復(fù)雜場(chǎng)景的理解和處理能力。面對(duì)Transformer在自動(dòng)駕駛中的日益增長(zhǎng)的需求,一個(gè)關(guān)鍵的問(wèn)題浮現(xiàn)出來(lái):存算一體芯片是否能夠高效部署Transformer模型?

Q1?存算一體芯片能高效部署Transformer嗎?

Transformer架構(gòu)是一種強(qiáng)大的神經(jīng)網(wǎng)絡(luò)架構(gòu),能夠?qū)崿F(xiàn)高效的序列建模和復(fù)雜的任務(wù)處理,它的核心組成部分包括多層感知機(jī)(MLP)和多頭注意力(MHA)。MLP是一種前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),由多個(gè)層次的神經(jīng)元組成,每一層都與上一層的所有神經(jīng)元相連。

這些神經(jīng)元通過(guò)權(quán)重進(jìn)行連接。MLP在Transformer中負(fù)責(zé)對(duì)輸入特征進(jìn)行變換和映射,幫助網(wǎng)絡(luò)捕捉不同層次的抽象特征;MHA允許網(wǎng)絡(luò)在不同位置對(duì)輸入序列的不同部分進(jìn)行關(guān)注,從而提高模型的并行性和全局信息的捕捉能力。MHA的基本思想是通過(guò)多個(gè)注意力頭(Attention Head)并行處理輸入序列,每個(gè)頭都學(xué)習(xí)關(guān)注輸入的不同方面。

這種并行性有助于有效地處理長(zhǎng)序列,并使網(wǎng)絡(luò)更具擴(kuò)展性和泛化能力。在部署Transformer時(shí),AI芯片的任務(wù)就是高效執(zhí)行網(wǎng)絡(luò)中的MLP和MHA結(jié)構(gòu)。這需要AI芯片能對(duì)其中所有算子都有很高的并行執(zhí)行能力。

Q2?多層感知機(jī)如何高效部署在存算一體芯片上?

全連接層的本質(zhì)是執(zhí)行兩個(gè)矩陣(輸入特征矩陣和權(quán)重矩陣)的矩陣乘法。我們將其中權(quán)重存放在存算單元上。將輸入的特征送入存算單元,由存算單元中的計(jì)算單元直接完成乘累加操作,輸出乘累加結(jié)果。由于存算單元的計(jì)算密度很高,執(zhí)行這種全連接層的并行度很高,因此效率很高。另一方面,權(quán)重被保持在存算單元上,不發(fā)生移動(dòng),從而大幅降低了搬移權(quán)重所帶來(lái)的能耗開(kāi)銷。

多頭注意力是Transformer模型的一個(gè)關(guān)鍵組成部分,它有點(diǎn)像大腦的多個(gè)小模塊,每個(gè)模塊都負(fù)責(zé)關(guān)注輸入數(shù)據(jù)的不同方面。這個(gè)結(jié)構(gòu)之所以特別,是因?yàn)樗硕鄠€(gè)小“頭”,每個(gè)“頭”都在關(guān)注輸入數(shù)據(jù)的不同部分。

在處理輸入數(shù)據(jù)時(shí),每個(gè)“頭”都有三個(gè)關(guān)鍵矩陣,分別是查詢(Q)、鍵(K)、和值(V)。通過(guò)一系列數(shù)學(xué)運(yùn)算,多頭注意力可以捕捉到輸入序列中不同位置之間的關(guān)系。

關(guān)系計(jì)算:首先,我們讓查詢(Q)和鍵(K)進(jìn)行一種特殊的數(shù)學(xué)操作,就像在查找輸入數(shù)據(jù)中不同部分之間的聯(lián)系。這為模型提供了對(duì)輸入序列中不同位置的關(guān)注程度。

重要性映射:接著,我們通過(guò)一個(gè)函數(shù)(softmax)把剛才計(jì)算的結(jié)果映射到0到1之間,就好像在給不同位置分配注意力的“權(quán)重”,表示它們的相對(duì)重要性。

信息整合:最后,我們把剛才得到的歸一化的結(jié)果與值(V)進(jìn)行另一次數(shù)學(xué)操作,這樣就得到了最終輸出。這一步把被注意到的值通過(guò)權(quán)重相加,得到多頭注意力的最終輸出。

雖然這里提到的數(shù)學(xué)操作和全連接層有點(diǎn)相似,但在多頭注意力中,查詢、鍵、和值這三個(gè)矩陣是動(dòng)態(tài)生成的。這就意味著在執(zhí)行數(shù)學(xué)操作時(shí),需要靈活的加載數(shù)據(jù)到存算單元上,這一過(guò)程的效率對(duì)于處理器性能非常關(guān)鍵。

為了解決這個(gè)問(wèn)題,后摩智能設(shè)計(jì)了高效的存算單元數(shù)據(jù)加載硬件。這可以極大地提高存算單元中數(shù)據(jù)的替換效率,確保在多頭注意力的計(jì)算中,動(dòng)態(tài)產(chǎn)生的矩陣K、V能夠快速而高效地加載到存算單元中。這種巧妙的設(shè)計(jì)使得存算一體芯片能夠在執(zhí)行多頭注意力結(jié)構(gòu)時(shí)取得最佳性能,為T(mén)ransformer模型的高效運(yùn)行提供了強(qiáng)有力的支持。

除了計(jì)算密集型的全連接層和矩陣乘法之外,后摩智能的芯片還擁有大量的向量算力和標(biāo)量算力來(lái)處理其它算子,例如softmax和layernorm算子。為了充分利用這些算力資源,后摩智能采用了先進(jìn)的編譯優(yōu)化算法。這一算法的設(shè)計(jì)使得存算單元、向量單元和標(biāo)量單元能夠被同時(shí)調(diào)度,實(shí)現(xiàn)并行執(zhí)行不同的計(jì)算任務(wù)。這種并行計(jì)算的優(yōu)勢(shì)不僅僅體現(xiàn)在同一算子的多個(gè)實(shí)例之間,更在于不同算子之間的并發(fā)執(zhí)行。通過(guò)同時(shí)處理各個(gè)算子,后摩智能的芯片在運(yùn)行Transformer時(shí)能夠達(dá)到最高的效率,極大地提升了整個(gè)計(jì)算過(guò)程的速度和效能。

綜合而言,后摩智能芯片以其先進(jìn)的設(shè)計(jì)理念和高效的存算一體架構(gòu),成功解決了對(duì)Transformer算法的高效支持問(wèn)題。通過(guò)優(yōu)化全連接層、矩陣乘法和動(dòng)態(tài)加載、向量和標(biāo)量運(yùn)算等關(guān)鍵環(huán)節(jié),后摩智能為T(mén)ransformer運(yùn)行的高效性和性能提供了強(qiáng)大的支持,為自動(dòng)駕駛等領(lǐng)域的發(fā)展注入了新的動(dòng)力。未來(lái),后摩智能的存算一體架構(gòu)芯片也將隨著算法與硬件的演進(jìn),不斷迭代,滿足萬(wàn)物智能時(shí)代對(duì)算力的澎湃需求。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能芯片
    +關(guān)注

    關(guān)注

    1

    文章

    124

    瀏覽量

    31032
  • 后摩智能
    +關(guān)注

    關(guān)注

    0

    文章

    52

    瀏覽量

    1711

原文標(biāo)題:存算十問(wèn)|(九):存算一體芯片如何支持Transformer等不同模型?

文章出處:【微信號(hào):后摩智能,微信公眾號(hào):后摩智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    DeepSeek一體機(jī)背后,國(guó)產(chǎn)芯片崛起

    ? 電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)自DeepSeek推出以來(lái),最火的硬件產(chǎn)品非DeepSeek一體機(jī)莫屬。DeepSeek大模型的應(yīng)用和部署設(shè)計(jì)需要計(jì)算設(shè)備的支持,根據(jù)不同的大模型參數(shù)
    的頭像 發(fā)表于 03-10 08:19 ?7470次閱讀
    DeepSeek<b class='flag-5'>一體</b>機(jī)背后,國(guó)產(chǎn)<b class='flag-5'>算</b>力<b class='flag-5'>芯片</b>崛起

    燧原科技訓(xùn)推一體芯片L600適配階躍星辰基座模型Step 3.5 Flash

    ”的 Agent 底層模型選項(xiàng),從而真正融入日常開(kāi)發(fā)。燧原科技的新代訓(xùn)推一體芯片L600已率先完成適配,成為國(guó)內(nèi)首批適配該模型的國(guó)產(chǎn)
    的頭像 發(fā)表于 02-02 17:50 ?1284次閱讀
    燧原科技訓(xùn)推<b class='flag-5'>一體</b><b class='flag-5'>芯片</b>L600適配階躍星辰基座<b class='flag-5'>模型</b>Step 3.5 Flash

    AI一體,這家ReRAM新型存儲(chǔ)受關(guān)注

    及相關(guān)芯片產(chǎn)品的研發(fā),涵蓋AI一體(Computing in Memory, CIM)IP及大模型加速方案、高性
    的頭像 發(fā)表于 12-25 09:43 ?1944次閱讀
    AI<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>,這家ReRAM新型存儲(chǔ)受關(guān)注

    科技王紹迪:AI可穿戴需求爆發(fā),一體成主流AI芯片架構(gòu)

    集中在AI驅(qū)動(dòng)的細(xì)分場(chǎng)景需求釋放,知科技聚焦的一體芯片具備高技術(shù)壁壘,同時(shí)在AI發(fā)展需求下具備天然的架構(gòu)優(yōu)勢(shì)和發(fā)展前景。
    的頭像 發(fā)表于 12-23 09:34 ?9619次閱讀
    知<b class='flag-5'>存</b>科技王紹迪:AI可穿戴需求爆發(fā),<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>成主流AI<b class='flag-5'>芯片</b>架構(gòu)

    載譽(yù)而歸 | 蘋(píng)芯科技斬獲AABI火炬技術(shù)轉(zhuǎn)移獎(jiǎng),一體技術(shù)探索跨境創(chuàng)新合作

    (PimchipTechnology)憑借在一體芯片領(lǐng)域的技術(shù)突破與跨境技術(shù)轉(zhuǎn)化成果,成功斬獲2025年AABI火炬技術(shù)轉(zhuǎn)移獎(jiǎng)。這榮譽(yù)
    的頭像 發(fā)表于 11-04 10:03 ?772次閱讀
    載譽(yù)而歸 | 蘋(píng)芯科技斬獲AABI火炬技術(shù)轉(zhuǎn)移獎(jiǎng),<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>技術(shù)探索跨境創(chuàng)新合作

    一體AI芯片公司九天睿芯完成超億元B輪融資

    全球領(lǐng)先的一體AI芯片公司九天睿芯(英文:Reexen Technology)近日宣布,公司已完成B輪融資,規(guī)模超億元人民幣。
    的頭像 發(fā)表于 10-10 11:41 ?1202次閱讀

    后摩爾定律時(shí)代,3D-CIM+RISC-V打造國(guó)產(chǎn)一體新范式

    力、能效與帶寬瓶頸成為行業(yè)前行的關(guān)鍵阻礙,而美西方的技術(shù)禁運(yùn)更讓中國(guó)芯片產(chǎn)業(yè)面臨嚴(yán)峻挑戰(zhàn)。 ? 在這大背景下,
    發(fā)表于 09-17 09:31 ?5904次閱讀
    后摩爾定律時(shí)代,3D-CIM+RISC-V打造國(guó)產(chǎn)<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>新范式

    科技榮獲2025半導(dǎo)體市場(chǎng)創(chuàng)新表現(xiàn)獎(jiǎng)

    8月26日,第22屆深圳國(guó)際電子展(elexcon2025)現(xiàn)場(chǎng)正式揭曉聚焦行業(yè)技術(shù)突破與價(jià)值創(chuàng)造的“2025半導(dǎo)體市場(chǎng)創(chuàng)新表現(xiàn)獎(jiǎng)” ,知科技憑借WTM系列一體
    的頭像 發(fā)表于 08-28 17:09 ?1591次閱讀

    文看懂“一體

    今天這篇文章,我們來(lái)聊個(gè)最近幾年很火的概念——一體。為什么會(huì)提出“
    的頭像 發(fā)表于 08-18 12:15 ?1451次閱讀
    <b class='flag-5'>一</b>文看懂“<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>”

    一體技術(shù)加持!后摩智能 160TOPS 端邊大模型AI芯片正式發(fā)布

    ,同步推出力擎?系列M.2卡、力謀?系列加速卡及計(jì)算盒子硬件組合,形成覆蓋移動(dòng)終端與邊緣場(chǎng)景的完整產(chǎn)品矩陣。這系列動(dòng)作標(biāo)志著后摩智能在一體
    的頭像 發(fā)表于 07-30 07:57 ?8380次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>技術(shù)加持!后摩智能 160TOPS 端邊大<b class='flag-5'>模型</b>AI<b class='flag-5'>芯片</b>正式發(fā)布

    2025端側(cè)AI芯片爆發(fā):一體、非Transformer架構(gòu)誰(shuí)主浮沉?邊緣計(jì)算如何選型?

    各位技術(shù)大牛好!最近WAIC 2025上端側(cè)AI芯片密集發(fā)布,徹底打破傳統(tǒng)力困局。各位大佬在實(shí)際項(xiàng)目中都是如何選型的呢?
    發(fā)表于 07-28 14:40

    緩解高性能一體芯片IR-drop問(wèn)題的軟硬件協(xié)同設(shè)計(jì)

    在高性能計(jì)算與AI芯片領(lǐng)域,基于SRAM的一體(Processing-In-Memory, PIM)架構(gòu)因兼具計(jì)算密度、能效和精度優(yōu)勢(shì)成為主流方案。隨著
    的頭像 發(fā)表于 07-11 15:11 ?1342次閱讀
    緩解高性能<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b><b class='flag-5'>芯片</b>IR-drop問(wèn)題的軟硬件協(xié)同設(shè)計(jì)

    國(guó)際首創(chuàng)新突破!中國(guó)團(tuán)隊(duì)以一體排序架構(gòu)攻克智能硬件加速難題

    2025 年 6 月 25 日,北京大學(xué)團(tuán)隊(duì)在智能計(jì)算硬件方面取得領(lǐng)先突破,國(guó)際上首次實(shí)現(xiàn)了基于一體技術(shù)的高效排序硬件架構(gòu) (A fast and reconfigurable
    的頭像 發(fā)表于 07-02 16:50 ?841次閱讀
    國(guó)際首創(chuàng)新突破!中國(guó)團(tuán)隊(duì)以<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>排序架構(gòu)攻克智能硬件加速難題

    蘋(píng)芯科技 N300 一體 NPU,開(kāi)啟端側(cè) AI 新征程

    隨著端側(cè)人工智能技術(shù)的爆發(fā)式增長(zhǎng),智能設(shè)備對(duì)本地力與能效的需求日益提高。而傳統(tǒng)馮·諾依曼架構(gòu)在數(shù)據(jù)處理效率上存在瓶頸,“內(nèi)存墻”問(wèn)題成為制約端側(cè)AI性能突破的關(guān)鍵掣肘。在這背景下,
    的頭像 發(fā)表于 05-06 17:01 ?1123次閱讀
    蘋(píng)芯科技 N300 <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b> NPU,開(kāi)啟端側(cè) AI 新征程

    PIMCHIP S300 全球首款28nm節(jié)點(diǎn)實(shí)現(xiàn)存一體產(chǎn)品化AI芯片

    PIMCHIP-S300 芯片是蘋(píng)芯科技基于一體技術(shù)打造的多模態(tài)智慧感知決策 AI 芯片。其搭載基于靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)的
    的頭像 發(fā)表于 03-28 17:06 ?2627次閱讀
    PIMCHIP S300 全球首款28nm節(jié)點(diǎn)實(shí)現(xiàn)存<b class='flag-5'>算</b><b class='flag-5'>一體</b>產(chǎn)品化AI<b class='flag-5'>芯片</b>