91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何設(shè)計(jì)出最佳的AI推理芯片?

我快閉嘴 ? 來(lái)源:電子工程專輯 ? 作者:Geoff Tate ? 2020-07-17 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

去年誕生的推理芯片公司數(shù)量之多,足以讓您頭暈?zāi)垦?。由于業(yè)內(nèi)有眾多芯片,也不缺少質(zhì)量不錯(cuò)的測(cè)試基準(zhǔn),所以常常會(huì)遺忘極其重要的部分:內(nèi)存子系統(tǒng)。事實(shí)上,如果沒(méi)有很好的內(nèi)存子系統(tǒng),那就不可能有優(yōu)質(zhì)的推理芯片。因此,如果一家推理芯片公司只談?wù)揟OPS,卻很少討論SRAMDRAM和內(nèi)存子系統(tǒng),那這家公司可能并沒(méi)有一個(gè)很好的解決方案。

一切皆與數(shù)據(jù)吞吐量相關(guān)

優(yōu)質(zhì)推理芯片結(jié)構(gòu)合理,可以非常快速地移動(dòng)數(shù)據(jù),意味著芯片處理數(shù)據(jù)、將數(shù)據(jù)導(dǎo)入和導(dǎo)出內(nèi)存的速度非常之快。如果您看一下使用ResNet-50和YOLOv3的模型,將會(huì)發(fā)現(xiàn)它們不僅在計(jì)算方面,而且在各自如何使用內(nèi)存的方式上都有顯著差異。

對(duì)于使用ResNet-50的每張圖像,需要20億個(gè)乘積累加 (MAC),但是對(duì)于YOLOv3,則需要超過(guò)2000億個(gè)MAC,增加了100倍。部分原因在于YOLOv3權(quán)重更大(6200萬(wàn)的權(quán)重,而ResNet-50約為2300萬(wàn))。然而,最大的區(qū)別還在于典型基準(zhǔn)的圖像大小。ResNet-50使用224×224像素,實(shí)際上無(wú)人使用該尺寸,而YOLOv3使用200萬(wàn)像素。因此,YOLOv3的計(jì)算負(fù)載要大得多。

通過(guò)上述示例,您可以看到我們有兩種不同的工作負(fù)載,其中一種的工作量是另一種的100倍。問(wèn)題顯而易見(jiàn):這樣是否意味著YOLOv3運(yùn)行速度要慢100倍呢?要解答該問(wèn)題,唯一方法是通過(guò)查看內(nèi)存子系統(tǒng),因?yàn)檫@告訴您特定的實(shí)際吞吐量。

內(nèi)存子系統(tǒng)

對(duì)于推理芯片,我們不僅僅是開(kāi)發(fā)一顆芯片,而是創(chuàng)造一個(gè)系統(tǒng)。芯片的MAC相當(dāng)于引擎,但是如果沒(méi)有正確的燃料傳輸系統(tǒng)(內(nèi)存和互聯(lián)),引擎就會(huì)熄火。

了解一下推理芯片的運(yùn)行過(guò)程,您會(huì)發(fā)現(xiàn)要先有數(shù)據(jù)導(dǎo)入,之后須以一定的速度(比如每秒30幀)提供新的圖像。圖像導(dǎo)入芯片,然后就會(huì)輸出某種結(jié)果。圖像大小各異,但大多數(shù)應(yīng)用要處理百萬(wàn)像素級(jí)的圖像才能達(dá)到足夠的精度。

在芯片內(nèi)部,使用神經(jīng)網(wǎng)絡(luò)模型處理圖像,這需要代碼和權(quán)重,在每一層的末端還有中間激活函數(shù)。所有這些都需要存儲(chǔ)在某個(gè)地方,然后讀寫到推理芯片的計(jì)算單元中。

應(yīng)用

AI推理的應(yīng)用非常多,自動(dòng)駕駛等邊緣應(yīng)用代表著最大的機(jī)遇之一。未來(lái),每輛車都將配有多個(gè)推理引擎,可以實(shí)時(shí)檢測(cè)到行人、公共汽車和小轎車從而避開(kāi)他們。這使得處理大尺寸圖像(比如在YOLOv3中)非常重要。設(shè)想一下用肉眼看圖像的情況,也是如此。如果有人給您看了一張小圖片,您就會(huì)錯(cuò)過(guò)很多細(xì)節(jié),甚至還可能曲解圖片。在自動(dòng)駕駛汽車和監(jiān)控?cái)z像頭中,小細(xì)節(jié)才是關(guān)鍵。

邊緣和云端的區(qū)別在于,在邊緣您需要發(fā)送即時(shí)響應(yīng),而在云端通常有大量數(shù)據(jù),且需要有足夠時(shí)間處理。舉個(gè)例子,如果您在車?yán)?,便需要知道行人在哪里,這樣才能有效避開(kāi)他們。但是,數(shù)據(jù)中心的情況則不同,數(shù)據(jù)中心中有一些應(yīng)用(如為圖像貼標(biāo)簽)可以在夜間進(jìn)行大批量處理。這在邊緣應(yīng)用場(chǎng)景中是行不通的,因?yàn)檫@時(shí)所有操作都必須快速處理。且延遲很短,這就意味著處理批次= 1。

因此,本質(zhì)上我們是重新設(shè)計(jì)芯片,以便在短時(shí)間(低延遲)內(nèi)交付結(jié)果,及時(shí)進(jìn)行正確的響應(yīng)。我們需要立即處理數(shù)據(jù)并立即返回結(jié)果,這意味著內(nèi)存是其中絕對(duì)關(guān)鍵的一部分。

若使用ResNet-50,您會(huì)發(fā)現(xiàn)有許多芯片的性能在處理批次= 10或100時(shí)非常高,但當(dāng)處理批次= 1時(shí)性能就下降很多,某些芯片的性能下降幅度高達(dá)75%。這意味著,無(wú)論他們從高批次處理率的MAC獲得的利用率有多高,當(dāng)批處理率為1時(shí)其利用率只有四分之一。因此,在處理批次=1時(shí)(這在邊緣應(yīng)用中很關(guān)鍵),一些芯片的MAC計(jì)算能力利用率還不到25%。

架構(gòu)變化

過(guò)去,處理器的內(nèi)存架構(gòu)(如今仍在數(shù)據(jù)中心中進(jìn)行大量推理)采用DRAM和多層緩存,所有這些都被饋入處理器。內(nèi)存是集中式單一存儲(chǔ)器。而推理芯片的內(nèi)存是分布式的。一種加快數(shù)據(jù)處理速度的方法是把MAC分成塊,然后用本地化SRAM來(lái)分配這些塊。這是Flex Logix和Intel等公司所采用的一種方法,將在未來(lái)占據(jù)主導(dǎo)地位。這樣做的理由是,讓內(nèi)存更接近MAC會(huì)縮短延遲時(shí)間,從而提高M(jìn)AC分布式并行處理能力。

邊緣應(yīng)用的另一關(guān)鍵要求是要滿足成本和功耗預(yù)算。用于訓(xùn)練的芯片可以占用整片晶圓大小,而針對(duì)汽車和監(jiān)控?cái)z像頭等應(yīng)用的芯片有相關(guān)的成本預(yù)算和功耗限制。通常,在滿足這些預(yù)算的情況下,可用的SRAM數(shù)量不足以在芯片上存儲(chǔ)所有的權(quán)重、代碼和中間激活函數(shù)。這些芯片需要不斷地處理大量的數(shù)據(jù),而大多數(shù)邊緣應(yīng)用總是處于工作狀態(tài)。因?yàn)樗行酒紩?huì)發(fā)熱,所以其處理量與散熱量呈正相關(guān)。若能從同等數(shù)量的芯片和功耗預(yù)算中獲得更多的吞吐量,這種芯片架構(gòu)將會(huì)是贏家,因?yàn)樗鼈兡軌蚧ㄝ^少的功耗和成本交付更多的結(jié)處理結(jié)果。

優(yōu)化功耗和成本

有些捷徑可以讓公司折中檢測(cè)目標(biāo)的精準(zhǔn)度。然而,這并非客戶想要的方式。客戶希望運(yùn)行的模型可以獲得高精度的對(duì)象檢測(cè)和識(shí)別,還要在一定的功耗限制范圍內(nèi)。要做到這一點(diǎn),關(guān)鍵在于內(nèi)存子系統(tǒng)。

如果使用ResNet-50或YOLOv3,需要存儲(chǔ)權(quán)重。YOLOv3中的權(quán)重約為23MB,而ResNet-50的權(quán)重約為62MB。僅是將這些權(quán)重存儲(chǔ)在芯片上就需要接近100平方毫米的芯片面積,這對(duì)大多數(shù)應(yīng)用來(lái)說(shuō)都不可行。這意味著大容量?jī)?nèi)存需要在芯片之外,也就是使用DRAM。

有一點(diǎn)需要說(shuō)明,我們經(jīng)常被問(wèn)到DRAM的類型是否重要,答案是非常重要。高帶寬內(nèi)存(HBM)極其昂貴,對(duì)于成本預(yù)算嚴(yán)格的邊緣應(yīng)用不太適用。LPDDR4是一種更好的內(nèi)存,因?yàn)樗哂懈鼘挼目偩€配置,可以從單個(gè)DRAM中獲得更多的帶寬。DRAM對(duì)熱非常敏感,對(duì)于在室外工作的汽車和監(jiān)控?cái)z像機(jī)來(lái)說(shuō),可能是個(gè)問(wèn)題。因此,考慮到成本和散熱問(wèn)題,最好盡量少用DRAM。

如何設(shè)計(jì)出最佳的推理芯片

設(shè)計(jì)者要考慮客戶將進(jìn)行何種類型的處理、它們的負(fù)載和應(yīng)用會(huì)是什么、以及它們會(huì)在哪里使用,方能設(shè)計(jì)出最佳的推理芯片。歸根結(jié)底,客戶想要最高的吞吐量——這意味著他們需要高的MAC利用率。獲得高M(jìn)AC利用率的方法就是為MAC提供高帶寬,但希望用最少的SRAM和最少的DRAM來(lái)實(shí)現(xiàn)。

芯片設(shè)計(jì)者需要知道客戶會(huì)在哪些應(yīng)用場(chǎng)景下使用,并采用相應(yīng)的模型,而且要密切關(guān)注其權(quán)重、代碼大小和激活函數(shù)。現(xiàn)在有一些建模工具可以讓芯片設(shè)計(jì)者調(diào)整MAC、SRAM和DRAM的數(shù)量,能夠做出一系列折衷取舍,以便決定如何交付最低價(jià)的芯片和最高的吞吐量。

芯片設(shè)計(jì)者還能用很多方法來(lái)組織MAC,讓其以更高的頻率運(yùn)行。例如,可以將MAC優(yōu)化為8位的乘積和累加,比16位的乘法和累加運(yùn)行得更快。在這種情況下,惟一的折衷是精度稍低一些,但是可以在成本和功耗較低的前提下提供更大的吞吐量。

那么,ResNet-50和YOLOv3在內(nèi)存使用方面有什么不同呢?雖然權(quán)重有2倍的差異,但最大的區(qū)別在于激活函數(shù)。ResNet-50的每一層都會(huì)產(chǎn)生激活函數(shù),其最大激活函數(shù)大小為1MB,有些層甚至更小一些。對(duì)于YOLOv3,最大層的最大激活函數(shù)大小是64MB,這64MB必須存儲(chǔ)起來(lái)以便進(jìn)入下一層。如果注意一下片上或DRAM容量需求,您會(huì)發(fā)現(xiàn)YOLOv3的激活函數(shù)實(shí)際上比權(quán)重需要更多存儲(chǔ)容量,這與ResNet-50大不相同。事實(shí)上,客戶需要謹(jǐn)慎的是,一些公司設(shè)計(jì)芯片時(shí)會(huì)在片上儲(chǔ)存ResNet-50權(quán)重,他們知道其激活函數(shù)很小,能讓其性能“看起來(lái)”更好。然而,在實(shí)際應(yīng)用中,這種芯片的性能會(huì)下降得特別厲害。

SRAM和DRAM的折衷

DRAM芯片不便宜,但更貴的是與DRAM芯片的連接。芯片設(shè)計(jì)公司往往注重裸片尺寸,但芯片封裝尺寸也是決定成本的一個(gè)重要因素,有時(shí)可能比裸片更貴。每增加一個(gè)DRAM,至少增加100個(gè)球。如今一些芯片有8個(gè)DRAM連接,這就需要對(duì)1000個(gè)球進(jìn)行封裝,導(dǎo)致芯片非常昂貴。雖然公司意識(shí)到不能在芯片上配置所有的SRAM,但他們也知道不能通過(guò)過(guò)多的DRAM來(lái)解開(kāi)成本難題。他們真正需要的是用盡可能少的DRAM和盡可能少的SRAM。要想如此,芯片設(shè)計(jì)者需要研究激活函數(shù)。了解一下64MB的激活函數(shù),就會(huì)發(fā)現(xiàn)其實(shí)只有一個(gè)。大多數(shù)激活函數(shù)還是較小的,所以如果將8MB的SRAM放在芯片上,大多數(shù)中間激活函數(shù)將可以存儲(chǔ)在芯片上,只需要用DRAM來(lái)處理最大的激活函數(shù)。

這是推理芯片的最佳方案,也是芯片設(shè)計(jì)者在設(shè)計(jì)中應(yīng)該努力追求的目標(biāo)。如果您是客戶,您要問(wèn)一下有關(guān)芯片內(nèi)存子系統(tǒng)的問(wèn)題,因?yàn)檫@是決定它在實(shí)際應(yīng)用中性能表現(xiàn)的重要因素。
責(zé)任編輯:tzh

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    463

    文章

    54267

    瀏覽量

    468304
  • 攝像頭
    +關(guān)注

    關(guān)注

    61

    文章

    5107

    瀏覽量

    103398
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40643

    瀏覽量

    302304
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    高通挑戰(zhàn)英偉達(dá),發(fā)布768GB內(nèi)存AI推理芯片,“出征”AI數(shù)據(jù)中心

    億美元的數(shù)據(jù)中心市場(chǎng)中搶占一席之地。 就在10月28日,高通面向數(shù)據(jù)中心連發(fā)兩款AI芯片,AI200 和 AI250 芯片,打造下一代
    的頭像 發(fā)表于 10-29 10:36 ?3803次閱讀
    高通挑戰(zhàn)英偉達(dá),發(fā)布768GB內(nèi)存<b class='flag-5'>AI</b><b class='flag-5'>推理</b><b class='flag-5'>芯片</b>,“出征”<b class='flag-5'>AI</b>數(shù)據(jù)中心

    高通挑戰(zhàn)英偉達(dá)!發(fā)布768GB內(nèi)存AI推理芯片,“出征”AI數(shù)據(jù)中心

    億美元的數(shù)據(jù)中心市場(chǎng)中搶占一席之地。 ? 就在10月28日,高通面向數(shù)據(jù)中心連發(fā)兩款AI芯片,AI200 和 AI250 芯片,打造下一代
    的頭像 發(fā)表于 10-29 09:14 ?6630次閱讀
    高通挑戰(zhàn)英偉達(dá)!發(fā)布768GB內(nèi)存<b class='flag-5'>AI</b><b class='flag-5'>推理</b><b class='flag-5'>芯片</b>,“出征”<b class='flag-5'>AI</b>數(shù)據(jù)中心

    AI推理芯片需求爆發(fā),OpenAI欲尋求新合作伙伴

    電子發(fā)燒友網(wǎng)綜合報(bào)道,在人工智能迅猛發(fā)展的當(dāng)下,AI推理芯片需求正呈爆發(fā)式增長(zhǎng)。 ? AI推理,即支撐如ChatGPT這類
    的頭像 發(fā)表于 02-03 17:15 ?3137次閱讀

    使用NORDIC AI的好處

    原始傳感器數(shù)據(jù),可顯著降低功耗、延長(zhǎng)電池壽命。[Edge AI 概述; Nordic Edge AI 技術(shù)頁(yè)] 降低云依賴與時(shí)延 直接在設(shè)備上做推理,很多決策可以“本地實(shí)時(shí)”完成,不必等云端響應(yīng)
    發(fā)表于 01-31 23:16

    歐洲之光!5nm,3200 TFLOPS AI推理芯片即將量產(chǎn)

    電子發(fā)燒友網(wǎng)綜合報(bào)道 今年10月,歐洲芯片公司VSORA(總部位于法國(guó)巴黎)宣布開(kāi)始生產(chǎn)其AI推理芯片Jotunn8,這也令VSORA成為歐洲唯一一家推出高性能
    的頭像 發(fā)表于 11-29 13:52 ?6088次閱讀
    歐洲之光!5nm,3200 TFLOPS <b class='flag-5'>AI</b><b class='flag-5'>推理</b><b class='flag-5'>芯片</b>即將量產(chǎn)

    AI推理需求爆發(fā)!高通首秀重磅產(chǎn)品,國(guó)產(chǎn)GPU的自主牌怎么打?

    推出,直接推動(dòng)AI推理市場(chǎng)的上揚(yáng),未來(lái)3-5年都是AI推理領(lǐng)域的規(guī)模應(yīng)用階段。不管是行業(yè)應(yīng)用,還是算力相關(guān)的芯片,都將大規(guī)模的圍繞
    的頭像 發(fā)表于 10-30 00:46 ?1.4w次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>需求爆發(fā)!高通首秀重磅產(chǎn)品,國(guó)產(chǎn)GPU的自主牌怎么打?

    什么是AI模型的推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊(duì)為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1399次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片

    、分布式群體智能 1)物聯(lián)網(wǎng)AGI系統(tǒng) 優(yōu)勢(shì): 組成部分: 2)分布式AI訓(xùn)練 7、發(fā)展重點(diǎn):基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練與推理 8、超越大模型:神經(jīng)符號(hào)計(jì)算 三、AGI芯片的實(shí)現(xiàn) 1、技術(shù)需求 AI
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    主要步驟: ①溯因②假說(shuō)③實(shí)驗(yàn) 1、科學(xué)推理的類型 ①演繹②歸納 2、自動(dòng)化科學(xué)發(fā)現(xiàn)框架 AI-笛卡兒-----自動(dòng)化科學(xué)發(fā)現(xiàn)框架,利用數(shù)據(jù)和知識(shí)來(lái)生成和評(píng)估候選的科學(xué)假說(shuō)。 4項(xiàng)規(guī)則:三、直覺(jué)
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)

    的工作嗎? 從書中也了解到了AI芯片都有哪些?像CPU、GPU、FPGA、ASIC都是AI芯片。 其他的還是知道的,F(xiàn)PGA屬于AI
    發(fā)表于 09-12 16:07

    華為亮相2025金融AI推理應(yīng)用落地與發(fā)展論壇

    近日,2025金融AI推理應(yīng)用落地與發(fā)展論壇在上海舉行。中國(guó)銀聯(lián)執(zhí)行副總裁涂曉軍、華為數(shù)字金融軍團(tuán)CEO曹沖出席本次論壇并發(fā)表致辭。論壇上,華為公司副總裁、數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周躍峰博士發(fā)布AI
    的頭像 發(fā)表于 08-15 09:45 ?1347次閱讀

    AI推理芯片賽道猛將,200億市值AI芯片企業(yè)赴港IPO

    7月30日,AI芯片龍頭企業(yè)云天勵(lì)飛正式向港交所遞交招股說(shuō)明書。 ? 云天勵(lì)飛成立于2014年8月,于2023年4月在上交所科創(chuàng)板掛牌,截至8月1日的市值為216億元。專注于AI推理
    的頭像 發(fā)表于 08-04 09:22 ?4838次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b><b class='flag-5'>芯片</b>賽道猛將,200億市值<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>企業(yè)赴港IPO

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    DeepSeek-R1:強(qiáng)大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開(kāi)發(fā)的新一代AI大模型。其核心優(yōu)勢(shì)在于強(qiáng)大的推理引擎能力,融合了自然語(yǔ)言處理(
    發(fā)表于 07-16 15:29

    谷歌第七代TPU Ironwood深度解讀:AI推理時(shí)代的硬件革命

    、架構(gòu)設(shè)計(jì)的顛覆性創(chuàng)新 ? 首款推理專用TPU ? Ironwood是谷歌TPU系列中首款完全針對(duì)AI推理優(yōu)化的芯片,標(biāo)志著AI
    的頭像 發(fā)表于 04-12 11:10 ?4060次閱讀
    谷歌第七代TPU Ironwood深度解讀:<b class='flag-5'>AI</b><b class='flag-5'>推理</b>時(shí)代的硬件革命

    谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理AI 模型新引擎?

    Cloud 客戶開(kāi)放,將提供 256 芯片集群以及 9,216 芯片集群兩種配置選項(xiàng)。 ? 在核心亮點(diǎn)層面,Ironwood 堪稱谷歌首款專門為 AI 推理精心設(shè)計(jì)的 TPU
    的頭像 發(fā)表于 04-12 00:57 ?3954次閱讀