91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI應(yīng)用的絕佳組合:NPU+DSP!

AI智勝未來 ? 來源:半導(dǎo)體行業(yè)觀察 ? 2023-05-19 15:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如今,人工智能應(yīng)用正在滲透入大眾生活的方方面面,自動駕駛技術(shù)的行人檢測、數(shù)碼相機(jī)的圖像質(zhì)量增強(qiáng)、AI美顏、語音識別……這些人工智能應(yīng)用的背后離不開硬件的支持。雖然神經(jīng)網(wǎng)絡(luò)處理器(NPU)在性能、效率和算法靈活性方面已優(yōu)于可編程DSP,但這并不意味著 AI 處理中不需要 DSP。恰恰相反,對于許多應(yīng)用的AI子系統(tǒng)來說,神經(jīng)網(wǎng)絡(luò)處理器(NPU)與矢量DSP是絕佳組合。

哪些應(yīng)用需要用到DSP?NPU和DSP該如何更好的配置?行業(yè)內(nèi)是否有現(xiàn)成的解決方案可供選擇?本文將針對這些問題一一進(jìn)行講解。

DSP在AI應(yīng)用中發(fā)揮重要作用


從眾多神經(jīng)網(wǎng)絡(luò)處理需求來看,例如卷積神經(jīng)網(wǎng)絡(luò) (CNN) 或轉(zhuǎn)換器,任何可以執(zhí)行乘法運(yùn)算并移動大量數(shù)據(jù)的處理器最終都可以執(zhí)行這些計(jì)算密集型模型。借助先進(jìn)的量化技術(shù),經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的32位浮點(diǎn)輸出可以在 8 位整數(shù)控制器或處理器上運(yùn)行,而且精度幾乎沒有降低。這意味著可以在 CPU、GPU、DSP 甚至MCU上處理CNN推理,準(zhǔn)確度不受影響。

目前在行業(yè)內(nèi)通常用TOPS(每秒萬億次運(yùn)算)來衡量AI處理器的性能,也稱之為“算力”。TOPS 的計(jì)算方式為:一個周期內(nèi)可以完成的運(yùn)算次數(shù)(一次乘積累加視為兩次運(yùn)算)x最大頻率。這是很好的首次性能估算,因?yàn)榇蟛糠钟?jì)算由對矩陣乘法的需求驅(qū)動,而矩陣乘法需要乘積累加運(yùn)算。

按照這種計(jì)算方法,讓我們來看下不同處理器類型的理想TOPS。具有DSP擴(kuò)展的CPU可以每個時鐘周期執(zhí)行一次乘積累加 (MAC) 并以 2GHz的速度運(yùn)行,其運(yùn)算能力為:2GHz x 2次運(yùn)算(包括乘積和累加)x 1 MAC/周期 = 4 GOPS 或 0.004 TOPS(1TOPS等于1000 GOPS)。以此類推,矢量DSP的理想TOPS為1.2,高端的NPU將達(dá)到255.6 TOPS。如表1中所示,從理想的算力能力上來看,神經(jīng)處理單元 (NPU) 是獲得最高計(jì)算能力的最佳選擇。

8b657752-f614-11ed-90ce-dac502259ad0.png

表1 :各種處理器的大致性能范圍

誠然,計(jì)算能力固然重要,但一些應(yīng)用對實(shí)時性能的要求也很高。如在汽車應(yīng)用中,當(dāng)一輛汽車以 70 英里/小時的速度沖向行人,需要迅速決定是否要剎車。多攝像頭配置、高分辨率、最低延遲,這些因素都對計(jì)算效率提出了更高要求,以幫助汽車做出生死攸關(guān)的決定。因此,我們需要更謹(jǐn)慎地選擇用于處理AI推理的處理器。

GPU在AI計(jì)算中也可以提供高性能,但由于其功耗和面積成本很高,對于實(shí)時應(yīng)用來說難以接受,所以并未在上表中列出。事實(shí)上,上表中所列的每種處理器都需要不同級別的功率和面積才能達(dá)到所需的運(yùn)算能力。對于實(shí)時應(yīng)用來說,功耗和面積(與成本和可制造性直接相關(guān))幾乎與性能同樣重要。理論上來說,NPU經(jīng)過設(shè)計(jì)和優(yōu)化,是執(zhí)行神經(jīng)網(wǎng)絡(luò)算法時性能、功耗和面積效率最高的處理器。

但是,并非每個AI應(yīng)用都需要NPU提供的最高級別的神經(jīng)網(wǎng)絡(luò)性能。如下圖1所示,不同的AI應(yīng)用涵蓋從幾GOPS到數(shù)千TOPS的各種性能要求。當(dāng)你的AI應(yīng)用所需算力小于1 TOPS時,具有DSP擴(kuò)展的CPU或者矢量DSP是比較理想的選擇;而當(dāng)算力要求高于1 TOPS時,NPU的 AI 性能效率、功耗效率和面積效率毋庸置疑。

8b761b66-f614-11ed-90ce-dac502259ad0.png

圖 1:AI 應(yīng)用有各種各樣的性能要求。

NPU 的最佳效率來自每個周期可以完成的大量乘積,以及一些專用于其他神經(jīng)網(wǎng)絡(luò)運(yùn)算(例如激活函數(shù))的硬件。NPU 面臨的挑戰(zhàn)是如何實(shí)現(xiàn)最大硬件加速,從而最大限度地提高神經(jīng)網(wǎng)絡(luò)效率,還要保持一定程度的可編程性。雖然現(xiàn)在全硬件神經(jīng)網(wǎng)絡(luò)ASIC比可編程 NPU更高效,但AI技術(shù)發(fā)展迅速,AI SoC的生產(chǎn)周期很長,因此保持一定程度的可編程性至關(guān)重要。

而且,NPU是專用的神經(jīng)處理器引擎,只能執(zhí)行AI計(jì)算。如果將矢量DSP和NPU結(jié)合使用,利用矢量DSP對NPU進(jìn)行支持,就可以提供最高性能和額外的可編程性。例如,在自動駕駛汽車中,需要利用NPU來尋找行人、識別街道標(biāo)志、使用神經(jīng)網(wǎng)絡(luò)進(jìn)行雷達(dá)處理,在這些多應(yīng)用處理中,系統(tǒng)可利用矢量DSP來為NPU進(jìn)行額外篩選、雷達(dá)或LiDAR處理以及預(yù)處理和后處理。


NPU+DSP的三種配置方式


圖2顯示了在 AI 應(yīng)用中將NPU和矢量DSP結(jié)合使用的各種可能性。在圖中所示的三種情況下,高分辨率圖像幀位于DDR內(nèi)存中,等待在下一幀到達(dá)之前得到處理。

8ba2ef4c-f614-11ed-90ce-dac502259ad0.png

圖 2:矢量DSP和神經(jīng)網(wǎng)絡(luò)性能的不同組合。

在第一種配置中(左側(cè)),矢量 DSP本身既可用于DSP處理也可用于一部分AI處理,這屬于運(yùn)算能力低于 1 TOPS 的用例,這種配置需要大型DSP+小型AI。這種配置的具體示例是為永磁同步電機(jī) (PMSM) 執(zhí)行無傳感器磁場定向控制 (FOC) 的矢量 DSP。基于 DSP 的電機(jī)控制通過 AI 處理實(shí)現(xiàn)擴(kuò)展,AI 處理的作用是執(zhí)行位置監(jiān)控,并將相關(guān)信息反饋到控制回路。AI 模型的采樣率和計(jì)算復(fù)雜性使其能夠與矢量DSP的AI功能相適應(yīng)。

在第二種配置中(中間),AI SoC 需要很高的矢量DSP性能和AI 性能,這種配置是大型 AI+大型 DSP。當(dāng)矢量DSP處理高度依賴DSP的任務(wù)時,需要用NPU為AI密集型任務(wù)提供的神經(jīng)網(wǎng)絡(luò)加速作為補(bǔ)充。數(shù)碼相機(jī)就是這種配置,矢量 DSP 可以對 NPU 執(zhí)行視覺處理以及預(yù)處理和后處理支持,而 NPU 則專用于對高分辨率圖像進(jìn)行 CNN 或轉(zhuǎn)換器處理(對象檢測、語義分割、超分辨率等)。這些用例需要緊密集成的矢量 DSP 和 NPU 解決方案,而且可進(jìn)行擴(kuò)展以適應(yīng)性能目標(biāo)。

第三個配置是小型 DSP+大型 AI。所有的處理都集中在神經(jīng)網(wǎng)絡(luò)上,雖然這些神經(jīng)網(wǎng)絡(luò)通??梢栽?NPU 中執(zhí)行,但有一些更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型需要矢量 DSP 的支持來執(zhí)行浮點(diǎn)運(yùn)算,如Mask-RCNN 的 ROI 池化和 ROI 對齊,或 Deeplab v3 使用的非整數(shù)比例因子。即使 AI SoC 不需要任何額外的 DSP 處理,納入一定程度的矢量 DSP 性能來支持 NPU 還是有好處的,這可以更好地適應(yīng)未來的發(fā)展需求。


新思科技ARC EV7x能夠?qū)崿F(xiàn)

矢量DSP和NPU緊密耦合


雖然市場上有多種矢量DSP和NPU供選擇,但對于第二種和第三種配置,最好選擇包含緊密集成處理器的 AI 解決方案。一些神經(jīng)網(wǎng)絡(luò)加速器將矢量DSP嵌入到神經(jīng)網(wǎng)絡(luò)解決方案中,這樣限制了矢量DSP用于外部編程。

而新思科技的ARC EV7x 視覺處理器是異構(gòu)處理器,它將矢量DSP與可選的神經(jīng)網(wǎng)絡(luò)引擎緊密耦合。為了提高客戶的靈活性和可編程性,ARC EV7x系列正在發(fā)展成為 ARC VPX 矢量 DSP 系列和 ARC NPX NPU 系列。VPX 和 NPX 是緊密耦合的 AI 解決方案。圖 3 顯示了這兩種處理器的粗略框圖及其互連方式。

8bce147e-f614-11ed-90ce-dac502259ad0.png

圖 3:新思科技 ARC VPX5 和 ARC NPX6 的緊密耦合型組合

ARC VPX DSP IP在基于超長指令字 (VLIW)/單指令多數(shù)據(jù) (SIMD) 架構(gòu)的并行 DSP 處理方面表現(xiàn)出色,并針對嵌入式工作負(fù)載的功耗、性能和面積 (PPA) 要求進(jìn)行了優(yōu)化??蓪?VPX 系列配置為支持浮點(diǎn)和多種整數(shù)格式(包括用于 AI 推理的 INT8 運(yùn)算)。VPX 系列在 128 位(VPX2、VPX2FS)、256 位(VPX3、VPX3FS)和 512 位(VPX5、VPX5FS)矢量字上運(yùn)行,因此可提供多種性能,還可以從單核擴(kuò)展到四核。這樣可以每個周期提供 16 個 INT8 MAC 至 512 個 INT8 MAC(在四核 VPX5 上使用雙 MAC 配置)。

ARC NPX NPU IP專用于 NN 處理,還針對實(shí)時應(yīng)用的 PPA 要求進(jìn)行了優(yōu)化。該系列從每個周期 4096 個 MAC 的版本擴(kuò)展到每個周期 96000 個 MAC 的版本,然后可以擴(kuò)展到多個實(shí)例。NXP6 系列在單個 SoC 上的 AI 性能可從 1 TOPS 擴(kuò)展到 1000 TOPS。它還針對 CNN 的最新神經(jīng)網(wǎng)絡(luò)模型和新興的轉(zhuǎn)換器模型類別進(jìn)行了優(yōu)化。

如圖 3 所示,VPX 和 NPX 系列緊密集成。ARCsync 是額外的 RTL,可在處理器之間提供中斷控制。數(shù)據(jù)通過外部 NOC 或 AXI 總線傳遞,這類總線通常已在 SoC 系統(tǒng)中存在。雖然兩個處理器可以完全獨(dú)立運(yùn)行,但 VPX5 能夠根據(jù)需要訪問 NPX6 的 L2 內(nèi)存。

通用軟件開發(fā)工具鏈 ARC MetaWare MX 也支持 VPX5 和 NPX6 的緊密集成,該工具鏈支持 NXP 和 VPX 的任意組合。SoC 架構(gòu)師可以使用這些可擴(kuò)展處理器系列選擇 DSP 性能和 AI 性能的正確組合,以最大限度地提高性能并減少面積開銷。對于高度依賴 AI 的工作負(fù)載,“大型 AI,小型 DSP”配置的經(jīng)驗(yàn)法則是,每 8000 或 16000 個 MAC 為 NPX 配備一個 VPX5(具體取決于模型和工作負(fù)載)。對于 NPX6-64K 配置,建議至少使用四個 VPX5 內(nèi)核。


結(jié)語


誠然,對于特定任務(wù)(例如行人對象檢測),神經(jīng)網(wǎng)絡(luò)處理已經(jīng)取代了 DSP 處理,但矢量 DSP 的 SIMD 功能與 DSP 支持功能和 AI 支持功能相結(jié)合,可使其成為 AI 系統(tǒng)的重要組成部分。隨著嵌入式應(yīng)用對 AI 處理的需求持續(xù)增長,要實(shí)現(xiàn)靈活設(shè)計(jì),建議的最佳做法是結(jié)合使用 NPU 和矢量 DSP,前者用于AI處理,后者用于提供對NPU支持和DSP處理,這樣有助于為快速發(fā)展的AI提供具有前瞻性的AI SoC。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4838

    瀏覽量

    107875
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39926

    瀏覽量

    301564
  • 自動駕駛
    +關(guān)注

    關(guān)注

    794

    文章

    14893

    瀏覽量

    180086

原文標(biāo)題:AI應(yīng)用的絕佳組合:NPU+DSP!

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    【迅為iTOP-Hi3403開發(fā)板】一站式啟動Hi3403 NPU開發(fā):從運(yùn)行例程開始,快速驗(yàn)證AI效能

    【迅為iTOP-Hi3403開發(fā)板】一站式啟動Hi3403 NPU開發(fā):從運(yùn)行例程開始,快速驗(yàn)證AI效能
    的頭像 發(fā)表于 02-12 15:59 ?999次閱讀
    【迅為iTOP-Hi3403開發(fā)板】一站式啟動Hi3403 <b class='flag-5'>NPU</b>開發(fā):從運(yùn)行例程開始,快速驗(yàn)證<b class='flag-5'>AI</b>效能

    使用NORDIC AI的好處

    ; 自定義 Neuton 模型博客] Axon NPU :集成在 nRF54LM20B 等高端 SoC 中的專用 AI 加速器,對 TensorFlow Lite 模型可實(shí)現(xiàn)最高約 15× 推理加速、顯著
    發(fā)表于 01-31 23:16

    【新品發(fā)布】艾為重磅發(fā)布端側(cè)AI高性能NPU語音芯片,打造智能語音體驗(yàn)新標(biāo)桿

    數(shù)模龍頭艾為電子全新推出高性能NPU神經(jīng)網(wǎng)絡(luò)智能語音處理芯片:AWA89601,集成音頻專用NPU(神經(jīng)網(wǎng)絡(luò)處理器),通過聲音模型訓(xùn)練與NPU硬件結(jié)合,該芯片在AI降噪、
    的頭像 發(fā)表于 01-07 18:33 ?402次閱讀
    【新品發(fā)布】艾為重磅發(fā)布端側(cè)<b class='flag-5'>AI</b>高性能<b class='flag-5'>NPU</b>語音芯片,打造智能語音體驗(yàn)新標(biāo)桿

    瑞芯微SOC智能視覺AI處理器

    。B2版本通常在功耗、穩(wěn)定性和部分外圍接口支持上有所優(yōu)化。NPU: 集成0.8 TOPS的NPU,支持INT8/INT16混合運(yùn)算,能滿足大多數(shù)邊緣側(cè)的輕量級AI推理需求(如分類、檢測、識別)。多媒體
    發(fā)表于 12-19 13:44

    AI硬件全景解析:CPU、GPU、NPU、TPU的差異化之路,一文看懂!?

    CPU作為“通用基石”,支撐所有設(shè)備的基礎(chǔ)運(yùn)行;GPU憑借并行算力,成為AI訓(xùn)練與圖形處理的“主力”;TPU在Google生態(tài)中深耕云端大模型訓(xùn)練;NPU則讓AI從“云端”走向“身邊”(手機(jī)、手表
    的頭像 發(fā)表于 12-17 17:13 ?1809次閱讀
    <b class='flag-5'>AI</b>硬件全景解析:CPU、GPU、<b class='flag-5'>NPU</b>、TPU的差異化之路,一文看懂!?

    安謀科技:端側(cè)NPU技術(shù)創(chuàng)新,拉動AI算力落地引擎

    X3 NPU IP以及生態(tài)建設(shè)、NPU發(fā)展趨勢等話題。 ? 圖:安謀科技產(chǎn)品總監(jiān)鮑敏祺 ? 周易X3 NPU IP正當(dāng)時 ? 安謀科技周易X3 NPU IP面向端側(cè)
    的頭像 發(fā)表于 12-09 16:44 ?5925次閱讀
    安謀科技:端側(cè)<b class='flag-5'>NPU</b>技術(shù)創(chuàng)新,拉動<b class='flag-5'>AI</b>算力落地引擎

    安謀發(fā)布“周易”X3 NPU,破局AI算力,智繪未來藍(lán)圖

    2025年11月13日,國內(nèi)領(lǐng)先的芯片IP設(shè)計(jì)與服務(wù)提供商安謀科技Arm China,正式揭開了新一代NPU IP“周易”X3的神秘面紗。通過其創(chuàng)新的專為大模型設(shè)計(jì)的DSP+DSA混合架構(gòu)與軟硬協(xié)同
    的頭像 發(fā)表于 11-17 11:47 ?337次閱讀
    安謀發(fā)布“周易”X3 <b class='flag-5'>NPU</b>,破局<b class='flag-5'>AI</b>算力,智繪未來藍(lán)圖

    【RK3568 NPU實(shí)戰(zhàn)】別再閑置你的NPU!手把手帶你用迅為資料跑通Android AI檢測Demo,附完整流程與效果

    【RK3568 NPU實(shí)戰(zhàn)】別再閑置你的NPU!手把手帶你用迅為資料跑通Android AI檢測Demo,附完整流程與效果
    的頭像 發(fā)表于 11-10 15:58 ?1078次閱讀
    【RK3568 <b class='flag-5'>NPU</b>實(shí)戰(zhàn)】別再閑置你的<b class='flag-5'>NPU</b>!手把手帶你用迅為資料跑通Android <b class='flag-5'>AI</b>檢測Demo,附完整流程與效果

    如何利用NPU與模型壓縮技術(shù)優(yōu)化邊緣AI

    隨著人工智能模型從設(shè)計(jì)階段走向?qū)嶋H部署,工程師面臨著雙重挑戰(zhàn):在計(jì)算能力和內(nèi)存受限的嵌入式設(shè)備上實(shí)現(xiàn)實(shí)時性能。神經(jīng)處理單元(NPU)作為強(qiáng)大的硬件解決方案,擅長處理 AI 模型密集的計(jì)算需求。然而
    的頭像 發(fā)表于 11-07 15:26 ?1288次閱讀
    如何利用<b class='flag-5'>NPU</b>與模型壓縮技術(shù)優(yōu)化邊緣<b class='flag-5'>AI</b>

    國產(chǎn)AI芯片真能扛住“算力內(nèi)卷”?海思昇騰的這波操作藏了多少細(xì)節(jié)?

    反而壓到了310W。更有意思的是它的異構(gòu)架構(gòu):NPU+CPU+DVPP的組合,居然能同時扛住訓(xùn)練和推理場景,之前做自動駕駛算法時,用它跑模型時延直接降了20%。 但疑惑也有:這種算力密度下,散熱怎么解決?而且昇騰的生態(tài)適配速度能跟上行業(yè)需求嗎?
    發(fā)表于 10-27 13:12

    工業(yè)視覺網(wǎng)關(guān):RK3576賦能多路檢測與邊緣AI

    ~150ms6TOPS NPU 邊緣AI推理易對接 MES / 追溯系統(tǒng) 一、產(chǎn)線痛點(diǎn):從“人看”到“機(jī)判”的轉(zhuǎn)變· 多工位/多角度同步:單機(jī)位覆蓋不足,典型項(xiàng)目需 8~12 路并發(fā),且畫面時序一致性要求高
    發(fā)表于 10-16 17:56

    AI體驗(yàn)躍遷,天璣9500用雙NPU開創(chuàng)端側(cè)AI新時代

    AI 正從“嘗鮮”邁向“常用”,下一代體驗(yàn)該由誰定義?聯(lián)發(fā)科天璣9500給出答案:行業(yè)首發(fā)將端側(cè) AI 4K 文生圖帶到手機(jī),引領(lǐng)移動影像與創(chuàng)造力的范式躍遷。 全新“超性能 + 超能效”雙 NPU
    的頭像 發(fā)表于 09-24 14:47 ?777次閱讀
    <b class='flag-5'>AI</b>體驗(yàn)躍遷,天璣9500用雙<b class='flag-5'>NPU</b>開創(chuàng)端側(cè)<b class='flag-5'>AI</b>新時代

    天璣9500 性能大爆發(fā)!NPU AI算力或達(dá)100TOPS

    電子發(fā)燒友網(wǎng)綜合報道,據(jù)博主數(shù)碼閑聊站獨(dú)家爆料,聯(lián)發(fā)科天璣9500?NPU用上全新IP硬件,AI算力對比前代直接翻倍。此外,天璣9500將推出類似“存算一體”的能效黑科技架構(gòu),目前大概率在手
    的頭像 發(fā)表于 08-21 11:12 ?3975次閱讀
    天璣9500 性能大爆發(fā)!<b class='flag-5'>NPU</b> <b class='flag-5'>AI</b>算力或達(dá)100TOPS

    工業(yè)“MCU+AI”技術(shù)發(fā)展的核心要點(diǎn)

    智浦i.MX RT700(雙Cortex-M33 + eIQ Neutron NPU) 德州儀器TMS320F28P55x(DSP內(nèi)核+NPU) ? NPU + Helium混合方案
    的頭像 發(fā)表于 07-18 14:34 ?2506次閱讀

    超越CPU/GPU:NPU如何讓AI“輕裝上陣”?

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)NPU是一種專門為人工智能(AI)計(jì)算設(shè)計(jì)的處理器,主要用于高效執(zhí)行神經(jīng)網(wǎng)絡(luò)相關(guān)的運(yùn)算(如矩陣乘法、卷積、激活函數(shù)等)。相較于傳統(tǒng)CPU/GPU,NPU在能效比
    的頭像 發(fā)表于 04-18 00:05 ?4036次閱讀