91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

如何利用NPU與模型壓縮技術優(yōu)化邊緣AI

MATLAB ? 來源:MATLAB ? 2025-11-07 15:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

| 本文作者:

Johanna Pingel,MathWorks 產(chǎn)品市場經(jīng)理

Jack Ferrari,MathWorks 產(chǎn)品經(jīng)理

Reed Axman,MathWorks 高級合作伙伴經(jīng)理

隨著人工智能模型從設計階段走向?qū)嶋H部署,工程師面臨著雙重挑戰(zhàn):在計算能力和內(nèi)存受限的嵌入式設備上實現(xiàn)實時性能。神經(jīng)處理單元(NPU)作為強大的硬件解決方案,擅長處理 AI 模型密集的計算需求。然而,AI 模型體積龐大,部署在 NPU上常常面臨困難,這凸顯了模型壓縮技術的重要性。要實現(xiàn)高效的實時邊緣 AI,需要深入探討NPU 與模型壓縮技術(如量化與投影)如何協(xié)同工作。

NPU 如何在嵌入式設備上實現(xiàn)實時性能

在嵌入式設備上部署AI模型的關鍵挑戰(zhàn)之一是最小化推理時間——即模型生成預測所需的時間,以確保系統(tǒng)具備實時響應能力。例如,在實時電機控制應用中,推理時間通常需要低于10 毫秒,以維持系統(tǒng)穩(wěn)定性與響應性,并防止機械應力或部件損壞。工程師必須在速度、內(nèi)存、功耗與預測質(zhì)量之間取得平衡。

NPU 專為 AI 推理與神經(jīng)網(wǎng)絡計算而設計,非常適合處理能力有限且對能效要求極高的嵌入式系統(tǒng)。與通用處理器(CPU)或高性能但耗能較大的圖形處理器(GPU)不同,NPU 針對神經(jīng)網(wǎng)絡中常見的矩陣運算進行了優(yōu)化。雖然 GPU 也能執(zhí)行AI推理任務,但 NPU 在成本與能耗方面更具優(yōu)勢。

從成本角度看,NPU是比微控制器(MCU)、GPU 或 FPGA 更具經(jīng)濟性的AI處理方案。盡管集成 NPU 的芯片初期成本可能高于傳統(tǒng)微控制器,但其卓越的能效與 AI 處理能力使其在整體價值上更具吸引力。NPU專為加速神經(jīng)網(wǎng)絡推理而設計,在功耗遠低于 CPU 的同時提供更高的性能。這種效率不僅降低了運行成本,還延長了嵌入式設備的電池壽命,從而在長期使用中更具成本效益。此外,NPU 可實現(xiàn)實時AI處理,無需依賴更昂貴、耗能更高的 GPU 或 FPGA,進一步增強了其經(jīng)濟吸引力。

NPU 是一種經(jīng)濟、高能效的解決方案,專為嵌入式系統(tǒng)中的高效 AI 推理與神經(jīng)網(wǎng)絡計算而設計。

盡管 NPU 在 AI 推理方面效率極高,但在嵌入式系統(tǒng)中,其內(nèi)存與功耗仍然有限。因此,模型壓縮成為關鍵手段,以減小模型體積與復雜度,使 NPU 在不超出系統(tǒng)限制的前提下實現(xiàn)實時性能。

利用投影與量化壓縮 AI 模型

模型壓縮技術通過減小模型體積與復雜度,提升推理速度并降低功耗,從而幫助大型AI模型部署到邊緣設備。然而,過度壓縮可能會影響預測精度,因此工程師需謹慎評估在滿足硬件限制的前提下可接受的精度損失范圍。

投影與量化是兩種互補的壓縮技術,可聯(lián)合使用以優(yōu)化 AI 模型在 NPU 上的部署。投影通過移除冗余的可學習參數(shù)來減小模型結構,而量化則將剩余參數(shù)轉(zhuǎn)換為低精度(通常為整數(shù))數(shù)據(jù)類型,從而進一步壓縮模型。兩者結合可同時壓縮模型結構與數(shù)據(jù)類型,在保持精度的同時提升效率。

推薦的做法是先使用投影對模型進行結構壓縮,降低其復雜度與體積,再應用量化以進一步減少內(nèi)存占用與計算成本。

投影

神經(jīng)網(wǎng)絡投影是一種結構壓縮技術,可通過將層的權重矩陣投影到低維子空間來減少模型中的可學習參數(shù)。在MATLAB Deep Learning Toolbox中,該方法基于主成分分析(PCA),識別神經(jīng)激活中變化最大的方向,并通過更小、更高效的表示來近似高維權重矩陣,從而移除冗余參數(shù)。這種方式在保留模型準確性與表達能力的同時,顯著降低了內(nèi)存與計算需求。

量化

量化是一種數(shù)據(jù)類型壓縮技術,通過將模型中的可學習參數(shù)(權重與偏置)從高精度浮點數(shù)轉(zhuǎn)換為低精度定點整數(shù)類型,來減少模型的內(nèi)存占用與計算復雜度。這種方法可顯著提升模型的推理速度,尤其適用于NPU部署。雖然量化會帶來一定的數(shù)值精度損失,但通過使用代表實際運行情況的輸入數(shù)據(jù)對模型進行校準,通??梢栽诳山邮艿姆秶鷥?nèi)保持準確性,滿足實時應用需求。

應用案例:在 STMicroelectronics 微控制器上部署量化模型

STMicroelectronics 開發(fā)了一套基于 MATLAB 與 Simulink 的工作流程,用于將深度學習模型部署到 STM32 微控制器。工程師首先設計并訓練模型,隨后進行超參數(shù)調(diào)優(yōu)與知識蒸餾以降低模型復雜度。接著,他們應用投影技術移除冗余參數(shù)以實現(xiàn)結構壓縮,并使用量化將權重與激活值轉(zhuǎn)換為8位整數(shù),從而減少內(nèi)存使用并提升推理速度。這種雙階段壓縮方法使得深度學習模型能夠在資源受限的 NPU 與 MCU 上部署,同時保持實時性能。

199c22a0-ba30-11f0-8c8f-92fbcf53809c.png

對一個包含LSTM層的循環(huán)神經(jīng)網(wǎng)絡在建模電池荷電狀態(tài)時,投影并調(diào)優(yōu)前后的準確率、模型大小與推理速度進行對比。

在 NPU上部署 AI 模型的最佳實踐

投影與量化等模型壓縮技術可顯著提升 AI 模型在 NPU 上的性能與可部署性。然而,由于壓縮可能影響模型精度,因此必須通過仿真與硬件在環(huán)(HIL)驗證進行迭代測試,以確保模型滿足功能與資源要求。盡早且頻繁地測試有助于工程師在問題擴大前及時發(fā)現(xiàn)并解決,從而降低后期返工風險,確保嵌入式系統(tǒng)部署順利進行。

統(tǒng)一的開發(fā)生態(tài)系統(tǒng)也能解決 AI 模型部署中面臨的諸多挑戰(zhàn),簡化集成流程,加快開發(fā)進度,并在整個過程中支持全面測試。在當今軟件環(huán)境日益碎片化的背景下,這一點尤為重要。工程師常常需要將不同代碼庫集成到仿真流程或更大的系統(tǒng)環(huán)境中。由于各平臺與標準開發(fā)環(huán)境分離,集成與驗證的復雜性進一步增加。引入 NPU 后,工具鏈的復雜性也隨之上升,因此更需要統(tǒng)一的生態(tài)系統(tǒng)來應對這些挑戰(zhàn)。

面向邊緣設計:在功耗、精度與性能之間尋求平衡

嵌入式 AI 的未來以性能為核心,專為邊緣環(huán)境而構建,并由驅(qū)動復雜工程系統(tǒng)的 AI 模型提供動力。工程師的成功依賴于對模型壓縮權衡的深入理解、在硬件上盡早進行測試,以及構建具備適應性的系統(tǒng)。通過將智能的 NPU 與 AI 模型設計相結合,并輔以戰(zhàn)略性的壓縮技術,工程師能夠?qū)⑶度胧皆O備轉(zhuǎn)變?yōu)閺姶蟮膶崟r決策引擎。

| 本文作者

Johanna Pingel, MathWorks

Johanna Pingel 是 MathWorks 的產(chǎn)品市場經(jīng)理。她專注于機器學習和深度學習應用,致力于讓人工智能變得實用、有趣且易于實現(xiàn)。她于 2013 年加入公司,專長于使用 MATLAB 進行圖像處理和計算機視覺應用。

Jack Ferrari, MathWorks

Jack Ferrari 是 MathWorks 的產(chǎn)品經(jīng)理,致力于幫助 MATLAB 和 Simulink 用戶將 AI 模型壓縮并部署到邊緣設備和嵌入式系統(tǒng)中。他擁有與多個行業(yè)客戶合作的經(jīng)驗,包括汽車、航空航天和醫(yī)療器械行業(yè)。Jack 擁有波士頓大學機械工程學士學位。

Reed Axman, MathWork

Reed Axman 是 MathWorks 的高級合作伙伴經(jīng)理,負責為 STMicroelectronics、Texas Instruments 和 Qualcomm 等公司提供以硬件為中心的 AI 工作流程支持。他與 MathWorks 的合作伙伴及內(nèi)部團隊協(xié)作,幫助客戶將嵌入式 AI 能力集成到其產(chǎn)品中。他擁有亞利桑那州立大學機器人與人工智能碩士學位,研究方向為用于醫(yī)療應用的軟體機器人。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 嵌入式
    +關注

    關注

    5198

    文章

    20434

    瀏覽量

    333873
  • AI
    AI
    +關注

    關注

    91

    文章

    39683

    瀏覽量

    301287
  • 模型
    +關注

    關注

    1

    文章

    3749

    瀏覽量

    52089
  • NPU
    NPU
    +關注

    關注

    2

    文章

    373

    瀏覽量

    21082

原文標題:更智能、更小巧、更快速:工程師如何通過 NPU 與模型壓縮優(yōu)化邊緣 AI

文章出處:【微信號:MATLAB,微信公眾號:MATLAB】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    模型壓縮技術,加速AI模型在終端側的應用

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)當前,全球眾多科技企業(yè)都在積極研究AI模型,然而因為參數(shù)規(guī)模太大,要想實現(xiàn)AI模型在邊/端側部署,需要用到模型
    的頭像 發(fā)表于 04-24 01:26 ?3805次閱讀

    NanoEdge AI技術原理、應用場景及優(yōu)勢

    能耗并提高數(shù)據(jù)安全性。本文將對 NanoEdge AI技術原理、應用場景以及優(yōu)勢進行綜述。 1、技術原理 NanoEdge AI 的核心技術
    發(fā)表于 03-12 08:09

    AI賦能邊緣網(wǎng)關:開啟智能時代的新藍海

    ,準確率達到99.9%。 這一技術革新正在創(chuàng)造巨大的商業(yè)價值。在智慧城市領域,AI邊緣網(wǎng)關可以實現(xiàn)交通流量實時分析、違章行為智能識別;在工業(yè)互聯(lián)網(wǎng)中,能夠?qū)崿F(xiàn)設備預測性維護、生產(chǎn)工藝優(yōu)化
    發(fā)表于 02-15 11:41

    無法在NPU上推理OpenVINO?優(yōu)化的 TinyLlama 模型怎么解決?

    NPU 上推斷 OpenVINO?優(yōu)化的 TinyLlama 模型。 遇到的錯誤: get_shape was called on a descriptor::Tensor with dynamic shape
    發(fā)表于 07-11 06:58

    如何精準驅(qū)動菜品識別模型--基于米爾瑞芯微RK3576邊緣計算盒

    ,RKNN-Toolkit2是釋放MYD-LR3576-B內(nèi)部6 TOPS NPU潛力的鑰匙。 它大大降低了開發(fā)者將AI模型部署到瑞芯微邊緣計算平臺的
    發(fā)表于 10-31 21:19

    使用NORDIC AI的好處

    提升能效,適合音頻、圖像和高采樣率傳感器等更重的 AI 負載。[Axon NPU 技術頁] 模型更小、更快、更省電 Neuton 模型
    發(fā)表于 01-31 23:16

    【HarmonyOS HiSpark AI Camera】邊緣計算安全監(jiān)控系統(tǒng)

    打火機)就報警的模型,實現(xiàn)邊緣測的相關檢測和報警的業(yè)務邏輯。中期,完成傳感器數(shù)據(jù)和視頻推流到云端,實現(xiàn)遠程監(jiān)控。后期,各個環(huán)節(jié)的豐富和優(yōu)化,比如多傳感器、設備接入等,組成一套較完善系統(tǒng)。
    發(fā)表于 09-25 10:11

    網(wǎng)絡邊緣實施AI的原因

    AI推向邊緣的影響通過在邊緣運行ML模型可以使哪些具體的AI項目更容易運行?
    發(fā)表于 02-23 06:21

    音頻處理SoC在500 μW以下運行AI

    。” “我們的團隊一直致力于在邊緣上充分利用可用的處理能力和內(nèi)存來實現(xiàn)低功耗AI和ML,包括開發(fā)我們自己的正在申請專利的重量壓縮方案,同時還要強調(diào)易于部署?!毙碌腘PUDSP集團的新的
    發(fā)表于 03-03 10:49

    嵌入式邊緣AI應用開發(fā)指南

    、PyTorch和MXNet框架中常用的開源深度學習模型。這些模型在公共數(shù)據(jù)集上經(jīng)過預訓練和優(yōu)化,可以在TI適用于邊緣AI的處理器上高效運行
    發(fā)表于 11-03 06:53

    ST MCU邊緣AI開發(fā)者云 - STM32Cube.AI

    STM32微控制器生成優(yōu)化的C代碼,無需事先安裝軟件。數(shù)據(jù)科學家和開發(fā)人員受益于STM32Cube.AI久經(jīng)考驗的神經(jīng)網(wǎng)絡優(yōu)化性能,以開發(fā)邊緣AI
    發(fā)表于 02-02 09:52

    邊緣AI模型壓縮技術

    在某個時間點,人們認為大型和復雜的模型表現(xiàn)更好,但現(xiàn)在它幾乎是一個神話。隨著邊緣AI的發(fā)展,越來越多的技術將大型復雜模型轉(zhuǎn)換為可以在
    的頭像 發(fā)表于 10-19 14:22 ?2086次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>的<b class='flag-5'>模型</b><b class='flag-5'>壓縮</b><b class='flag-5'>技術</b>

    邊緣AI模型壓縮技術

    模型壓縮是在計算能力和內(nèi)存較低的邊緣設備上部署SOTA(最先進的)深度學習模型的過程,而不會影響模型在準確性、精度、召回率等方面的性能。
    的頭像 發(fā)表于 05-05 09:54 ?1807次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>的<b class='flag-5'>模型</b><b class='flag-5'>壓縮</b><b class='flag-5'>技術</b>

    國科微:將持續(xù)優(yōu)化邊緣AI戰(zhàn)略布局

    國科微近日在接受調(diào)研時透露,公司正積極推進搭載自研NPU架構的芯片研發(fā),主要聚焦在邊緣側應用。公司表示,將持續(xù)優(yōu)化邊緣AI戰(zhàn)略布局,加快
    的頭像 發(fā)表于 02-23 11:23 ?1552次閱讀

    NPU技術如何提升AI性能

    設計的處理器,與傳統(tǒng)的CPU和GPU相比,它在執(zhí)行深度學習任務時具有更高的效率和更低的能耗。NPU通過專門優(yōu)化的硬件結構和指令集,能夠更快地處理神經(jīng)網(wǎng)絡中的大量并行計算任務。 1. 優(yōu)化硬件架構
    的頭像 發(fā)表于 11-15 09:11 ?2747次閱讀