91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

專門構(gòu)建的“計(jì)算有效”神經(jīng)網(wǎng)絡(luò)模型的優(yōu)點(diǎn)和挑戰(zhàn)

YCqV_FPGA_EETre ? 來源:Quenton Hall ? 作者:Quenton Hall ? 2021-03-18 14:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在本系列的前幾篇文章中 ( "人工智能引發(fā)能源問題,我們?cè)撛趺崔k (一) “ 和”在 "人工智能引發(fā)能源問題,我們?cè)撛趺崔k (二)"),我們討論了 Dennard Scaling 和摩爾定律的細(xì)目以及對(duì)專用和適應(yīng)性加速器的需求。然后,我們深入研究了功耗問題,并討論了網(wǎng)絡(luò)壓縮的高級(jí)優(yōu)勢(shì)。

在這第三篇文章中,我們將探討專門構(gòu)建的“計(jì)算有效”神經(jīng)網(wǎng)絡(luò)模型的優(yōu)點(diǎn)和挑戰(zhàn)。

神經(jīng)網(wǎng)絡(luò)可以被歸類為一組大致模仿人腦建模方式的算法,能夠通過引入新數(shù)據(jù)來完成“學(xué)習(xí)”過程。事實(shí)上,開發(fā)專用的“計(jì)算高效型”神經(jīng)網(wǎng)絡(luò)模型能提供大量?jī)?yōu)勢(shì)。然而,為了確保模型的有效性,需要考慮幾項(xiàng)關(guān)鍵需求。

關(guān)鍵點(diǎn)之一是在實(shí)現(xiàn)推斷加速器(或就此點(diǎn)而言,廣義的硬件加速器)時(shí)應(yīng)采用何種方式訪問存儲(chǔ)器。在機(jī)器學(xué)習(xí) (ML) 推斷范疇內(nèi),我們特別需要考慮如何將權(quán)重和中間激活值一起存儲(chǔ)。過去幾年里已有多種方法投入使用并獲得不同程度的成功。相關(guān)的架構(gòu)選擇帶來的影響十分顯著:

時(shí)延:對(duì) L1、L2 和 L3 存儲(chǔ)器的訪問表現(xiàn)出相對(duì)較低的時(shí)延。如果與下一個(gè)圖形運(yùn)算有關(guān)的權(quán)重和激活值被緩存起來,那么我們就能保持合理水平的效率。然而,如果我們要從外部 DDR 提取數(shù)據(jù),就會(huì)發(fā)生流水線停頓,進(jìn)而影響時(shí)延和效率。

功耗:訪問外部存儲(chǔ)器的能耗至少比訪問內(nèi)部存儲(chǔ)器大一個(gè)數(shù)量級(jí)。

計(jì)算飽和:一般而言,應(yīng)用要么受計(jì)算限制,要么受存儲(chǔ)器限制。這可能會(huì)影響給定推斷范式中可實(shí)現(xiàn)的 GOP/TOP,而且在某些情況下,這種影響不可小視。如果被部署的具體網(wǎng)絡(luò)的實(shí)際性能是 1 TOP,那么使用能達(dá)到 10 TOP 峰值性能的推斷引擎價(jià)值就不大。

在此基礎(chǔ)上更進(jìn)一步,考慮到訪問現(xiàn)代賽靈思器件里的內(nèi)部 SRAM(熟悉賽靈思 SoC 的人也稱其為 BRAM 或 UltraRAM)的能耗大約在幾微微焦耳,與訪問外部 DRAM 的能耗相比,低大約兩個(gè)數(shù)量級(jí)。

我們可以考慮將 TPUv1 作為架構(gòu)示例。TPUv1 內(nèi)置有一個(gè) 65,536 INT8 MAC 單元,與 28MB 的片上存儲(chǔ)器結(jié)合,用于存儲(chǔ)中間激活值。權(quán)重從外部 DDR 提取。TPUv1 的理論峰值性能是 92 TOPS。

圖 1:TPUv1 架構(gòu)

參考資料:Jouppi 等,2017 年,https://arxiv.org/ftp/arxiv/papers/1704/1704.04760.pdf

TPU 是其中一種非常普遍的 Tensor 加速器。它使用復(fù)雜的編譯器來調(diào)度圖形運(yùn)算。這種 TPU 對(duì)于特定工作負(fù)載(引用 CNNO 的速率達(dá)到 86 TOPS)體現(xiàn)出極為優(yōu)異的吞吐效率。然而,CNN 的計(jì)算/內(nèi)存引用比低于 MLP 和 LSTM。因此我們可以看出這些特定的工作負(fù)載受存儲(chǔ)器限制。在必須將新權(quán)重加載到矩陣單元中時(shí),會(huì)導(dǎo)致流水線停頓,CNN1 性能也就會(huì)隨之劣化(14.1 TOPS)。

圖 2:各種網(wǎng)絡(luò)拓?fù)湎?TPUv1 的極限性能水平

參考資料:Jouppi 等,2017 年,

https://arxiv.org/ftp/arxiv/papers/1704/1704.04760.pdf

神經(jīng)網(wǎng)絡(luò)架構(gòu)對(duì)性能有巨大影響,而且對(duì)于選擇推斷解決方案而言,峰值性能指標(biāo)的價(jià)值微乎其微(除非我們能為需要加速的特定工作負(fù)載實(shí)現(xiàn)高水平的效率)。如今,眾多 SoC、ASSP 和 GPU 廠商繼續(xù)為 LeNet、AlexNet、VGG、GoogLeNet 和 ResNet 等經(jīng)典圖像分類模型推廣性能測(cè)試基準(zhǔn)。然而,圖像分類任務(wù)的實(shí)際用例數(shù)量有限,而許多時(shí)候這種模型只是用作對(duì)象檢測(cè)與分割等更復(fù)雜的任務(wù)的后臺(tái)特征提取器。

更貼近現(xiàn)實(shí)的實(shí)際可部署模型的示例包括對(duì)象檢測(cè)與分割。盡管眾多市售半導(dǎo)體器件標(biāo)榜可提供數(shù)十 TOP 的性能,而這又與不得不花長(zhǎng)時(shí)間為 YOLOv3 和 SSD 等網(wǎng)絡(luò)辛苦找尋正式的 IPS 性能基準(zhǔn)測(cè)試的現(xiàn)狀有何關(guān)聯(lián)?開玩笑的說,如果只是要在云存儲(chǔ)中簡(jiǎn)單查找照片,比如找出您的貓的照片,我看這真不是什么問題:

圖 3:作者收養(yǎng)的家貓“TumbleWeed”

大量開發(fā)者在首次嘗試設(shè)計(jì)帶有 AI 功能的產(chǎn)品時(shí)往往以不能滿足性能要求而告終,迫使他們?cè)谠O(shè)計(jì)中途遷移到不同的架構(gòu)上。這不足為奇。如果這么做意味著需要同時(shí)對(duì) SOM 基板的軟硬件進(jìn)行重新構(gòu)建,難度將不可小覷。選擇賽靈思 SoC 的主要原因在于,與競(jìng)爭(zhēng)對(duì)手的解決方案不同的是,賽靈思推斷解決方案能在保持處理器和推斷加速器架構(gòu)不變的情況下,直接提供超過一個(gè)數(shù)量級(jí)的性能縮放。

2017 年谷歌的一個(gè)研發(fā)團(tuán)隊(duì)(Howard 等,《MobileNet:面向移動(dòng)視覺應(yīng)用的高效卷積神經(jīng)網(wǎng)絡(luò)》https://arxiv.org/pdf/1704.04861.pdf )發(fā)表了針對(duì)移動(dòng)應(yīng)用的一類新的模型。MobileNet 的優(yōu)勢(shì)在于它能在保持高精度水平的同時(shí),顯著降低計(jì)算成本。MobileNet 網(wǎng)絡(luò)采用的重大創(chuàng)新之一是深度可分卷積。在經(jīng)典卷積中,每個(gè)輸入通道對(duì)每個(gè)輸出通道都有影響。如果我們有 100 個(gè)輸入通道和 100 個(gè)輸出通道,就有 100x100 條虛擬路徑。然而對(duì)深度卷積而言,我們將卷積層劃分為 100 個(gè)群組,因此只得到 100 條路徑。每個(gè)輸入通道僅與一個(gè)輸出通道相連接,這樣就能節(jié)省大量計(jì)算。

圖 4:經(jīng)典卷積和深度卷積的連接方式

參考資料:Song Yao,Hotchips Hc30,第 8 節(jié):

https://www.hotchips.org/archives/2010s/hc30/

其結(jié)果之一就是 MobileNet 的計(jì)算/內(nèi)存引用比得以下降,這意味著存儲(chǔ)器帶寬和時(shí)延對(duì)實(shí)現(xiàn)高吞吐量來說起著至關(guān)重要的作用。

可惜的是,計(jì)算效率高的網(wǎng)絡(luò)未必適合用硬件實(shí)現(xiàn)。在理想情況下,時(shí)延應(yīng)隨 FLOP 的降低而呈線性比例下降。然而誠如老話所言,天下沒有免費(fèi)的午餐。例如,根據(jù)下面的比較,MobileNetv2 的計(jì)算工作負(fù)載不足 ResNet50 的計(jì)算工作負(fù)載的十分之一,然而時(shí)延并未體現(xiàn)出相同的降幅。

圖 5:MobileNet 與 ResNet50 的計(jì)算量及時(shí)延對(duì)比

參考資料:Song Yao,Hotchips Hc30,第 8 節(jié):

https://www.hotchips.org/archives/2010s/hc30/

從上面的分析中可以看出,時(shí)延并未隨 FLOP 的降低發(fā)生成比例的 12 倍下降。

那么我們?nèi)绾谓鉀Q這個(gè)問題?如果我們比較片外通信/計(jì)算比,會(huì)發(fā)現(xiàn) MobileNet 的模式與 VGG 有很大不同。就 DWC 層而言,我們可以看到該比例為 0.11。因?yàn)?PE 陣列中的眾多單元猶如數(shù)據(jù)中心內(nèi)的“黑暗”服務(wù)器,不從事任何有用的工作,只純粹消耗功耗并占用晶片面積,導(dǎo)致加速器受存儲(chǔ)器限制,效率水平下降。

圖 6:VGG16 與 MobileNetv1 的片外通信/計(jì)算比

參考資料:Song Yao,Hotchips Hc30,第 8 節(jié):

https://www.hotchips.org/archives/2010s/hc30/

賽靈思之所以推出 DPUv1,是為了加速常規(guī)卷積(以及其他運(yùn)算)。常規(guī)卷積要求縮減輸入通道數(shù)量。這種縮減更適合用于硬件推斷,因?yàn)樗岣吡擞?jì)算/權(quán)重存儲(chǔ)比及計(jì)算/激活值存儲(chǔ)比。從計(jì)算能耗與存儲(chǔ)能耗相權(quán)衡的角度來看,這是一種非常優(yōu)秀的做法?;?ResNet 的網(wǎng)絡(luò)在高性能應(yīng)用中得到如此廣泛的部署的原因之一在于,與眾多傳統(tǒng)的主干架構(gòu)相比,使用 ResNet 能提高計(jì)算/內(nèi)存引用比。

深度卷積無法實(shí)現(xiàn)這樣的通道數(shù)縮減。存儲(chǔ)器性能變得更加重要。

為了開展推斷,我們一般將 DWC 卷積與 PWC 卷積融合,并將 DWC 激活值存儲(chǔ)在片上存儲(chǔ)器里,然后立即啟動(dòng) 1x1 PWC。就原始 DPU 而言,沒有為 DWC 提供專門的硬件支持,因此效率低于理想水平:

圖 7:MobileNet 與 ResNet50 的運(yùn)算與時(shí)延對(duì)比 – DPUv1(無原生 DWC 支持)

參考資料:Song Yao,Hotchips Hc30,第 8 節(jié):

https://www.hotchips.org/archives/2010s/hc30/

為了在硬件中提高 DWC 性能,我們對(duì)賽靈思 DPU 中的處理單元 (PE) 的功能進(jìn)行了修改,并將 DWC 運(yùn)算符與點(diǎn)卷積融合。第一層處理完畢一個(gè)輸出像素后,激活值立即流水線到 1x1 卷積(通過 DPU 中的片上 BRAM 存儲(chǔ)器),而無需寫入到 DRAM。我們可以運(yùn)用這種專用方法顯著提高部署在 DPU 上的 MobileNet 的效率。

圖 8:DPUv2,專用 DWC 處理單元

參考資料:Song Yao,Hotchips Hc30,第 8節(jié):

https://www.hotchips.org/archives/2010s/hc30/

采用這種改進(jìn)型 DPUv2 架構(gòu),我們能夠顯著提高 MNv1 推斷的效率。此外,通過提高片上存儲(chǔ)器的容量,我們還能進(jìn)一步提高它的效率,使之與我們?cè)?ResNet50 上獲得的結(jié)果相媲美。所有這些都是在 CPU 和硬件架構(gòu)不變的情況下實(shí)現(xiàn)的!

圖 9:MobileNet 與 ResNet50 的時(shí)延比較,DPUv1 對(duì)比 DPUv2(支持 DWC)

參考資料:Song Yao,Hotchips Hc30,第 8 節(jié):

https://www.hotchips.org/archives/2010s/hc30/

廣泛采用的做法是互不關(guān)聯(lián)地分別優(yōu)化推斷硬件和神經(jīng)網(wǎng)絡(luò)模型。應(yīng)該注意到的是,網(wǎng)絡(luò)一般使用 GPU 進(jìn)行訓(xùn)練,然后在邊緣部署在架構(gòu)顯著不同的 SoC 或 GPU 上。為真正優(yōu)化性能,我們必須適配硬件,才能高效完成模型(不一定對(duì)硬件友好)部署。在這種情況下,自適應(yīng)硬件的主要優(yōu)勢(shì)在于賽靈思器件提供在流片后繼續(xù)聯(lián)合演進(jìn)軟硬件的特有能力。

為進(jìn)一步理解這個(gè)問題,不妨考慮題為《彩票假說》的一篇獨(dú)創(chuàng)論文(Frankle 和 Carbin,2019 年https://arxiv.org/pdf/1803.03635.pdf)的寓意。在該論文(摘得 2019 年國際學(xué)習(xí)表征大會(huì)桂冠的兩篇論文之一)中,作者“詳細(xì)闡述了一種假說”,即“含有子網(wǎng)絡(luò)(中獎(jiǎng)彩票)的密集隨機(jī)初始化前饋網(wǎng)絡(luò),如果單獨(dú)訓(xùn)練,測(cè)試精度可媲美經(jīng)過類似數(shù)量(訓(xùn)練)迭代的原始網(wǎng)絡(luò)”。顯然根據(jù)這個(gè)假說,網(wǎng)絡(luò)剪枝的前景仍然光明,AutoML 等技術(shù)將很快為我們指明網(wǎng)絡(luò)發(fā)現(xiàn)與優(yōu)化過程中的“中獎(jiǎng)彩票”。

同樣地,為保證在邊緣實(shí)現(xiàn)高效、高精度的部署,當(dāng)今最優(yōu)秀的解決方案仍保留著傳統(tǒng)主干架構(gòu)的通道剪枝。這些主干架構(gòu)的部署效率也許不高,但這些主干架構(gòu)的半自動(dòng)化通道剪枝可提供極為高效的結(jié)果(參見賽靈思 VGG-SSD 示例)。因此,我可以將這個(gè)假說解釋成:只要您選擇的下一個(gè)推斷架構(gòu)能讓您的設(shè)計(jì)永不過時(shí),您就可以在今天輕松地找到“中獎(jiǎng)彩票”。它能幫助您充分發(fā)揮未來網(wǎng)絡(luò)架構(gòu)和優(yōu)化技術(shù)的優(yōu)勢(shì),同時(shí)向您的客戶保證產(chǎn)品經(jīng)久不衰。

圖 9:我個(gè)人的“中獎(jiǎng)彩票”假說

我可以非??隙ǖ氖?,從“彩票假說”衍生出的未來研究有望引領(lǐng)我們開發(fā)出新一代剪枝技術(shù),贏得更大程度的效率提升。此外,我感覺只有采用可提供多維度可擴(kuò)展性的自適應(yīng)硬件才能收獲這樣的成果。這并非純粹是我的直覺。

購買ZCU104,下載Vitis-AI,立刻開啟您駛向未來 AI 的旅程吧。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 存儲(chǔ)器
    +關(guān)注

    關(guān)注

    39

    文章

    7747

    瀏覽量

    172013
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4839

    瀏覽量

    108031
  • 人工智能
    +關(guān)注

    關(guān)注

    1819

    文章

    50196

    瀏覽量

    266353

原文標(biāo)題:人工智能引發(fā)能源問題,我們?cè)撛趺崔k?(三)

文章出處:【微信號(hào):FPGA-EETrend,微信公眾號(hào):FPGA開發(fā)圈】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    面向嵌入式部署的神經(jīng)網(wǎng)絡(luò)優(yōu)化:模型壓縮深度解析

    1.為什么需要神經(jīng)網(wǎng)絡(luò)模型壓縮? 神經(jīng)網(wǎng)絡(luò)已經(jīng)成為解決復(fù)雜機(jī)器學(xué)習(xí)問題的強(qiáng)大工具。然而,這種能力往往伴隨著模型規(guī)模和計(jì)算復(fù)雜度的增加。當(dāng)輸入
    的頭像 發(fā)表于 02-24 15:37 ?5259次閱讀
    面向嵌入式部署的<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>優(yōu)化:<b class='flag-5'>模型</b>壓縮深度解析

    神經(jīng)網(wǎng)絡(luò)的初步認(rèn)識(shí)

    日常生活中的智能應(yīng)用都離不開深度學(xué)習(xí),而深度學(xué)習(xí)則依賴于神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)。什么是神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)的核心思想是模仿生物神經(jīng)系統(tǒng)的結(jié)構(gòu),特別是大腦中神經(jīng)
    的頭像 發(fā)表于 12-17 15:05 ?395次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的初步認(rèn)識(shí)

    自動(dòng)駕駛中常提的卷積神經(jīng)網(wǎng)絡(luò)是個(gè)啥?

    在自動(dòng)駕駛領(lǐng)域,經(jīng)常會(huì)聽到卷積神經(jīng)網(wǎng)絡(luò)技術(shù)。卷積神經(jīng)網(wǎng)絡(luò),簡(jiǎn)稱為CNN,是一種專門用來處理網(wǎng)格狀數(shù)據(jù)(比如圖像)的深度學(xué)習(xí)模型。CNN在圖像處理中尤其常見,因?yàn)閳D像本身就可以看作是由像
    的頭像 發(fā)表于 11-19 18:15 ?2152次閱讀
    自動(dòng)駕駛中常提的卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>是個(gè)啥?

    NMSIS神經(jīng)網(wǎng)絡(luò)庫使用介紹

    NMSIS NN 軟件庫是一組高效的神經(jīng)網(wǎng)絡(luò)內(nèi)核,旨在最大限度地提高 Nuclei N 處理器內(nèi)核上的神經(jīng)網(wǎng)絡(luò)的性能并最??大限度地減少其內(nèi)存占用。 該庫分為多個(gè)功能,每個(gè)功能涵蓋特定類別
    發(fā)表于 10-29 06:08

    構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議

    通過實(shí)踐,本文總結(jié)了構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議,這些建議將會(huì)在構(gòu)建高準(zhǔn)確率輕量級(jí)CNN神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 10-28 08:02

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型 model = models.Sequential()model.add(layers.Conv2D(input_shape=(28, 28, 1), filters=4
    發(fā)表于 10-22 07:03

    CICC2033神經(jīng)網(wǎng)絡(luò)部署相關(guān)操作

    在完成神經(jīng)網(wǎng)絡(luò)量化后,需要將神經(jīng)網(wǎng)絡(luò)部署到硬件加速器上。首先需要將所有權(quán)重?cái)?shù)據(jù)以及輸入數(shù)據(jù)導(dǎo)入到存儲(chǔ)器內(nèi)。 在仿真環(huán)境下,可將其存于一個(gè)文件,并在 Verilog 代碼中通過 readmemh 函數(shù)
    發(fā)表于 10-20 08:00

    液態(tài)神經(jīng)網(wǎng)絡(luò)(LNN):時(shí)間連續(xù)性與動(dòng)態(tài)適應(yīng)性的神經(jīng)網(wǎng)絡(luò)

    1.算法簡(jiǎn)介液態(tài)神經(jīng)網(wǎng)絡(luò)(LiquidNeuralNetworks,LNN)是一種新型的神經(jīng)網(wǎng)絡(luò)架構(gòu),其設(shè)計(jì)理念借鑒自生物神經(jīng)系統(tǒng),特別是秀麗隱桿線蟲的神經(jīng)結(jié)構(gòu),盡管這種微生物的
    的頭像 發(fā)表于 09-28 10:03 ?1414次閱讀
    液態(tài)<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>(LNN):時(shí)間連續(xù)性與動(dòng)態(tài)適應(yīng)性的<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+神經(jīng)形態(tài)計(jì)算、類腦芯片

    : 1)SpiNNaker系列 2)TrueNorth與NorthPole 3)Loihi系列 4)BrainScaleS系列 5)天機(jī) 二、基于大模型神經(jīng)形態(tài)計(jì)算架構(gòu) SpikeGPT的
    發(fā)表于 09-17 16:43

    神經(jīng)網(wǎng)絡(luò)的并行計(jì)算與加速技術(shù)

    隨著人工智能技術(shù)的飛速發(fā)展,神經(jīng)網(wǎng)絡(luò)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和廣泛的應(yīng)用前景。然而,神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度和規(guī)模也在不斷增加,這使得傳統(tǒng)的串行計(jì)算方式面臨著巨大的
    的頭像 發(fā)表于 09-17 13:31 ?1214次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的并行<b class='flag-5'>計(jì)算</b>與加速技術(shù)

    基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真模型解決方案

    在基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真(DPD)模型中,使用不同的激活函數(shù)對(duì)整個(gè)系統(tǒng)性能和能效有何影響?
    的頭像 發(fā)表于 08-29 14:01 ?3562次閱讀

    模型推理顯存和計(jì)算量估計(jì)方法研究

    (如全連接層、卷積層等)確定所需的顯存大??; (3)將各層顯存大小相加,得到模型總的顯存需求。 基于神經(jīng)網(wǎng)絡(luò)剪枝的顯存估計(jì) 神經(jīng)網(wǎng)絡(luò)剪枝是一種減少模型參數(shù)數(shù)量的技術(shù),可以降低顯存需求。
    發(fā)表于 07-03 19:43

    無刷電機(jī)小波神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)子位置檢測(cè)方法的研究

    摘要:論文通過對(duì)無刷電機(jī)數(shù)學(xué)模型的推導(dǎo),得出轉(zhuǎn)角:與三相相電壓之間存在映射關(guān)系,因此構(gòu)建了一個(gè)以三相相電壓為輸人,轉(zhuǎn)角為輸出的小波神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)轉(zhuǎn)角預(yù)測(cè),并采用改進(jìn)遺傳算法來訓(xùn)練網(wǎng)絡(luò)結(jié)
    發(fā)表于 06-25 13:06

    神經(jīng)網(wǎng)絡(luò)專家系統(tǒng)在電機(jī)故障診斷中的應(yīng)用

    摘要:針對(duì)傳統(tǒng)專家系統(tǒng)不能進(jìn)行自學(xué)習(xí)、自適應(yīng)的問題,本文提出了基于種經(jīng)網(wǎng)絡(luò)專家系統(tǒng)的并步電機(jī)故障診斷方法。本文將小波神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)相結(jié)合,充分發(fā)揮了二者故障診斷的優(yōu)點(diǎn),很大程度上降低了對(duì)電機(jī)
    發(fā)表于 06-16 22:09

    基于FPGA搭建神經(jīng)網(wǎng)絡(luò)的步驟解析

    本文的目的是在一個(gè)神經(jīng)網(wǎng)絡(luò)已經(jīng)通過python或者M(jìn)ATLAB訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,將訓(xùn)練好的模型的權(quán)重和偏置文件以TXT文件格式導(dǎo)出,然后通過python程序?qū)xt文件轉(zhuǎn)化為coe
    的頭像 發(fā)表于 06-03 15:51 ?1399次閱讀
    基于FPGA搭建<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的步驟解析