91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何通過DLP FPGA實(shí)現(xiàn)低延時高性能的深度學(xué)習(xí)處理器設(shè)計呢?

FPGA研究院 ? 來源:Java學(xué)研大本營 ? 2023-12-27 09:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

圖像識別和分析對于產(chǎn)品創(chuàng)新至關(guān)重要,但需要高工作負(fù)載,對服務(wù)質(zhì)量要求嚴(yán)格。解決方案如GPU無法滿足低延遲和高性能要求。DLP FPGA是一種可行的選擇,本文將探討如何實(shí)現(xiàn)這種技術(shù)。

圖像識別和分析在各種產(chǎn)品創(chuàng)新中具有重要作用。然而,這些應(yīng)用通常涉及高工作負(fù)載,對服務(wù)質(zhì)量有嚴(yán)格要求。目前的解決方案,如GPU,無法同時兼顧低延遲和高性能要求。

為了在應(yīng)用深度學(xué)習(xí)的同時提供良好的用戶體驗(yàn),可以在FPGA上架構(gòu)一個超低延遲和高性能的DLP(深度學(xué)習(xí)處理器)。

DLP FPGA可以同時支持稀疏卷積和低精度數(shù)據(jù)計算,同時定義了一個定制的ISA(指令集架構(gòu)),以滿足對靈活性和用戶體驗(yàn)的要求。使用Resnet18(稀疏內(nèi)核)的延遲測試結(jié)果顯示,F(xiàn)PGA的延遲只有0.174ms。

在本文中,我們將簡要討論如何通過新的DLP FPGA實(shí)現(xiàn)這樣的結(jié)果。

1 架構(gòu)

新開發(fā)的DLP有4種模塊,根據(jù)其功能進(jìn)行分類:

計算:卷積、批量歸一化、激活和其他計算

數(shù)據(jù)路徑:數(shù)據(jù)存儲、移動和重塑

參數(shù):存儲權(quán)重和其他參數(shù),解碼

指令:指令單元和全局控制

722dcef6-a447-11ee-8b88-92fbcf53809c.png

DLP中的Protocal Engine(PE)可以支持:

Int4數(shù)據(jù)類型輸入。

Int32數(shù)據(jù)類型輸出。

Int16量化

這種PE能提供超過90%的效率。此外,DLP的重量加載支持CSR解碼器和數(shù)據(jù)預(yù)取。

2 訓(xùn)練

需要重新訓(xùn)練來開發(fā)一個高精確度的模型。下面有4個主要步驟來獲得稀疏權(quán)重和低精度數(shù)據(jù)特征圖。

7249ec94-a447-11ee-8b88-92fbcf53809c.png

我們用一種有效的方法將Resnet18模型訓(xùn)練到稀疏和低精度(1707.09870)。我們方法中的關(guān)鍵部分是離散化。我們專注于壓縮和加速深度模型,其網(wǎng)絡(luò)權(quán)重由非常小的比特數(shù)表示,被稱為極低比特神經(jīng)網(wǎng)絡(luò)。然后我們將這個問題建模為一個離散約束的優(yōu)化問題。

借用乘法交替方向法(ADMM)的思想,我們將連續(xù)參數(shù)與網(wǎng)絡(luò)的離散約束解耦,并將原來的硬問題鑄成幾個子問題。我們建議使用梯度外算法和迭代量化算法來解決這些子問題,與傳統(tǒng)的優(yōu)化方法相比,這些算法會導(dǎo)致更快的收斂。

在圖像識別和物體檢測方面的大量實(shí)驗(yàn)證明,當(dāng)涉及到極低比特的神經(jīng)網(wǎng)絡(luò)時,所提出的算法比最先進(jìn)的方法更有效。

3 ISA/編譯器

如前所述,對于大多數(shù)在線服務(wù)和使用場景,僅有低延遲是不夠的,因?yàn)樗惴P蜁?jīng)常變化。正如我們所知,F(xiàn)PGA的開發(fā)周期非常長;通常需要幾周或幾個月的時間來完成一個定制的設(shè)計。為了解決這一挑戰(zhàn),我們設(shè)計了工業(yè)標(biāo)準(zhǔn)架構(gòu)(ISA)和編譯器,以減少模型升級的時間,使之僅為幾分鐘。

724d82aa-a447-11ee-8b88-92fbcf53809c.png

SW-HW共同開發(fā)平臺由以下項(xiàng)目組成:

編譯器:模型圖分析和指令生成。

API/驅(qū)動:CPU-FPGA DMA圖片重塑,重量壓縮。

ISA控制器:指令解碼、任務(wù)調(diào)度、多線程流水線管理。

4 硬件卡

DLP是在FPGA卡上實(shí)現(xiàn)的,它有PCIe和DDR4內(nèi)存。DLP與該FPGA卡相結(jié)合,可以使在線圖片搜索等應(yīng)用場景更高效用戶體驗(yàn)更好。

5 結(jié)果

72d3cc7a-a447-11ee-8b88-92fbcf53809c.jpg

使用Resnet18的FPGA測試結(jié)果表明,我們的設(shè)計實(shí)現(xiàn)了超低水平的延遲,同時在低于70W的芯片功率下保持了非常高的性能。

72e94fbe-a447-11ee-8b88-92fbcf53809c.png










審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    20256

    瀏覽量

    252498
  • FPGA
    +關(guān)注

    關(guān)注

    1660

    文章

    22416

    瀏覽量

    636584
  • 圖像識別
    +關(guān)注

    關(guān)注

    9

    文章

    534

    瀏覽量

    40071
  • dlp
    dlp
    +關(guān)注

    關(guān)注

    6

    文章

    402

    瀏覽量

    63281
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124414

原文標(biāo)題:使用FPGA制作低延時高性能的深度學(xué)習(xí)處理器

文章出處:【微信號:FPGA研究院,微信公眾號:FPGA研究院】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    FPGA深度學(xué)習(xí)能走多遠(yuǎn)?

    的能量浪費(fèi)。與傳統(tǒng)的通用處理器相比,FPGA 在相同的性能要求下能夠降低功耗,這對于邊緣設(shè)備和嵌入式系統(tǒng)等對功耗敏感的場景非常重要,有助于延長設(shè)備的續(xù)航時間并降低散熱成本。 ? 高性能
    發(fā)表于 09-27 20:53

    FPGA構(gòu)建高性能DSP

    為設(shè)計提供可編程邏輯解決方案所固有的靈活性特點(diǎn),以及定制門陣列(如ASIC)解決方案所具有的高性能及集成度?! ≡鰪?qiáng)DSP處理能力的傳統(tǒng)方法是采用多個處理器。選擇此類方案的缺點(diǎn)是成本昂貴,需要眾多附加
    發(fā)表于 02-17 11:21

    FPGA干貨分享六】基于FPGA協(xié)處理器的算法加速的實(shí)現(xiàn)

    APU接口。通過FPGA中嵌入一個處理器,現(xiàn)在就有機(jī)會在單芯片上實(shí)現(xiàn)完整的處理系統(tǒng)。帶APU接口的PowerPC使得在
    發(fā)表于 02-02 14:18

    FPGA 嵌入式處理器實(shí)現(xiàn)高性能浮點(diǎn)元算

    仿真或者專用軟邏輯 FPU 在 PowerPC 上自如地實(shí)現(xiàn)浮點(diǎn)運(yùn)算。圖 1 顯示了通過 FCB 將 PowerPC 440 處理器連接至 Virtex-5 APU-FPU 的典型實(shí)施方案。圖 1
    發(fā)表于 08-03 11:15

    【詳解】FPGA深度學(xué)習(xí)的未來?

    的未來方向提出關(guān)鍵建議,幫助解決今后深度學(xué)習(xí)所面臨的問題。2. FPGA傳統(tǒng)來說,在評估硬件平臺的加速時,必須考慮到靈活性和性能之間的權(quán)衡。一方面,通用
    發(fā)表于 08-13 09:33

    采用Sitara處理器PRU-ICSS的高性能脈沖序列輸出 (PTO)

    控制和同步無需使用外部 ASIC 或 FPGA借助 Sitara 處理器在 PRU-ICSS 上實(shí)現(xiàn)包含源代碼形式的 PRU-ICSS 固件并可供客戶采用通過 TMDSICE3359
    發(fā)表于 12-17 16:03

    怎么實(shí)現(xiàn)多內(nèi)核處理器開發(fā)趨勢下的高性能視頻系統(tǒng)設(shè)計?

    怎么實(shí)現(xiàn)多內(nèi)核處理器開發(fā)趨勢下的高性能視頻系統(tǒng)設(shè)計?
    發(fā)表于 06-03 06:19

    什么是深度學(xué)習(xí)?使用FPGA進(jìn)行深度學(xué)習(xí)的好處?

    頻率低于 CPU 和 GPU,除非設(shè)計實(shí)現(xiàn),否則性能往往較差。與 CPU 和 GPU 相比實(shí)施成本高,FPGA 上支持深度學(xué)習(xí)的軟件較少很多
    發(fā)表于 02-17 16:56

    基于FPGA的1024點(diǎn)高性能FFT處理器的設(shè)計鐘冠文

    基于FPGA的1024點(diǎn)高性能FFT處理器的設(shè)計_鐘冠文
    發(fā)表于 03-19 11:36 ?10次下載

    FPGA是如何實(shí)現(xiàn)30倍速度的云加速的?

    硬件編程,可將性能提升至通用CPU服務(wù)的30倍以上。同時,與已經(jīng)深入人心的高性能計算的代表GPU相比,FPGA具有硬件可編程、低功耗、
    的頭像 發(fā)表于 05-29 13:44 ?5873次閱讀
    <b class='flag-5'>FPGA</b>是如何<b class='flag-5'>實(shí)現(xiàn)</b>30倍速度的云加速的?

    通過利用FPGA協(xié)處理器實(shí)現(xiàn)對汽車娛樂系統(tǒng)進(jìn)行優(yōu)化設(shè)計

    集成了數(shù)據(jù)通信,定位服務(wù)和視頻娛樂的高端汽車信息娛樂系統(tǒng)需要高性能的可編程處理技術(shù),其最佳實(shí)現(xiàn)方法是在主流汽車信息通信系統(tǒng)構(gòu)架中集成FPGA協(xié)處理器
    發(fā)表于 07-24 15:25 ?1079次閱讀
    <b class='flag-5'>通過</b>利用<b class='flag-5'>FPGA</b>協(xié)<b class='flag-5'>處理器</b><b class='flag-5'>實(shí)現(xiàn)</b>對汽車娛樂系統(tǒng)進(jìn)行優(yōu)化設(shè)計

    FPGA和DSP兩種處理器之間實(shí)現(xiàn)SRIO協(xié)議的方法

    通過 電路設(shè)計 和利用處理器的開發(fā)工具 編程 實(shí)現(xiàn)了兩種處理器間的高速通信。經(jīng)測試,該系統(tǒng)具有較高的傳輸效率。 引言 隨著高性能信號
    的頭像 發(fā)表于 03-20 15:00 ?4037次閱讀

    中科億海微推出高性能FPGA加速卡系列產(chǎn)品

    產(chǎn)品概述中科億海微面向延時高帶寬的數(shù)據(jù)加速應(yīng)用推出高性能FPGA加速卡系列產(chǎn)品。產(chǎn)品采用高性能混合并行計算
    的頭像 發(fā)表于 07-20 18:04 ?2143次閱讀
    中科億海微推出<b class='flag-5'>高性能</b><b class='flag-5'>FPGA</b>加速卡系列產(chǎn)品

    TDA7418:高性能3頻段汽車音頻處理器深度剖析

    TDA7418:高性能3頻段汽車音頻處理器深度剖析 在汽車音頻系統(tǒng)的設(shè)計中,一款優(yōu)秀的音頻處理器至關(guān)重要。TDA7418作為一款高性能的3
    的頭像 發(fā)表于 12-28 15:50 ?771次閱讀

    TDA7418:高性能3頻段汽車音頻處理器深度解析

    TDA7418:高性能3頻段汽車音頻處理器深度解析 在汽車音頻系統(tǒng)的設(shè)計中,一款優(yōu)秀的音頻處理器至關(guān)重要。TDA7418作為一款高性能的3
    的頭像 發(fā)表于 01-05 18:15 ?1169次閱讀