av一二三线在线,有美女逼伦乱毛片看看

Xilinx zynq系列FPGA實現(xiàn)神經(jīng)網(wǎng)絡評估

本篇目錄

1. 內存占用

1.1FPGA程序中內存的實現(xiàn)方式

1.2Zynq的BRAM內存大小

1.3一個卷積操作占用的內存

2. PipeCNN可實現(xiàn)性

PipeCNN論文解析：用OpenCL實現(xiàn)FPGA上的大型卷積網(wǎng)絡加速

2.1已實現(xiàn)的PipeCNN資源消耗

3. 實現(xiàn)大型神經(jīng)網(wǎng)絡的方法

4. Virtex-7高端FPGA概覽、7系列FPGA相關文檔

正文

0Zynq7000系列概覽

1內存占用

1.1 FPGA程序中內存的實現(xiàn)方式

參閱xilinx文檔UG998

FPGA并沒有像軟件那樣用已有的cache，F(xiàn)PGA的HLS編譯器會在FPGA中創(chuàng)建一個快速的memory architecture以最好的適應算法中的數(shù)據(jù)樣式（data layout）。因此FPGA可以有相互獨立的不同大小的內部存儲空間，例如寄存器，移位寄存器，F(xiàn)IFOs和BRAMs。

寄存器：最快的內存結構，集成在在運算單元之中，獲取不需要額外的時延。

移位寄存器：可以被當作一個數(shù)據(jù)序列，每一個數(shù)據(jù)可以在不同的運算之中被重復使用。將其中所有數(shù)據(jù)移動到相鄰的存儲設備中只需要一個時鐘周期。

FIFO：只有一個輸入和輸出的數(shù)據(jù)序列，通常被用于循環(huán)或循環(huán)函數(shù)，細節(jié)會被HLS編譯器處理。

BRAM：集成在FPGA fabric模塊中的RAM，每個xilinx的FPGA中集成有多個這樣的BRAM。可以被當作有以下特性的cache：1.不支持像處理器cache中那樣的緩存一致性（cache coherency,collision）,不支持處理器中的一些邏輯類型。2.只在設備有電時保持內存。3.不同的BRAM塊可以同時傳輸數(shù)據(jù)。

1.2Zynq的BRAM內存大小

zynq 7z020的BRAM為4.9Mb，7z035的BRAM為17.6Mb（2.2MB）

1.3一個卷積操作占用的內存

例如，我們實現(xiàn)的卷積函數(shù)，輸入27×600，卷積核16×27，輸出16×600，數(shù)據(jù)類型為float。

//convolution operationfor (i = 0; i < 16; i++) { for (j = 0; j < 600; j++) { result = 0; for (k = 0; k < 27; k++) { temp = weights[i*27+k] * buf_in[k*600+j]; result += temp; } buf_out[i*600+j] = result; } }

在HLS中生成的IPcore占用硬件資源為：