欧美女性一级视频,欧美一区二区三区91,国产香蕉视频在线观看

Xilinx zynq系列FPGA實現(xiàn)神經(jīng)網(wǎng)絡評估

本篇目錄

1. 內存占用

1.1 FPGA程序中內存的實現(xiàn)方式

1.2 Zynq的BRAM內存大小

1.3 一個卷積操作占用的內存

2. PipeCNN可實現(xiàn)性

PipeCNN論文解析：用OpenCL實現(xiàn)FPGA上的大型卷積網(wǎng)絡加速

2.1 已實現(xiàn)的PipeCNN資源消耗

3. 實現(xiàn)大型神經(jīng)網(wǎng)絡的方法

4. Virtex-7高端FPGA概覽、7系列FPGA相關文檔

正文

0Zynq7000系列概覽

1內存占用

1.1 FPGA程序中內存的實現(xiàn)方式

參閱xilinx文檔UG998

FPGA并沒有像軟件那樣用已有的cache，F(xiàn)PGA的HLS編譯器會在FPGA中創(chuàng)建一個快速的memory architecture以最好的適應算法中的數(shù)據(jù)樣式（data layout）。因此FPGA可以有相互獨立的不同大小的內部存儲空間，例如寄存器，移位寄存器，F(xiàn)IFOs和BRAMs。

寄存器：最快的內存結構，集成在在運算單元之中，獲取不需要額外的時延。

移位寄存器：可以被當作一個數(shù)據(jù)序列，每一個數(shù)據(jù)可以在不同的運算之中被重復使用。將其中所有數(shù)據(jù)移動到相鄰的存儲設備中只需要一個時鐘周期。

FIFO：只有一個輸入和輸出的數(shù)據(jù)序列，通常被用于循環(huán)或循環(huán)函數(shù)，細節(jié)會被HLS編譯器處理。

BRAM：集成在FPGA fabric模塊中的RAM，每個xilinx的FPGA中集成有多個這樣的BRAM?？梢员划斪饔幸韵绿匦缘腸ache：1.不支持像處理器cache中那樣的緩存一致性（cache coherency，collision），不支持處理器中的一些邏輯類型。2.只在設備有電時保持內存。3.不同的BRAM塊可以同時傳輸數(shù)據(jù)。

1.2 Zynq的BRAM內存大小

zynq 7z020的BRAM為4.9Mb，7z035的BRAM為17.6Mb（2.2MB）

1.3 一個卷積操作占用的內存

例如，我們實現(xiàn)的卷積函數(shù)，輸入27×600，卷積核16×27，輸出16×600，數(shù)據(jù)類型為float。

//convolution operation for （i = 0; i 《 16; i++） { for （j = 0; j 《 600; j++） { result = 0; for （k = 0; k 《 27; k++） { temp = weights［i*27+k］ * buf_in［k*600+j］; result += temp; } buf_out［i*600+j］ = result; } }

在HLS中生成的IPcore占用硬件資源為：