欧美午夜成人福利,一级国产毛片aa,三区动漫视频操国产美女视频

在多核異構(gòu)的時(shí)代，軟件人員普遍面臨的一個(gè)困惑是，面對(duì)如此復(fù)雜的系統(tǒng)，應(yīng)該如何部署我們的算法，是應(yīng)該讓它運(yùn)行在CPU，GPU還是甚至類(lèi)似TPU的專(zhuān)門(mén)ASIC上才是最佳方案？另外給定特定的計(jì)算平臺(tái)，我們的算法實(shí)現(xiàn)是不是已經(jīng)榨干硬件平臺(tái)的最大能力，還有沒(méi)有進(jìn)一步改善的空間？這些問(wèn)題尋尋覓覓答案，真像霧里看花，我們渴望有一雙慧眼，幫我們穿透迷津。

在衡量計(jì)算效能的正確姿勢(shì)我們提到了內(nèi)存帶寬（memory bandiwidth）和以FLOPS為代表的算力是可以很好的刻畫(huà)計(jì)算平臺(tái)的兩個(gè)指標(biāo)。同時(shí)既然是要衡量算法的性能自然我們也要考慮算法的特性?；诖?，論文《Roofline： An Insightful Visual Performance Model for Floating-Point Programs and Multicore Architectures》提出了Roofline模型，試圖對(duì)硬件和軟件通盤(pán)考慮，從而提出改善性能的洞見(jiàn)。

這里我們?cè)囍忉屓缦拢紫任覀円榻B運(yùn)算強(qiáng)度（arithmetic intensity，簡(jiǎn)寫(xiě)成AI）的概念，指的是針對(duì)單位內(nèi)存讀寫(xiě)數(shù)據(jù)進(jìn)行的運(yùn)算次數(shù)，以FLOP/Byte為單位。比如衡量計(jì)算效能的正確姿勢(shì)（2）介紹過(guò)的SAXPY，每次迭代，有三次內(nèi)存訪(fǎng)問(wèn)（x讀一次，y讀寫(xiě)各一次），而有兩次浮點(diǎn)運(yùn)算（乘加各一次），所以其AI為（2 * N） / （3 * N * 4） = 1/6。

int N = 1 《《 22;

void saxpy（float a， float *x， float *y）{

for （int i = 0; i 《 N; ++i）

y［i］ = a*x［i］ + y［i］;

}

引進(jìn)AI后，算力FLOPS就可以用以下公式來(lái)計(jì)算。

兩邊取對(duì)數(shù)，

以logFLOPS為Y，logAI為X，我們可以得到斜截式 Y = X + logBW，另對(duì)特定平臺(tái)，算力FLOPS存在極限值，據(jù)此我們可以作如下圖。

圖中紫色的線(xiàn)條是不是很類(lèi)似屋脊線(xiàn)，這正是該模型命名的由來(lái)。以脊點(diǎn)為界，左邊區(qū)域構(gòu)成內(nèi)存帶寬瓶頸區(qū)域，右邊區(qū)域?qū)?yīng)算力瓶頸區(qū)域。已知某算法的AI，其最大可獲取FLOPS很容易計(jì)算得到，見(jiàn)如下公式，為AI所在豎直線(xiàn)與Roofline的交點(diǎn)。如算法Algo1的AI處于內(nèi)存帶寬受限區(qū)域，而算法Algo2的AI則位于算力受限區(qū)域，如果Algo1和Algo2為同一問(wèn)題兩種算法方案，顯然Alg2更有機(jī)會(huì)獲取滿(mǎn)意的FLOPS。

上面公式代表了理想化的情形，實(shí)際操作中，存在各種各樣的天花板（Ceiling）障礙，算法優(yōu)化的過(guò)程就是反復(fù)突破這些障礙而盡量接近roofline，最后得到理想的性能。如下圖過(guò)程展示，介紹如何通過(guò)改善算法的數(shù)據(jù)局部性以充分利用Cache，并通過(guò)向量化而調(diào)用SIMD硬件資源來(lái)達(dá)到這一目的。

除了上面介紹的Roofline模型能夠讓我們?cè)谔囟ㄆ脚_(tái)“紙上談兵”改善算法性能，Roofline也可以可視化同一算法部署在不同平臺(tái)時(shí)候性能的比較，結(jié)果讓人一目了然。在Google的有關(guān)TPU（TPU是Google開(kāi)發(fā)的專(zhuān)門(mén)用于神經(jīng)網(wǎng)絡(luò)算法加速的芯片）的論文《In-Datacenter Performance Analysis of a Tensor Processing Unit》里，作者利用Roofline圖表來(lái)比較各種神經(jīng)網(wǎng)絡(luò)算法分別部署在同時(shí)代CPU、GPU和TPU的性能差異，令人印象深刻。五角星、三角形、圓形分別代表對(duì)應(yīng)算法在TPU、GPU和CPU上運(yùn)行狀況。

需要指出的是，Roofline模型在實(shí)踐中并不像想象般容易，運(yùn)用的時(shí)候有很多細(xì)微的地方需要仔細(xì)推敲。但它仍不失為非常insightful的尋寶圖，如果你能學(xué)會(huì)正確解讀，它完全有機(jī)會(huì)幫我們找到算法性能優(yōu)化的巨大寶藏。以后我們會(huì)有很多場(chǎng)合涉及它的理念和具體用法，敬請(qǐng)期待。
編輯：lyn

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

asic

asic

+關(guān)注

關(guān)注
34

文章
1274

瀏覽量
124670
cpu

cpu

+關(guān)注

關(guān)注
68

文章
11285

瀏覽量
225145
算法

算法

+關(guān)注

關(guān)注
23

文章
4784

瀏覽量
98102

原文標(biāo)題：Roofline模型初步

文章出處：【微信號(hào)：LinuxDev，微信公眾號(hào)：Linux閱碼場(chǎng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

解析Roofline模型實(shí)踐

評(píng)論