91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解析Roofline模型實(shí)踐

Linux閱碼場(chǎng) ? 來(lái)源:面包板社區(qū) ? 作者:Linux閱碼場(chǎng) ? 2021-04-28 16:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在多核異構(gòu)的時(shí)代,軟件人員普遍面臨的一個(gè)困惑是,面對(duì)如此復(fù)雜的系統(tǒng),應(yīng)該如何部署我們的算法,是應(yīng)該讓它運(yùn)行在CPU,GPU還是甚至類(lèi)似TPU的專(zhuān)門(mén)ASIC上才是最佳方案?另外給定特定的計(jì)算平臺(tái),我們的算法實(shí)現(xiàn)是不是已經(jīng)榨干硬件平臺(tái)的最大能力,還有沒(méi)有進(jìn)一步改善的空間?這些問(wèn)題尋尋覓覓答案,真像霧里看花,我們渴望有一雙慧眼,幫我們穿透迷津。

在衡量計(jì)算效能的正確姿勢(shì)我們提到了內(nèi)存帶寬(memory bandiwidth)和以FLOPS為代表的算力是可以很好的刻畫(huà)計(jì)算平臺(tái)的兩個(gè)指標(biāo)。同時(shí)既然是要衡量算法的性能自然我們也要考慮算法的特性?;诖?,論文《Roofline: An Insightful Visual Performance Model for Floating-Point Programs and Multicore Architectures》提出了Roofline模型,試圖對(duì)硬件和軟件通盤(pán)考慮,從而提出改善性能的洞見(jiàn)。

這里我們?cè)囍忉屓缦拢紫任覀円榻B運(yùn)算強(qiáng)度(arithmetic intensity,簡(jiǎn)寫(xiě)成AI)的概念,指的是針對(duì)單位內(nèi)存讀寫(xiě)數(shù)據(jù)進(jìn)行的運(yùn)算次數(shù),以FLOP/Byte為單位。比如衡量計(jì)算效能的正確姿勢(shì)(2)介紹過(guò)的SAXPY,每次迭代,有三次內(nèi)存訪(fǎng)問(wèn)(x讀一次,y讀寫(xiě)各一次),而有兩次浮點(diǎn)運(yùn)算(乘加各一次),所以其AI為(2 * N) / (3 * N * 4) = 1/6。

int N = 1 《《 22;

void saxpy(float a, float *x, float *y){

for (int i = 0; i 《 N; ++i)

y[i] = a*x[i] + y[i];

}

引進(jìn)AI后,算力FLOPS就可以用以下公式來(lái)計(jì)算。

e6fcb8b8-a7f7-11eb-9728-12bb97331649.png

兩邊取對(duì)數(shù),

e7379988-a7f7-11eb-9728-12bb97331649.png

以logFLOPS為Y,logAI為X,我們可以得到斜截式 Y = X + logBW,另對(duì)特定平臺(tái),算力FLOPS存在極限值,據(jù)此我們可以作如下圖。

e7486da8-a7f7-11eb-9728-12bb97331649.png

圖中紫色的線(xiàn)條是不是很類(lèi)似屋脊線(xiàn),這正是該模型命名的由來(lái)。以脊點(diǎn)為界,左邊區(qū)域構(gòu)成內(nèi)存帶寬瓶頸區(qū)域,右邊區(qū)域?qū)?yīng)算力瓶頸區(qū)域。已知某算法的AI,其最大可獲取FLOPS很容易計(jì)算得到,見(jiàn)如下公式,為AI所在豎直線(xiàn)與Roofline的交點(diǎn)。如算法Algo1的AI處于內(nèi)存帶寬受限區(qū)域,而算法Algo2的AI則位于算力受限區(qū)域,如果Algo1和Algo2為同一問(wèn)題兩種算法方案,顯然Alg2更有機(jī)會(huì)獲取滿(mǎn)意的FLOPS。

e77db544-a7f7-11eb-9728-12bb97331649.png

上面公式代表了理想化的情形,實(shí)際操作中,存在各種各樣的天花板(Ceiling)障礙,算法優(yōu)化的過(guò)程就是反復(fù)突破這些障礙而盡量接近roofline,最后得到理想的性能。如下圖過(guò)程展示,介紹如何通過(guò)改善算法的數(shù)據(jù)局部性以充分利用Cache,并通過(guò)向量化而調(diào)用SIMD硬件資源來(lái)達(dá)到這一目的。

e7a00b3a-a7f7-11eb-9728-12bb97331649.png

除了上面介紹的Roofline模型能夠讓我們?cè)谔囟ㄆ脚_(tái)“紙上談兵”改善算法性能,Roofline也可以可視化同一算法部署在不同平臺(tái)時(shí)候性能的比較,結(jié)果讓人一目了然。在Google的有關(guān)TPU(TPU是Google開(kāi)發(fā)的專(zhuān)門(mén)用于神經(jīng)網(wǎng)絡(luò)算法加速的芯片)的論文《In-Datacenter Performance Analysis of a Tensor Processing Unit》里,作者利用Roofline圖表來(lái)比較各種神經(jīng)網(wǎng)絡(luò)算法分別部署在同時(shí)代CPU、GPU和TPU的性能差異,令人印象深刻。五角星、三角形、圓形分別代表對(duì)應(yīng)算法在TPU、GPU和CPU上運(yùn)行狀況。

e8b3005e-a7f7-11eb-9728-12bb97331649.png

需要指出的是,Roofline模型在實(shí)踐中并不像想象般容易,運(yùn)用的時(shí)候有很多細(xì)微的地方需要仔細(xì)推敲。但它仍不失為非常insightful的尋寶圖,如果你能學(xué)會(huì)正確解讀,它完全有機(jī)會(huì)幫我們找到算法性能優(yōu)化的巨大寶藏。以后我們會(huì)有很多場(chǎng)合涉及它的理念和具體用法,敬請(qǐng)期待。
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1274

    瀏覽量

    124670
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11285

    瀏覽量

    225145
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4784

    瀏覽量

    98102

原文標(biāo)題:Roofline模型初步

文章出處:【微信號(hào):LinuxDev,微信公眾號(hào):Linux閱碼場(chǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    百度正式發(fā)布并開(kāi)源新一代文檔解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式發(fā)布并開(kāi)源新一代文檔解析模型 PaddleOCR-VL-1.5。該模型以?xún)H 0.9B 參數(shù)的輕量架構(gòu),在全球權(quán)威文檔解析評(píng)測(cè)榜單 OmniDocBench V
    的頭像 發(fā)表于 01-30 10:03 ?631次閱讀
    百度正式發(fā)布并開(kāi)源新一代文檔<b class='flag-5'>解析</b><b class='flag-5'>模型</b>PaddleOCR-VL-1.5

    醫(yī)療后勤應(yīng)急保障大模型智能調(diào)度系統(tǒng):功能特點(diǎn)與平臺(tái)架構(gòu)解析

    ? ? 醫(yī)療后勤應(yīng)急保障大模型智能調(diào)度系統(tǒng)技術(shù)解析 ? ?北京華盛恒輝醫(yī)療后勤應(yīng)急保障大模型智能調(diào)度系統(tǒng),融合大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等前沿技術(shù),聚焦醫(yī)療應(yīng)急物資、設(shè)備、人員等資源的實(shí)時(shí)感知、智能
    的頭像 發(fā)表于 12-23 15:57 ?219次閱讀

    模型驅(qū)動(dòng)的星間鏈路動(dòng)態(tài)組網(wǎng)分系統(tǒng):功能特點(diǎn)與平臺(tái)架構(gòu)解析

    模型賦能的星間鏈路動(dòng)態(tài)組網(wǎng)分系統(tǒng)技術(shù)解析 ? ?北京華盛恒輝大模型驅(qū)動(dòng)的星間鏈路動(dòng)態(tài)組網(wǎng)分系統(tǒng),融合人工智能大模型與衛(wèi)星通信核心技術(shù),聚焦衛(wèi)星間動(dòng)態(tài)智能組網(wǎng)及通信鏈路優(yōu)化,核心優(yōu)勢(shì)在
    的頭像 發(fā)表于 12-23 14:52 ?248次閱讀

    基于大模型ai的地面測(cè)控站網(wǎng)調(diào)度分系統(tǒng):功能特點(diǎn)與平臺(tái)架構(gòu)解析

    ? ? 大模型AI驅(qū)動(dòng)的地面測(cè)控站網(wǎng)調(diào)度分系統(tǒng):航天智能化核心技術(shù)解析 ? ?北京華盛恒輝大模型AI驅(qū)動(dòng)的地面測(cè)控站網(wǎng)調(diào)度分系統(tǒng)作為航天領(lǐng)域智能化轉(zhuǎn)型的關(guān)鍵支撐,大模型AI驅(qū)動(dòng)的地面測(cè)
    的頭像 發(fā)表于 12-19 15:13 ?338次閱讀

    模型支撐后勤保障方案生成系統(tǒng):功能特點(diǎn)與平臺(tái)架構(gòu)解析

    ? ? 大模型支撐后勤保障方案生成系統(tǒng):功能特點(diǎn)與平臺(tái)架構(gòu)解析 ? ?大模型支撐后勤保障方案生成系統(tǒng)憑借智能預(yù)測(cè)、動(dòng)態(tài)調(diào)度、路徑優(yōu)化、庫(kù)存管理及可視化展示等核心能力,為后勤保障方案生成系統(tǒng)提供關(guān)鍵
    的頭像 發(fā)表于 12-17 15:49 ?332次閱讀

    模型賦能物資需求精準(zhǔn)預(yù)測(cè)與采購(gòu)系統(tǒng):功能特點(diǎn)與平臺(tái)架構(gòu)解析

    ? ? 大模型賦能物資需求預(yù)測(cè)與采購(gòu)智能化:核心功能與價(jià)值解析 ? ?大模型賦能物資需求精準(zhǔn)預(yù)測(cè)與采購(gòu)系統(tǒng)通過(guò)深度整合多源數(shù)據(jù)、構(gòu)建動(dòng)態(tài)預(yù)測(cè)模型及優(yōu)化采購(gòu)策略,可大幅提升物資需求預(yù)測(cè)精
    的頭像 發(fā)表于 12-16 11:54 ?317次閱讀

    后勤資源大模型智能調(diào)度系統(tǒng):功能特點(diǎn)與平臺(tái)架構(gòu)解析

    ? ? 后勤資源大模型智能調(diào)度系統(tǒng)解析 ? ?后勤資源大模型智能調(diào)度系統(tǒng)融合大數(shù)據(jù)、人工智能與機(jī)器學(xué)習(xí)技術(shù),針對(duì)物資、設(shè)備、人員、運(yùn)輸工具等后勤資源,通過(guò)實(shí)時(shí)感知、智能決策與動(dòng)態(tài)優(yōu)化,實(shí)現(xiàn)資源合理
    的頭像 發(fā)表于 12-15 16:35 ?331次閱讀

    深度解析 | 低抖動(dòng)高精度EtherCAT多軸控制的實(shí)現(xiàn)與實(shí)踐案例

    深度解析 | 低抖動(dòng)高精度EtherCAT多軸控制的實(shí)現(xiàn)與實(shí)踐案例 在工業(yè)自動(dòng)化領(lǐng)域,運(yùn)動(dòng)控制的精度和穩(wěn)定性直接決定了生產(chǎn)效率和產(chǎn)品質(zhì)量。其中EtherCAT多軸控制技術(shù)尤為引人注目。今天,我們
    發(fā)表于 12-09 17:17

    NVMe高速傳輸之?dāng)[脫XDMA設(shè)計(jì)27: 橋設(shè)備模型設(shè)計(jì)

    Switch 上游虛擬 PCI 橋。 此外還包含一個(gè) TYPE1 類(lèi)型的配置空間封裝類(lèi), 用來(lái)模擬配置空間寄存器組。 模型的每個(gè)端口的輸入端對(duì)接一個(gè) TLP事務(wù)處理程序, 該程序負(fù)責(zé)將接收到的 TLP 事務(wù)進(jìn)行解析和路由轉(zhuǎn)發(fā)。
    發(fā)表于 09-18 09:11

    模型工具的 “京東答案”

    成為現(xiàn)代職場(chǎng)人提升價(jià)值產(chǎn)出的關(guān)鍵競(jìng)爭(zhēng)力。大模型工具的發(fā)展現(xiàn)狀如何?有哪些落地的業(yè)務(wù)實(shí)踐?大模型工具建設(shè)的未來(lái)藍(lán)圖是什么?圍繞這些問(wèn)題,京東內(nèi)部開(kāi)展了一場(chǎng)大模型工具的探索
    的頭像 發(fā)表于 08-25 16:09 ?590次閱讀

    AIcube1.4目標(biāo)檢測(cè)模型導(dǎo)入yolotxt格式數(shù)據(jù)集后一直顯示數(shù)據(jù)正在解析,為什么?

    AIcube1.4目標(biāo)檢測(cè)模型導(dǎo)入yolotxt格式數(shù)據(jù)集后一直顯示數(shù)據(jù)正在解析 數(shù)據(jù)有問(wèn)題,把數(shù)據(jù)情況說(shuō)的詳細(xì)點(diǎn)
    發(fā)表于 08-13 07:16

    cubemx導(dǎo)入模型后找不到keil找不到工程內(nèi)的模型的相關(guān)文件是怎么回事?

    模型在cubemx內(nèi)解析后沒(méi)有問(wèn)題,但解析之后生成工程keil內(nèi)缺讀取不到生成的三個(gè)模型文件
    發(fā)表于 07-18 07:18

    千方科技大模型技術(shù)在交通運(yùn)輸領(lǐng)域的應(yīng)用實(shí)踐

    2025年,全國(guó)交通運(yùn)輸工作會(huì)議明確提出實(shí)施“人工智能+交通運(yùn)輸”行動(dòng),推動(dòng)交通基礎(chǔ)設(shè)施數(shù)字化升級(jí)。近期,千方科技作為行業(yè)標(biāo)桿企業(yè),受邀參與交通運(yùn)輸部管理干部學(xué)院主辦的“DeepSeek在交通運(yùn)輸管理中的應(yīng)用專(zhuān)題研討班”,分享大模型技術(shù)在交通運(yùn)輸領(lǐng)域的應(yīng)用實(shí)踐。
    的頭像 發(fā)表于 05-22 09:23 ?1061次閱讀

    NVIDIA使用Qwen3系列模型的最佳實(shí)踐

    阿里巴巴近期發(fā)布了其開(kāi)源的混合推理大語(yǔ)言模型 (LLM) 通義千問(wèn) Qwen3,此次 Qwen3 開(kāi)源模型系列包含兩款混合專(zhuān)家模型 (MoE),235B-A22B(總參數(shù) 2,350 億,激活參數(shù)
    的頭像 發(fā)表于 05-08 11:45 ?3016次閱讀
    NVIDIA使用Qwen3系列<b class='flag-5'>模型</b>的最佳<b class='flag-5'>實(shí)踐</b>

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    的詳細(xì)解析: 1. 核心組成與工作原理 視覺(jué)編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺(jué)Transformer(ViT)。 語(yǔ)言模型 :處理文本輸入/輸出,如GPT、BERT等,部分模型
    的頭像 發(fā)表于 03-17 15:32 ?8926次閱讀
    ?VLM(視覺(jué)語(yǔ)言<b class='flag-5'>模型</b>)?詳細(xì)<b class='flag-5'>解析</b>