91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

剖析GPU分支分歧對(duì)性能的影響

B4Pb_gh_6fde77c ? 來源:GPU and Computing ? 作者: GPUComputing ? 2021-08-13 16:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在先前文章中,我們談到現(xiàn)代GPU發(fā)展出SIMT(Single Instruction Multiple Thread)的執(zhí)行結(jié)構(gòu),硬件線程池的線程們有相對(duì)獨(dú)立的運(yùn)行上下文,以Warp為單位分發(fā)到一組處理單元按SIMD的模式運(yùn)行。

這些Warp內(nèi)的線程共享同樣的PC,以鎖步的方式執(zhí)行指令,但是每個(gè)線程又可以有自己的執(zhí)行分支。很自然衍生的一個(gè)問題就是現(xiàn)代GPU如何有效的處理Branch Divergence(分支分歧)?

一方面為適應(yīng)復(fù)雜圖形渲染以及通用計(jì)算的要求,GPU編程語言像其它高級(jí)語言一樣需要支持各種各樣的流控制(Flow Control)指令,比如ifswitchdoforwhile等等,這些指令都會(huì)導(dǎo)致分支分歧。

另一方面GPU并行計(jì)算的特點(diǎn)要求所有處理單元整齊劃一地執(zhí)行相同指令,才能夠取得性能最大化。如何較好地解決這兩種不同要求導(dǎo)致的沖突,一直是GPU研究中的熱點(diǎn)難點(diǎn)問題。在這里筆者沒有能力深入探討,只是淺嘗輒止做一般介紹,主要求這個(gè)系列內(nèi)容完整,不足甚至謬誤之處,請(qǐng)各位看官不吝指正。

一,分支分歧對(duì)性能的影響

這一節(jié)我們首先來討論下分支分歧對(duì)GPU性能的影響。以如下ifelse代碼為例,我們看下GPU一般是如何來處理分支分歧的?

if (cond) {。。。} else {。。。}

假設(shè)一個(gè)Warp中有16個(gè)線程判斷條件為真,另外16個(gè)線程條件為假,所以一半線程會(huì)執(zhí)行if中的語句,另一半線程執(zhí)行else中的語句。這看起來像個(gè)悖論,我們知道Warp中的線程同一時(shí)刻只能執(zhí)行相同的指令。

實(shí)際上遇到分支分歧時(shí)GPU會(huì)順序執(zhí)行每個(gè)分支路徑,而禁用不在此路徑上的線程,直到所有有線程使能的分支路徑都走完,線程再重新匯合到同一執(zhí)行路徑。每個(gè)分支都有些線程不干活或者干無用功,Warp實(shí)際上需要執(zhí)行的指令數(shù)目大增。

假設(shè)每個(gè)分支任務(wù)量大致相同,分支分歧造成的性能損失少則原先的一半,最壞的情況如果每個(gè)線程執(zhí)行分支都不一致,性能下降為最高時(shí)候的1/32。

所以無論在設(shè)計(jì)算法還是分配處理數(shù)據(jù)的時(shí)候,我們都要小心盡量避免同一個(gè)Warp內(nèi)線程出現(xiàn)分支分歧的狀況,在遇到流控制指令的時(shí)候,最好能夠選擇同樣的路徑。

二,如何實(shí)現(xiàn)Reconvergence

上一節(jié)我們講了Warp的線程產(chǎn)生了分支分歧之后,為求性能最佳,不可能讓它們一直放任自流,最終還是要盡可能在合適時(shí)機(jī)把它們重新匯合(Reconverge)起來。但這一切是如何實(shí)現(xiàn)的呢?

按照參考1的說法,“The SM uses a branch synchronization stack to manage independent threads that diverge and converge” 。下面根據(jù)可接觸到的文獻(xiàn)我們看看大概是如何實(shí)現(xiàn)的,不一定跟GPU產(chǎn)商的實(shí)際做法一致。

我們稱這個(gè)Warp運(yùn)行時(shí)棧為SIMT Stack,每個(gè)Warp擁有一個(gè)SIMT棧用于處理SIMT執(zhí)行模式中的分支分歧。

首先我們需要先確定分支分歧的最近重匯合點(diǎn)(Reconvergence Point),一般可以選用造成分支分歧節(jié)點(diǎn)的直接后序支配節(jié)點(diǎn)(Immediate post-dominator,若控制流圖的節(jié)點(diǎn)n 到終結(jié)節(jié)點(diǎn)的每一條路徑均要經(jīng)過節(jié)點(diǎn)d,則稱節(jié)點(diǎn)d后序支配節(jié)點(diǎn)n,如d與n之間沒有任何其他節(jié)點(diǎn)后序支配n,則稱節(jié)點(diǎn)d直接后序支配節(jié)點(diǎn)n)。

這可以通過編譯時(shí)的控制流分析得到。左邊是我們假想的一段GPU偽代碼,右邊是對(duì)應(yīng)的控制流圖,我們假設(shè)SIMD通道的數(shù)目是4,每個(gè)節(jié)點(diǎn)邊上的掩碼數(shù)字代表通道上線程在該節(jié)點(diǎn)基本塊有沒有使能。

SIMT棧結(jié)構(gòu)每個(gè)條目由執(zhí)行指令PC、分支重匯合PC(RPC)和使能線程掩碼三部分組成。執(zhí)行流從節(jié)點(diǎn)B分支分歧到節(jié)點(diǎn)E重新匯合時(shí)SIMT棧的更新過程。執(zhí)行的時(shí)候,遇到流控制指令,我們將各個(gè)分支依次入棧,棧頂條目的PC會(huì)被送到取指單元開始相應(yīng)分支路徑的處理。

只有條目掩碼中使能的線程會(huì)處于活躍狀態(tài),當(dāng)下一條PC等于棧頂條目RPC的時(shí)候,說明該分支已經(jīng)到了匯合點(diǎn),棧頂條目會(huì)被彈出,開始下一分支的處理以至所有執(zhí)行線程匯合并共同執(zhí)行接下來的指令。值得注意的是真實(shí)環(huán)境下GPU都設(shè)計(jì)有一些特殊指令來維護(hù)SIMT棧。

下圖表示上面代碼在時(shí)間軸上的執(zhí)行過程,實(shí)心箭頭表示對(duì)應(yīng)線程在該執(zhí)行節(jié)點(diǎn)處于活躍狀態(tài),反之空心箭頭代表不活躍狀態(tài)。

ada94e44-fbb9-11eb-9bcf-12bb97331649.png

基于SIMT棧的Reconvergence方案并不完美,其中一個(gè)很大的問題是Warp內(nèi)線程細(xì)粒度同步的時(shí)候很容易引發(fā)死鎖。按照Nvidia的說法,“algorithms requiring fine-grainedsharing of data guarded by locks or mutexes can easily lead to deadlock,depending on which warp the contending threads come from.”。

以下面代碼為例,某幸運(yùn)線程拿到鎖之后,在最近重匯合點(diǎn)C等著與大部隊(duì)接頭,不幸的是它無法執(zhí)行下面的Exch指令以釋放鎖,導(dǎo)致其它線程只能在B處空轉(zhuǎn),形成死鎖。

adb72852-fbb9-11eb-9bcf-12bb97331649.png

從更高的層次上理解,分支分歧導(dǎo)致的順序執(zhí)行只發(fā)生在Warp內(nèi)的線程,Warp之間卻相互不受干擾,這種不一致的處理方式對(duì)算法移植的適應(yīng)性還是可預(yù)測(cè)性都會(huì)帶來影響。Nvidia從Volta GPU開始做出了改進(jìn)。

提出了“Independent Thread Scheduling”的方法,使得所有線程無關(guān)所在Warp可以具有同樣并發(fā)執(zhí)行能力,為此相比之前的GPU其Warp內(nèi)所有線程共享PC以及運(yùn)行棧,Volta GPU的線程都分別有各自的PC和運(yùn)行棧,如下圖所示。

adc43d30-fbb9-11eb-9bcf-12bb97331649.png

如此針對(duì)同樣的GPU程序以及分支分歧,Volta與之前的GPU相比有截然不同的調(diào)度行為。我們注意到在Volta中所有的Warp線程并沒有一起強(qiáng)制匯合執(zhí)行Z基本塊,主要考慮到Z可能作為生產(chǎn)者需要提供其它執(zhí)行分支依賴的的數(shù)據(jù)。

回到我們先前死鎖的例子,在Volta中這個(gè)死鎖便可迎刃而解。如果我們明顯了解相關(guān)分支不存在同步行為,為優(yōu)化性能計(jì),CUDA提供了 __syncwarp() 函數(shù)以便強(qiáng)制匯合。

add48e2e-fbb9-11eb-9bcf-12bb97331649.png

主要參考資料:

NVIDIA Tesla: A Unified Graphics and Computing Architecture

Dynamic Warp Formation and Scheduling for Efficient GPU Control Flow

https://developer.nvidia.com/blog/inside-volta/

General-Purpose Graphics Processor Architectures

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5217

    瀏覽量

    135628
  • PC
    PC
    +關(guān)注

    關(guān)注

    9

    文章

    2168

    瀏覽量

    159431
  • 編程
    +關(guān)注

    關(guān)注

    90

    文章

    3717

    瀏覽量

    97247

原文標(biāo)題:近距離看GPU計(jì)算(3)

文章出處:【微信號(hào):gh_6fde77c41971,微信公眾號(hào):FPGA干貨】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    LT3040:高性能電壓輸出參考/DAC緩沖器的技術(shù)剖析與應(yīng)用指南

    LT3040:高性能電壓輸出參考/DAC緩沖器的技術(shù)剖析與應(yīng)用指南 在電子設(shè)計(jì)領(lǐng)域,對(duì)于高性能、低噪聲的電壓輸出參考和DAC緩沖器的需求日益增長。LT3040作為一款備受矚目的產(chǎn)品,以其卓越的
    的頭像 發(fā)表于 03-19 15:15 ?68次閱讀

    MAX17409:高性能GPU的電源控制利器

    MAX17409:高性能GPU的電源控制利器 在今日的高性能圖形處理器(GPU)應(yīng)用領(lǐng)域,對(duì)于高效、穩(wěn)定且響應(yīng)迅速的電源控制的需求日益增長。MAX17409作為一款1 - 相Quick
    的頭像 發(fā)表于 03-17 14:20 ?68次閱讀

    性能低功耗SiM3L1xx MCU深度剖析

    性能低功耗SiM3L1xx MCU深度剖析 在當(dāng)今的電子設(shè)計(jì)領(lǐng)域,高性能、低功耗的微控制器(MCU)一直是工程師們追求的目標(biāo)。SiM3L1xx Precision32?系列MCU憑借其出色的
    的頭像 發(fā)表于 03-03 17:15 ?604次閱讀

    AD844高速運(yùn)算放大器:性能剖析與應(yīng)用指南

    AD844高速運(yùn)算放大器:性能剖析與應(yīng)用指南 在電子工程領(lǐng)域,高速運(yùn)算放大器是實(shí)現(xiàn)高性能電路設(shè)計(jì)的關(guān)鍵元件。AD844作為一款由Analog Devices推出的高速運(yùn)算放大器,憑借其卓越的
    的頭像 發(fā)表于 01-25 10:10 ?315次閱讀

    深入解析 SCANSTA111:增強(qiáng)型掃描橋多分支可尋址 IEEE 1149.1(JTAG)端口芯片

    Texas Instruments 的 SCANSTA111 芯片,作為一款增強(qiáng)型掃描橋多分支可尋址 JTAG 端口芯片,為復(fù)雜系統(tǒng)的測(cè)試提供了更強(qiáng)大的解決方案。今天,我們就來深入剖析這款芯片的特性、架構(gòu)
    的頭像 發(fā)表于 12-31 11:25 ?342次閱讀

    AMD UltraScale架構(gòu):高性能FPGA與SoC的技術(shù)剖析

    AMD UltraScale架構(gòu):高性能FPGA與SoC的技術(shù)剖析 在當(dāng)今的電子設(shè)計(jì)領(lǐng)域,高性能FPGA和MPSoC/RFSoC的需求日益增長。AMD的UltraScale架構(gòu)憑借其創(chuàng)新的技術(shù)和卓越
    的頭像 發(fā)表于 12-15 14:35 ?612次閱讀

    NVIDIA RTX PRO 2000 Blackwell GPU性能測(cè)試

    Blackwell 架構(gòu) GPU 中的中端專業(yè)圖形卡,高度僅為全高 GPU 的二分之一。如果您需要的是一塊半高顯卡,能適配小機(jī)箱,功耗不高,還要具備 AI 及光線追蹤性能的話,那么 RTX PRO 2000 是很好的選擇。
    的頭像 發(fā)表于 11-28 09:39 ?6502次閱讀
    NVIDIA RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b><b class='flag-5'>性能</b>測(cè)試

    蜂鳥E203簡(jiǎn)單分支預(yù)測(cè)的改進(jìn)

    是最簡(jiǎn)單的靜態(tài)分支預(yù)測(cè),其預(yù)測(cè)的命中率并不是很高,因此流水線常常需要因?yàn)闆_刷而浪費(fèi)很多周期,導(dǎo)致CPU的性能下降。因此,針對(duì)題目通過對(duì)E203微架構(gòu)進(jìn)行優(yōu)化提升處理器性能的要求,我們想到了對(duì)其
    發(fā)表于 10-24 07:45

    提高條件分支指令預(yù)測(cè)正確率的方法

    “Gshare方法”。 BTB: 分支目標(biāo)緩沖器(Branch Target Buffer,BTB)是一個(gè)用于存儲(chǔ)分支指令地址和目標(biāo)地址的高速緩存,其常見于超標(biāo)量處理器中,主要用于提高分支預(yù)測(cè)器的
    發(fā)表于 10-22 08:22

    基于全局預(yù)測(cè)歷史的gshare分支預(yù)測(cè)器的實(shí)現(xiàn)細(xì)節(jié)

    的地址位數(shù),雖然BHR位數(shù)越多,分支預(yù)測(cè)器的準(zhǔn)確度越高,但正確率提高的代價(jià)是PHT消耗的資源呈指數(shù)形式迅速地增長,因此我們必須在面積與性能之間進(jìn)行權(quán)衡。。最終經(jīng)過對(duì)各類32位RISC-V開源處理器內(nèi)核
    發(fā)表于 10-22 06:50

    NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品

    NVIDIA 桌面 GPU 系列擴(kuò)展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell GPU,可提高工程、內(nèi)容創(chuàng)作和 3D 可視化等應(yīng)用的
    的頭像 發(fā)表于 08-18 11:50 ?1473次閱讀

    aicube的n卡gpu索引該如何添加?

    請(qǐng)問有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經(jīng)安裝了cuda和cudnn,在全局的py里添加了torch,能夠調(diào)用gpu,當(dāng)還是只能看到默認(rèn)的gpu0,顯示不了gpu1
    發(fā)表于 07-25 08:18

    如何在Ray分布式計(jì)算框架下集成NVIDIA Nsight Systems進(jìn)行GPU性能分析

    在大語言模型的強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,GPU 性能優(yōu)化至關(guān)重要。隨著模型規(guī)模不斷擴(kuò)大,如何高效地分析和優(yōu)化 GPU 性能成為開發(fā)者面臨的主要挑戰(zhàn)之一。
    的頭像 發(fā)表于 07-23 10:34 ?2456次閱讀
    如何在Ray分布式計(jì)算框架下集成NVIDIA Nsight Systems進(jìn)行<b class='flag-5'>GPU</b><b class='flag-5'>性能</b>分析

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】+NVlink技術(shù)從應(yīng)用到原理

    前言 【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」書中的芯片知識(shí)是比較接近當(dāng)前的頂尖芯片水平的,同時(shí)包含了芯片架構(gòu)的基礎(chǔ)知識(shí),但該部分知識(shí)比較晦澀難懂,或許是由于我一直從事的事芯片
    發(fā)表于 06-18 19:31