91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA GPUs上命令緩沖區(qū)的應用實踐

星星科技指導員 ? 來源:NVIDIA ? 作者:Wessam Bahnassi ? 2022-04-15 17:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這篇文章介紹了 NVIDIA GPUs 上命令緩沖區(qū)的最佳實踐。要在應用程序中獲得高且一致的幀速率,請參閱所有高級 API 性能提示。

命令緩沖區(qū)是從 CPU 發(fā)送要在 GPU 上執(zhí)行的命令的主要機制。通過遵循本文列出的最佳實踐,您可以通過最大化并行性、避免瓶頸和減少 GPU 上的空閑時間,在 CPU 和 GPU 上實現(xiàn)性能提升。

推薦

接受您負責實現(xiàn)和控制 GPU / CPU 并行性的事實。

向命令列表提交工作不會啟動 GPU 上的任何工作。

對ExecuteCommandList的調(diào)用最終在 GPU 上開始工作。

在多個線程和內(nèi)核上并行并均勻地將工作記錄到多個命令列表中。

錄制命令是一項 CPU 密集型操作,沒有驅(qū)動程序線程來拯救。

命令列表不是自由線程,因此并行工作提交意味著提交多個命令列表。

請注意,設置和重置命令列表會帶來成本。

為了高效地提交并行工作,您仍然需要合理數(shù)量的命令列表。

圍欄出于各種原因(多個命令隊列、拾取查詢結(jié)果等)強制拆分命令列表。

嘗試將目標設定為每幀 5-10 次ExecuteCommandList調(diào)用,并進行足夠的 GPU 工作,以隱藏每次ExecuteCommandList調(diào)用的操作系統(tǒng)調(diào)度開銷。

在上一次ExecuteCommandList調(diào)用之后,操作系統(tǒng)需要 50-80 微秒來安排命令列表。如果調(diào)用中的命令列表執(zhí)行速度快于此,則硬件隊列中存在氣泡。

使用GPUView檢查氣泡。

您可以將 3D 隊列上的圖形或計算工作與專用異步計算隊列上的計算工作重疊。

請記住,即使對于理論上可以與其他圖形或計算任務并行運行的計算任務, GPU 上并行工作的實際調(diào)度細節(jié)也可能不會產(chǎn)生期望的結(jié)果。

注意哪些異步計算和圖形工作負載可以一起調(diào)度。使用圍欄將正確的工作負載配對。

使用ExecuteIndirect靈活性最大限度地將 CPU 工作卸載到 GPU 并減少 CPU – GPU 同步點。

請使用ExecuteIndirect將場景消隱系統(tǒng)移植到 GPU 。

使用ExecuteIndirect計數(shù)緩沖區(qū)來控制命令的數(shù)量,而不是發(fā)出最大數(shù)量的命令并單獨預測未使用的命令。

NVIDIA 在ExecuteIndirect的Vulkan下為ExecuteIndirect提供附加功能

不推薦

幀描述符堆中的 CBV / SRV / UAV 描述符或 2K 采樣器不要超過 100 萬個。

不要阻止ExecuteCommandList呼叫。

ExecuteCommandList打電話可能會很貴。同時,可以在其他線程上記錄新命令。

每個命令隊列都可以使用自己的線程來提交ExecuteCommandList。

不要只在幾個命令列表中記錄所有內(nèi)容或大型場景部分。這限制了您充分使用所有 CPU 內(nèi)核的能力。

此外,構(gòu)建幾個大的命令列表意味著您可能會發(fā)現(xiàn)很難讓 GPU 保持空閑狀態(tài)。

不要只在錄制完所有內(nèi)容后才提交。您可能會浪費使 GPU 與其他命令列表的錄制并行工作的機會。

不要期望大量的列表重用。

在對象可見性等方面,每幀通常有許多更改。

后處理可能是一個例外。

不要經(jīng)?;旌鲜褂美L圖、分派和復制命令。

嘗試將所有繪制命令組合在一起,并將命令分派到一起,依此類推。

在同一隊列上頻繁混合不同類型的工作可能會導致管道排水。

不要創(chuàng)建太多線程或太多命令列表。

太多的線程超額訂閱 CPU 資源,而太多的命令列表可能會積累太多的開銷。

關(guān)于作者

Wessam Bahnassi 在 3D 引擎設計和優(yōu)化方面有 20 年的經(jīng)驗。他最新發(fā)布的游戲包括《蝙蝠俠:阿卡姆騎士》和他自己的 120-FPS PSVR 太空射擊游戲超空。他是 ShaderX / GPU Pro / GPU Zen 系列書籍的撰稿人和章節(jié)編輯。他目前在 NVIDIA 的工作包括進行優(yōu)化,并為該公司的幾個很酷的研究項目做出貢獻。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11300

    瀏覽量

    225445
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5661

    瀏覽量

    109940
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    C語言的緩沖區(qū)(緩存)詳解

    緩沖區(qū)又稱為緩存,它是內(nèi)存空間的一部分。也就是說,在內(nèi)存空間中預留了一定的存儲空間,這些存儲空間用來緩沖輸入或輸出的數(shù)據(jù),這部分預留的空間就叫做緩沖區(qū)。   緩沖區(qū)根據(jù)其對應的是輸入設
    發(fā)表于 01-14 07:30

    CW32L052串口的緩沖區(qū)機制

    默認緩沖區(qū)配置 CW32L052的UART模塊支持硬件FIFO(通常為16字節(jié)),但HAL庫或用戶代碼需手動管理接收緩沖區(qū)。若未顯式分配足夠大的軟件緩沖區(qū),可能導致數(shù)據(jù)溢出。 HAL庫緩沖區(qū)
    發(fā)表于 11-24 06:40

    飛凌嵌入式ElfBoard-標準IO接口之設置緩沖區(qū)

    件的stdio緩沖區(qū),應以動態(tài)或靜態(tài)的方式在堆中為該緩沖區(qū)分配一塊空間,而不是分配在棧的函數(shù)內(nèi)的自動變量(局部變量)。如果buf等于NULL,那么會自動分配一塊空間作為該文件的stdio緩沖
    發(fā)表于 11-14 09:02

    移植的lvgl,在運行的時候,緩沖區(qū)無法釋放怎么解決?

    代碼在運行的時候,只有l(wèi)vgl線程用于刷新,另一個線程只有一個串口打印。 當運行一段時間后,發(fā)現(xiàn),程序會在LVGl中,lv_refr.c這個庫下面第625行代碼, 在這一直判斷,看介紹說是在等待釋放緩沖區(qū),求大神給個思路
    發(fā)表于 09-09 07:28

    對于CYUSB3014芯片,哪個函數(shù)可以讀取GPIF II端DMA緩沖區(qū)中緩存的實際數(shù)據(jù)量?

    : 1.哪個函數(shù)可以讀取USB端口緩沖區(qū)數(shù)據(jù)的實際字節(jié)數(shù)? 2. 哪個函數(shù)可以讀取 GPIF II DMA 緩沖區(qū)數(shù)據(jù)的實際字節(jié)數(shù)? 3、GPIF II 接口的標志信號會受 USB 端口狀態(tài)的影響嗎?會怎樣,然后又會產(chǎn)生怎樣
    發(fā)表于 07-21 07:27

    如何清除CYUSB3014的緩沖區(qū)數(shù)據(jù)?USB接口數(shù)據(jù)什么時候發(fā)送到電腦?

    、如何清除GPIF II接口處對應的DMA BUFFER數(shù)據(jù)?當標志設置為滿/非滿狀態(tài)時,一旦 DMA 緩沖區(qū)已滿,標志信號就會指示它已滿。清除DMA緩沖區(qū)數(shù)據(jù)后,相應的標志信號會改變嗎?會不會變成非滿狀態(tài)
    發(fā)表于 07-18 07:58

    USB緩沖區(qū)中的內(nèi)容滿了之后,是否有標志位進行反饋?

    USB緩沖區(qū)中的內(nèi)容滿了之后,是否有標志位進行反饋。
    發(fā)表于 07-17 07:13

    請問USB緩沖區(qū)取數(shù)據(jù)可以多次取嗎?

    在使用USB軟件獲取數(shù)據(jù)是,下位機給我發(fā)送了13個32位數(shù)據(jù)到USB IN緩沖區(qū),為什么我調(diào)用API函數(shù)想要第一次取1個32位數(shù)據(jù),取完之后再取12位數(shù)據(jù),程序會卡死。
    發(fā)表于 07-16 08:12

    socket緩沖區(qū)溢出的原因?怎么解決?

    我在測試視頻通話時 發(fā)現(xiàn)丟幀特別嚴重 進行了一些列的排查 發(fā)現(xiàn)socket本身似乎有問題 通過測試代碼發(fā)現(xiàn)了大量的緩沖區(qū)溢出我嘗試換了不同的服務器 我還分別測試了wifi網(wǎng)卡和4G網(wǎng)卡 全都這樣
    發(fā)表于 06-19 06:34

    解析RZ/N2L CANFD模塊的緩沖區(qū)機制(2)

    在工業(yè)自動化、智能交通、機器人等領(lǐng)域,CANFD(CAN with Flexible Data-Rate)技術(shù)正逐步取代傳統(tǒng)CAN,以適應更高的數(shù)據(jù)速率和更復雜的通信需求。本文將深入解析RZ/N2L CANFD模塊的緩沖區(qū)機制,幫助工程師更高效地管理CAN消息,提高系統(tǒng)性能。
    的頭像 發(fā)表于 05-19 14:13 ?1497次閱讀
    解析RZ/N2L CANFD模塊的<b class='flag-5'>緩沖區(qū)</b>機制(2)

    解析RZ/N2L CANFD模塊的緩沖區(qū)機制(1)

    在工業(yè)自動化、智能交通、機器人等領(lǐng)域,CANFD(CAN with Flexible Data-Rate)技術(shù)正逐步取代傳統(tǒng)CAN,以適應更高的數(shù)據(jù)速率和更復雜的通信需求。本文將深入解析RZ/N2L CANFD模塊的緩沖區(qū)機制,幫助工程師更高效地管理CAN消息,提高系統(tǒng)性能。
    的頭像 發(fā)表于 05-19 14:10 ?1332次閱讀
    解析RZ/N2L CANFD模塊的<b class='flag-5'>緩沖區(qū)</b>機制(1)

    FX3 Socket緩沖區(qū)切換的最大時間是多少?

    FX3_Programmers_Manual 文檔的第 10 章提到“每個緩沖區(qū)緩沖區(qū)切換開銷為 550 - 900 ns”。 Getting_Started_with_EZ-USB_FX3 文檔
    發(fā)表于 05-16 07:51

    在傳輸DMA通道中的所有緩沖區(qū)后,DMA標志(就緒和部分)被卡住了是怎么回事?

    2 次傳輸,再次卡住的時間更短,然后順利傳輸數(shù)據(jù)。 Buffers working until they get stuck緩沖器在卡住之前一直在工作 前兩個緩沖區(qū)的標志 A()和 B(下),然后
    發(fā)表于 05-16 07:18

    求助,關(guān)于3014的緩沖區(qū)設置疑問求解

    不夠?qū)е聄gb24 1080p@60fps為靜態(tài)? 緩沖區(qū)的大小和數(shù)量是否需要對應? 因為720p@60fps的緩沖區(qū)的大小和數(shù)量為34kb,3,是可以出圖且動態(tài),但圖像依然是顛倒的。我將
    發(fā)表于 05-06 13:42

    請問如何在Linux中使用幀緩沖區(qū)更新epdc顯示?

    我正在使用帶有 epdc 顯示子卡 (IMXEBOOKDC5) 的 IMX8ULP EVK。使用 Linux 映像引導后,epdc 顯示無法使用幀緩沖區(qū)進行更新。當檢查顯示 pmic 的電源使能引腳
    發(fā)表于 04-01 06:41