
NVIDIA Jetson Orin 是同類嵌入式人工智能平臺中的翹楚。Jetson Orin SoC 模塊以 NVIDIA Ampere 架構(gòu) GPU 為核心,但 SoC 上還有更多的計算功能:
-
深度學(xué)習(xí)加速器(DLA)中用于深度學(xué)習(xí)工作負(fù)載的專用深度學(xué)習(xí)推理引擎
-
多標(biāo)準(zhǔn)視頻編碼器(NVENC)和多標(biāo)準(zhǔn)視頻解碼器(NVDEC)
NVIDIA Orin SoC 的功能非常強大,擁有 275 個峰值 AI TOPs,是最佳的嵌入式和汽車 AI 平臺。您知道嗎,這些 AI TOPs 中近 40% 來自 NVIDIA Orin 上的兩個 DLA?NVIDIA Ampere GPU 擁有同類產(chǎn)品中最佳的吞吐量,而第二代 DLA 則擁有同類產(chǎn)品中最佳的能效。近年來,隨著 AI 應(yīng)用的快速增長,對更高效計算的需求也在不斷增長。在能效始終是關(guān)鍵 KPI 的嵌入式方面尤其如此。
這就是 DLA 的用武之地。DLA 專門為深度學(xué)習(xí)推理而設(shè)計,可以比 CPU 更有效地執(zhí)行卷積等計算密集型深度學(xué)習(xí)操作。
當(dāng)集成到 SoC(如Jetson AGX Orin 或 NVIDIA DRIVE Orin)中時, GPU 和 DLA 的組合可以為您的嵌入式 AI 應(yīng)用程序提供一個完整的解決方案。我們將在這篇文章中討論深度學(xué)習(xí)加速器,讓您不再錯過。我們將介紹涵蓋汽車和機器人領(lǐng)域的幾個案例研究,以展示 DLA 如何幫助 AI 開發(fā)者為其應(yīng)用程序添加更多功能和性能。最后,我們將介紹視覺 AI 開發(fā)者如何使用 DeepStream SDK 構(gòu)建應(yīng)用工作流,使用 DLA 和整個 Jetson SoC 實現(xiàn)最佳性能。
以下是 DLA 會產(chǎn)生重大影響的一些關(guān)鍵性能指標(biāo)。
關(guān)鍵性能指標(biāo)
在設(shè)計應(yīng)用程序時,您需要滿足一些關(guān)鍵性能指標(biāo)或 KPI。例如最大性能和能效之間的設(shè)計權(quán)衡,這需要開發(fā)團隊仔細(xì)分析和設(shè)計應(yīng)用程序,以便在 SoC 上使用不同的 IP。
如果應(yīng)用程序的關(guān)鍵 KPI 是延遲,則必須在一定的延遲預(yù)算下在應(yīng)用程序中安排任務(wù)。您可以將 DLA 作為加速器,用于與運行在 GPU 上的計算密集型任務(wù)并行的任務(wù)。DLA 峰值性能對 NVIDIA Orin 整體深度學(xué)習(xí)(DL)性能的貢獻率在 38% 至 74% 之間,具體取決于電源模式。

表 1. DLA 吞吐量
Jetson AGX Orin 64GB 上 30W 和 50W 功率模式的 DLA TOPs 與 NVIDIA DRIVE Orin 汽車平臺上的最大時鐘相當(dāng)。
如果功耗是您的關(guān)鍵 KPI 之一,那么就應(yīng)該考慮使用 DLA 來利用其功耗效率方面的優(yōu)勢。與 GPU 相比,每瓦 DLA 的性能平均高出 3–5 倍,這具體取決于電源模式和工作負(fù)載。以下圖表顯示了代表常見用例的三個模型的每瓦性能。

圖 1. DLA 能效

圖 2. 結(jié)構(gòu)化稀疏性和每瓦性能優(yōu)勢
換句話說,如果沒有 DLA 的能效,就不可能在給定的平臺功率預(yù)算下在 NVIDIA Orin 上實現(xiàn)高達(dá) 275 個峰值的 DL TOPs。想要了解更多信息和更多型號的測量結(jié)果,請參閱 DLA-SW GitHub 庫。
以下是 NVIDIA 內(nèi)部如何在汽車和機器人領(lǐng)域使用 DLA 提供的 AI 計算的一些案例研究。
案例研究:汽車
NVIDIA DRIVE AV是端到端的自動駕駛解決方案堆棧,可幫助汽車原始設(shè)備制造商在其汽車產(chǎn)品組合中添加自動駕駛和映射功能。它包括感知層、映射層和規(guī)劃層,以及基于高質(zhì)量真實駕駛數(shù)據(jù)訓(xùn)練的各種 DNN。
NVIDIA DRIVE AV 團隊的工程師致力于設(shè)計和優(yōu)化感知、映射,并通過利用整個 NVIDIA Orin SoC 平臺規(guī)劃工作流??紤]到自動駕駛堆棧中需要處理大量的神經(jīng)網(wǎng)絡(luò)和其他非 DNN 任務(wù),它們會依靠 DLA 作為 NVIDIA Orin SoC 上的專用推理引擎來運行 DNN 任務(wù)。這一點至關(guān)重要,因為 GPU 計算能力是為處理非 DNN 任務(wù)而保留的。如果沒有 DLA 計算,團隊將無法達(dá)到 KPI。

圖3.感知管線的一部分
想要了解更多信息,請訪問Near-Range Obstacle Perception with Early Grid Fusion:https://developer.nvidia.cn/zh-cn/blog/near-range-obstacle-perception-with-early-grid-fusion/
例如,在感知工作流中,它們有來自八個不同相機傳感器的輸入,整個工作流的延遲必須低于某個閾值。感知堆棧是 DNN 的重頭戲,占所有計算的 60% 以上。
為了達(dá)到這些 KPI,并行工作流任務(wù)被映射到 GPU 和 DLA,其中幾乎所有的 DNN 都在 DLA 上運行,而非 DNN 任務(wù)則在 GPU 上運行,以實現(xiàn)總體工作流的延遲目標(biāo)。然后,其他 DNN 在映射和規(guī)劃等其他工作流中按順序或并行消耗輸出。您可以將工作流視為一個巨大的圖形,其中的任務(wù)在 GPU 和 DLA 上并行運行。通過使用 DLA,該團隊將延遲降低了 2.5 倍。

圖 4. 作為感知堆棧一部分的對象檢測
NVIDIA 自動駕駛團隊工程經(jīng)理 Abhishek Bajarger 表示:“利用整個 SoC,特別是 DLA 中專用的深度學(xué)習(xí)推理引擎,使我們能夠在滿足延遲要求和 KPI 目標(biāo)的同時,為軟件堆棧添加重要功能。只有 DLA 才能做到這一點。”
案例研究:機器人
NVIDIA Isaac 是一個功能強大的端到端平臺,用于開發(fā)、仿真和部署機器人開發(fā)者使用的 AI 機器人。特別是對于移動機器人來說,可用的 DL 計算、確定性延遲和電池續(xù)航能力是非常重要的因素。這就是為什么將 DL 推理映射到 DLA 非常重要的原因。
NVIDIA Isaac 團隊的一組工程師開發(fā)了一個使用 DNN 進行臨近分割的庫。鄰近分割可用于確定障礙物是否在鄰近場內(nèi),并避免在導(dǎo)航過程中與障礙物發(fā)生碰撞。他們在 DLA 上實現(xiàn)了 BI3D 網(wǎng)絡(luò),該網(wǎng)絡(luò)可通過立體攝像頭執(zhí)行二進制深度分類。

圖 5. 近距離分割流水線
一個關(guān)鍵的 KPI 是確保從立體攝像頭輸入進行 30 幀/秒的實時檢測。NVIDIA Isaac 團隊將這些任務(wù)分配到 SoC 上,并將 DLA 用于 DNN,同時為在 GPU 上運行的硬件和軟件提供功能安全多樣性。想要了解更多信息,請訪問NVIDIA Isaac ROS 鄰近分割:https://github.com/NVIDIA-ISAAC-ROS/isaac_ros_proximity_segmentation

圖 6. 使用 BI3D 對立體輸入進行鄰近分割
將 NVIDIA DeepStream 用于 DLA
探索 DLA 最快捷的方式是通過 NVIDIA DeepStream SDK,一個完整的流分析工具包。
如果你是一名視覺 AI 開發(fā)者,正在構(gòu)建 AI 驅(qū)動的應(yīng)用程序來分析視頻和傳感器數(shù)據(jù),那么 DeepStream SDK 可以幫助您構(gòu)建最佳的端到端工作流。對于零售分析、停車管理、物流管理、光學(xué)檢測、機器人技術(shù)和體育分析等云端或邊緣用例,DeepStream 可讓您不費吹灰之力就能使用整個 SoC,特別是 DLA。
例如,您可以使用下表中突出顯示的 Model Zoo 中的預(yù)訓(xùn)練模型在 DLA 上運行。在 DLA 上運行這些網(wǎng)絡(luò)就像設(shè)置一個標(biāo)志一樣簡單。想要了解更多信息,請訪問如何使用 DLA 進行推理:https://docs.nvidia.com/metropolis/deepstream/dev-guide/text/DS_Quickstart.html#using-dla-for-inference

表 2. Model Zoo 網(wǎng)絡(luò)樣本
及其在 DLA 上的吞吐量
開始使用深度學(xué)習(xí)加速器
準(zhǔn)備好深入了解了嗎?有關(guān)詳細(xì)信息,請參閱以下資源:
-
Jetson DLA 教程演示了基本的 DLA 工作流,幫助您開始將 DNN 部署到 DLA:https://github.com/NVIDIA-AI-IOT/jetson_dla_tutorial
-
DLA-SW GitHub存儲庫中有一系列參考網(wǎng)絡(luò),您可以使用它們來探索在 Jetson Orin DLA 上運行 DNN:https://github.com/NVIDIA/Deep-Learning-Accelerator-SW/tree/main/scripts/prepare_models
-
示例頁面提供了關(guān)于如何使用 DLA 充分利用 Jetson SoC 的其他示例和資源:https://github.com/NVIDIA/Deep-Learning-Accelerator-SW/
-
DLA 論壇有其他用戶的想法和反饋:https://forums.developer.nvidia.com/tag/dla
SIGGRAPH 2023
NVIDIA 精彩發(fā)布
SIGGRAPH 2023 | NVIDIA 主題演講重磅發(fā)布精彩回顧,探索 AI 無限未來!
敬請持續(xù)關(guān)注...
SIGGRAPH 2023 NVIDIA 主題演講中文字幕版已上線 !掃描下方海報二維碼,或點擊“閱讀原文”即可觀看,與 NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛一起探索 AI 的未來!
原文標(biāo)題:使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度學(xué)習(xí)性能
文章出處:【微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
23文章
4090瀏覽量
99237
原文標(biāo)題:使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度學(xué)習(xí)性能
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
如何在NVIDIA Jetson AGX Thor上部署1200億參數(shù)大模型
如何在NVIDIA Jetson Thor上提升機器人感知效率
NVIDIA Jetson系列開發(fā)者套件助力打造面向未來的智能機器人
如何在NVIDIA Jetson AGX Thor上通過Docker高效部署vLLM推理服務(wù)
NVIDIA Jetson AGX Thor Developer Kit開發(fā)環(huán)境配置指南
通過NVIDIA Jetson AGX Thor實現(xiàn)7倍生成式AI性能
NVIDIA Jetson AGX Thor開發(fā)者套件重磅發(fā)布
基于 NVIDIA Blackwell 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機器人時代的到來
使用u-blox NORA-W4 Wi-Fi 6模塊提高工業(yè)物聯(lián)網(wǎng)性能
使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度學(xué)習(xí)性能
評論