色吧激情视频成人三级小视频,日本免费观看黄色片

NVIDIA Jetson Orin 是同類嵌入式人工智能平臺中的翹楚。Jetson Orin SoC 模塊以 NVIDIA Ampere 架構(gòu) GPU 為核心，但 SoC 上還有更多的計算功能：

深度學(xué)習(xí)加速器（DLA）中用于深度學(xué)習(xí)工作負(fù)載的專用深度學(xué)習(xí)推理引擎
用于圖像處理和計算機視覺算法的可編程視覺加速器（PVA）引擎
多標(biāo)準(zhǔn)視頻編碼器（NVENC）和多標(biāo)準(zhǔn)視頻解碼器（NVDEC）

NVIDIA Orin SoC 的功能非常強大，擁有 275 個峰值 AI TOPs，是最佳的嵌入式和汽車 AI 平臺。您知道嗎，這些 AI TOPs 中近 40% 來自 NVIDIA Orin 上的兩個 DLA？NVIDIA Ampere GPU 擁有同類產(chǎn)品中最佳的吞吐量，而第二代 DLA 則擁有同類產(chǎn)品中最佳的能效。近年來，隨著 AI 應(yīng)用的快速增長，對更高效計算的需求也在不斷增長。在能效始終是關(guān)鍵 KPI 的嵌入式方面尤其如此。

這就是 DLA 的用武之地。DLA 專門為深度學(xué)習(xí)推理而設(shè)計，可以比 CPU 更有效地執(zhí)行卷積等計算密集型深度學(xué)習(xí)操作。

當(dāng)集成到 SoC（如Jetson AGX Orin 或 NVIDIA DRIVE Orin）中時， GPU 和 DLA 的組合可以為您的嵌入式 AI 應(yīng)用程序提供一個完整的解決方案。我們將在這篇文章中討論深度學(xué)習(xí)加速器，讓您不再錯過。我們將介紹涵蓋汽車和機器人領(lǐng)域的幾個案例研究，以展示 DLA 如何幫助 AI 開發(fā)者為其應(yīng)用程序添加更多功能和性能。最后，我們將介紹視覺 AI 開發(fā)者如何使用 DeepStream SDK 構(gòu)建應(yīng)用工作流，使用 DLA 和整個 Jetson SoC 實現(xiàn)最佳性能。

以下是 DLA 會產(chǎn)生重大影響的一些關(guān)鍵性能指標(biāo)。

關(guān)鍵性能指標(biāo)

在設(shè)計應(yīng)用程序時，您需要滿足一些關(guān)鍵性能指標(biāo)或 KPI。例如最大性能和能效之間的設(shè)計權(quán)衡，這需要開發(fā)團隊仔細(xì)分析和設(shè)計應(yīng)用程序，以便在 SoC 上使用不同的 IP。

如果應(yīng)用程序的關(guān)鍵 KPI 是延遲，則必須在一定的延遲預(yù)算下在應(yīng)用程序中安排任務(wù)。您可以將 DLA 作為加速器，用于與運行在 GPU 上的計算密集型任務(wù)并行的任務(wù)。DLA 峰值性能對 NVIDIA Orin 整體深度學(xué)習(xí)（DL）性能的貢獻率在 38% 至 74% 之間，具體取決于電源模式。

表 1. DLA 吞吐量

Jetson AGX Orin 64GB 上 30W 和 50W 功率模式的 DLA TOPs 與 NVIDIA DRIVE Orin 汽車平臺上的最大時鐘相當(dāng)。

如果功耗是您的關(guān)鍵 KPI 之一，那么就應(yīng)該考慮使用 DLA 來利用其功耗效率方面的優(yōu)勢。與 GPU 相比，每瓦 DLA 的性能平均高出 3–5 倍，這具體取決于電源模式和工作負(fù)載。以下圖表顯示了代表常見用例的三個模型的每瓦性能。

圖 1. DLA 能效

圖 2. 結(jié)構(gòu)化稀疏性和每瓦性能優(yōu)勢

換句話說，如果沒有 DLA 的能效，就不可能在給定的平臺功率預(yù)算下在 NVIDIA Orin 上實現(xiàn)高達(dá) 275 個峰值的 DL TOPs。想要了解更多信息和更多型號的測量結(jié)果，請參閱 DLA-SW GitHub 庫。

以下是 NVIDIA 內(nèi)部如何在汽車和機器人領(lǐng)域使用 DLA 提供的 AI 計算的一些案例研究。

案例研究：汽車

NVIDIA DRIVE AV是端到端的自動駕駛解決方案堆棧，可幫助汽車原始設(shè)備制造商在其汽車產(chǎn)品組合中添加自動駕駛和映射功能。它包括感知層、映射層和規(guī)劃層，以及基于高質(zhì)量真實駕駛數(shù)據(jù)訓(xùn)練的各種 DNN。

NVIDIA DRIVE AV 團隊的工程師致力于設(shè)計和優(yōu)化感知、映射，并通過利用整個 NVIDIA Orin SoC 平臺規(guī)劃工作流?？紤]到自動駕駛堆棧中需要處理大量的神經(jīng)網(wǎng)絡(luò)和其他非 DNN 任務(wù)，它們會依靠 DLA 作為 NVIDIA Orin SoC 上的專用推理引擎來運行 DNN 任務(wù)。這一點至關(guān)重要，因為 GPU 計算能力是為處理非 DNN 任務(wù)而保留的。如果沒有 DLA 計算，團隊將無法達(dá)到 KPI。

圖3.感知管線的一部分

想要了解更多信息，請訪問Near-Range Obstacle Perception with Early Grid Fusion：https://developer.nvidia.cn/zh-cn/blog/near-range-obstacle-perception-with-early-grid-fusion/

例如，在感知工作流中，它們有來自八個不同相機傳感器的輸入，整個工作流的延遲必須低于某個閾值。感知堆棧是 DNN 的重頭戲，占所有計算的 60% 以上。

為了達(dá)到這些 KPI，并行工作流任務(wù)被映射到 GPU 和 DLA，其中幾乎所有的 DNN 都在 DLA 上運行，而非 DNN 任務(wù)則在 GPU 上運行，以實現(xiàn)總體工作流的延遲目標(biāo)。然后，其他 DNN 在映射和規(guī)劃等其他工作流中按順序或并行消耗輸出。您可以將工作流視為一個巨大的圖形，其中的任務(wù)在 GPU 和 DLA 上并行運行。通過使用 DLA，該團隊將延遲降低了 2.5 倍。

圖 4. 作為感知堆棧一部分的對象檢測

NVIDIA 自動駕駛團隊工程經(jīng)理 Abhishek Bajarger 表示：“利用整個 SoC，特別是 DLA 中專用的深度學(xué)習(xí)推理引擎，使我們能夠在滿足延遲要求和 KPI 目標(biāo)的同時，為軟件堆棧添加重要功能。只有 DLA 才能做到這一點。”

案例研究：機器人

NVIDIA Isaac 是一個功能強大的端到端平臺，用于開發(fā)、仿真和部署機器人開發(fā)者使用的 AI 機器人。特別是對于移動機器人來說，可用的 DL 計算、確定性延遲和電池續(xù)航能力是非常重要的因素。這就是為什么將 DL 推理映射到 DLA 非常重要的原因。

NVIDIA Isaac 團隊的一組工程師開發(fā)了一個使用 DNN 進行臨近分割的庫。鄰近分割可用于確定障礙物是否在鄰近場內(nèi)，并避免在導(dǎo)航過程中與障礙物發(fā)生碰撞。他們在 DLA 上實現(xiàn)了 BI3D 網(wǎng)絡(luò)，該網(wǎng)絡(luò)可通過立體攝像頭執(zhí)行二進制深度分類。

圖 5. 近距離分割流水線

一個關(guān)鍵的 KPI 是確保從立體攝像頭輸入進行 30 幀/秒的實時檢測。NVIDIA Isaac 團隊將這些任務(wù)分配到 SoC 上，并將 DLA 用于 DNN，同時為在 GPU 上運行的硬件和軟件提供功能安全多樣性。想要了解更多信息，請訪問NVIDIA Isaac ROS 鄰近分割：https://github.com/NVIDIA-ISAAC-ROS/isaac_ros_proximity_segmentation

圖 6. 使用 BI3D 對立體輸入進行鄰近分割

將 NVIDIA DeepStream 用于 DLA

探索 DLA 最快捷的方式是通過 NVIDIA DeepStream SDK，一個完整的流分析工具包。

如果你是一名視覺 AI 開發(fā)者，正在構(gòu)建 AI 驅(qū)動的應(yīng)用程序來分析視頻和傳感器數(shù)據(jù)，那么 DeepStream SDK 可以幫助您構(gòu)建最佳的端到端工作流。對于零售分析、停車管理、物流管理、光學(xué)檢測、機器人技術(shù)和體育分析等云端或邊緣用例，DeepStream 可讓您不費吹灰之力就能使用整個 SoC，特別是 DLA。

例如，您可以使用下表中突出顯示的 Model Zoo 中的預(yù)訓(xùn)練模型在 DLA 上運行。在 DLA 上運行這些網(wǎng)絡(luò)就像設(shè)置一個標(biāo)志一樣簡單。想要了解更多信息，請訪問如何使用 DLA 進行推理：https://docs.nvidia.com/metropolis/deepstream/dev-guide/text/DS_Quickstart.html#using-dla-for-inference

表 2. Model Zoo 網(wǎng)絡(luò)樣本

及其在 DLA 上的吞吐量

開始使用深度學(xué)習(xí)加速器

準(zhǔn)備好深入了解了嗎？有關(guān)詳細(xì)信息，請參閱以下資源：

Jetson DLA 教程演示了基本的 DLA 工作流，幫助您開始將 DNN 部署到 DLA：https://github.com/NVIDIA-AI-IOT/jetson_dla_tutorial
DLA-SW GitHub存儲庫中有一系列參考網(wǎng)絡(luò)，您可以使用它們來探索在 Jetson Orin DLA 上運行 DNN：https://github.com/NVIDIA/Deep-Learning-Accelerator-SW/tree/main/scripts/prepare_models
示例頁面提供了關(guān)于如何使用 DLA 充分利用 Jetson SoC 的其他示例和資源：https://github.com/NVIDIA/Deep-Learning-Accelerator-SW/
DLA 論壇有其他用戶的想法和反饋：https://forums.developer.nvidia.com/tag/dla

SIGGRAPH 2023

NVIDIA 精彩發(fā)布

SIGGRAPH 2023 | NVIDIA 主題演講重磅發(fā)布精彩回顧，探索 AI 無限未來！

敬請持續(xù)關(guān)注...

SIGGRAPH 2023 NVIDIA 主題演講中文字幕版已上線！掃描下方海報二維碼，或點擊“閱讀原文”即可觀看，與 NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛一起探索 AI 的未來！

原文標(biāo)題：使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度學(xué)習(xí)性能

文章出處：【微信公眾號：NVIDIA英偉達(dá)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

英偉達(dá)

英偉達(dá)

+關(guān)注

關(guān)注
23

文章
4090

瀏覽量
99237

原文標(biāo)題：使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度學(xué)習(xí)性能

文章出處：【微信號：NVIDIA_China，微信公眾號：NVIDIA英偉達(dá)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度學(xué)習(xí)性能

評論