91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA TensorRT加速打造實時數(shù)字化運動場景

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-05-20 15:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡介

GALA Sports 的 Arena4D 方案使用多個高清攝像機,將數(shù)據(jù)傳輸?shù)揭粋€本地 HPC 中,經(jīng)過一系列的神經(jīng)網(wǎng)絡流水線,實時計算出每個運動員的位置與姿態(tài),從而將整個比賽場景數(shù)字化。

Arena4D 的中央處理 HPC 需要以 30FPS 的速度處理 4-12 個 4K 相機的數(shù)據(jù),流水線包括圖像前處理、運動員追蹤與識別、球的追蹤識別、骨骼關鍵點識別,多幀時間軸降噪等多個算法模塊,為了達到實時計算,Arena4D 使用了 NVIDIA A100 GPU 加速神經(jīng)網(wǎng)絡計算,并使用 Tensor RT、CUDA 進行深度優(yōu)化,經(jīng)過優(yōu)化部署的算法計算速度相對于早期算法原型有 10 倍以上的性能提升。

本案例主要應用到 NVIDIA A100 GPU、TensorRT和CUDA。

客戶簡介及應用背景

望塵科技(GALA Sports)于 2013 年在深圳成立,是一家以技術為驅(qū)動的互聯(lián)網(wǎng)公司,多年來一直專注于體育游戲和賽場數(shù)字化,致力于為用戶提供高品質(zhì)的體育在線娛樂體驗,目前團隊成員 300 余人,分別于深圳、成都設有辦公地點。

憑借歷年來在體育游戲市場的深耕與穩(wěn)定的高質(zhì)量產(chǎn)品研發(fā),望塵科技推出了《足球大師》、《NBA 籃球大師》、《最佳 11 人》等多款體育類手游,與 FIFPro、NBA、中超、拜仁、巴薩、曼聯(lián)、皇馬、國米等體育聯(lián)盟及豪門俱樂部保持著長期的合作關系。目前,擁有全球超過 2000 萬的下載用戶,全球日活躍用戶量超 50 萬人次;在賽場三維重構、人體運動模擬、球類競技 AI、表情與肌肉物理模擬、超寫實數(shù)字人、大場景渲染等幾個領域處于國內(nèi)外領先地位。

客戶挑戰(zhàn)

多臺高清攝像頭每幀圖像需上傳到顯卡進行實時轉(zhuǎn)碼、降噪等前處理工作,數(shù)據(jù)吞吐量較大。

基于神經(jīng)網(wǎng)絡的計算流水線,需要實時進行多個視角、多個運動員的追蹤、識別、姿態(tài)估計與降噪計算。

在多個 AI 模型級聯(lián)計算流水線中,每個 AI 模型之間的數(shù)據(jù)處理與拷貝占用了大量的時間。

應用方案

基于以上挑戰(zhàn),GALA Sports 選擇了 NVIDIA 提供的 AI 加速解決方案——TensorRT。

針對多相機從內(nèi)存到顯存大量數(shù)據(jù)拷貝 IO bound 問題,我們使用 CUDA 多流技術實現(xiàn)了內(nèi)存拷貝與數(shù)據(jù)處理并行化,降低了 overhead,4 路 4k 相機數(shù)據(jù)的拷貝與轉(zhuǎn)碼從約 50ms 減少到 30ms。

針對神經(jīng)網(wǎng)絡流水線的計算延遲問題,首先我們根據(jù)體育比賽的使用場景與相機視角對模型結(jié)構進行了優(yōu)化,根據(jù)不同體育類型的相機機位和球場尺度,設計了專門針對特定比賽的識別網(wǎng)絡,大大降低了網(wǎng)絡的復雜度;然后使用量化工具對網(wǎng)絡進行 fp16 量化加速,最后使用 TensorRT 針對 A100 編譯,在 A100 上能達到最優(yōu)性能的模型。

針對計算流水線模型之間數(shù)據(jù)處理耗時的問題,首先我們通過合并部分神經(jīng)網(wǎng)絡模型重新訓練,然后對于必須保留的數(shù)據(jù)處理代碼,我們用 CUDA C++ 重寫了大部分數(shù)據(jù)處理的 kernel,并針對 A100 的硬件結(jié)構對并行參數(shù)進行調(diào)優(yōu),最終將數(shù)據(jù)處理 30ms 的計算時間降低到 5ms。

最終,以足球場場景為例,追蹤目標為 1 個足球 + 22 名球員 + 3 名教練的位置與骨骼,在 1 張 A100 設備上我們實現(xiàn)了平均 50ms/幀的速度,在 2 張 A100 設備上能達到平均 30ms/幀的速度,整個流水線比原型提升了 18 倍。

方案效果及影響

將整個推理端算法流水線經(jīng)過上述方法優(yōu)化后,相較于未用 TensorRT 與 CUDA 優(yōu)化的算法原型,我們實現(xiàn)了 18 倍的性能提升,使超大規(guī)模體育場景的姿態(tài)捕捉與重建的實時計算成為可能,在體育比賽過程中的實時計算產(chǎn)生了許多新的用途,我們的客戶能夠?qū)⑦@些數(shù)字化內(nèi)容用于直播解說、實時戰(zhàn)術分析、自由視角回放、比賽結(jié)果預測等新場景,提升了系統(tǒng)方案的價值。

我們的硬件方案也從 4 臺 HPC 縮減到 1 臺 HPC 搭載 2 張 A100 GPU,不僅顯著地降低了成本,也顯著降低了系統(tǒng)維護和使用的復雜度,提升了系統(tǒng)可靠度。

后續(xù),我們計劃:

通過將流水線中部分網(wǎng)絡使用 Int8 量化以進一步提升性能;

將整體流水線遷移到 CUDA C++ 代碼中進一步提升性能;

把性能提升空余的計算資源用于提升網(wǎng)絡模型的復雜度以提升精度;

將 CenterNet 與 Dense Sematic 網(wǎng)絡特征提取部分替換成 Vision Transformer 以提升精度;

使用 Nsight 在 A100 真實環(huán)境中進一步 profile,減少 overhead。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5617

    瀏覽量

    109864
  • 攝像機
    +關注

    關注

    3

    文章

    1771

    瀏覽量

    63156
  • CUDA
    +關注

    關注

    0

    文章

    127

    瀏覽量

    14495
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA IGX Thor 機器人處理器將實時物理 AI 引入工業(yè)和醫(yī)療邊緣場景

    年 10 月 28 日—— ?AI 正由數(shù)字世界走向物理世界。在工廠車間和手術室等場景中,機器正逐步進化為能夠實時觀察、感知并作出決策的協(xié)作伙伴。 ? 為加速這一變革,
    的頭像 發(fā)表于 10-29 10:31 ?1253次閱讀
    <b class='flag-5'>NVIDIA</b> IGX Thor 機器人處理器將<b class='flag-5'>實時</b>物理 AI 引入工業(yè)和醫(yī)療邊緣<b class='flag-5'>場景</b>

    工業(yè)數(shù)字化云平臺是什么

    工業(yè)數(shù)字化云平臺是基于云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等先進技術構建的綜合性平臺 ,它深度融合工業(yè)場景需求,通過數(shù)據(jù)整合、智能分析與資源協(xié)同,推動工業(yè)生產(chǎn)向智能、網(wǎng)絡、服務
    的頭像 發(fā)表于 10-24 09:23 ?509次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現(xiàn)這一目標,其構建了多維度的核心實現(xiàn)路徑:一
    的頭像 發(fā)表于 10-21 11:04 ?1217次閱讀

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和
    的頭像 發(fā)表于 07-16 09:16 ?2078次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應用原型驗證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2235次閱讀

    打造數(shù)字化礦山智能監(jiān)測:露天礦邊坡雷達

    打造數(shù)字化礦山智能監(jiān)測:露天礦邊坡雷達監(jiān)測系統(tǒng) 礦區(qū)智能管理打造數(shù)字化礦山,為礦區(qū)邊坡安全提
    的頭像 發(fā)表于 06-30 09:22 ?707次閱讀

    Litestar 4D:運動場所照明

    運動區(qū)照明是 Litecalc 的一部分,用于管理體育場、室外或室內(nèi)運動場運動中心)等運動區(qū)的照明,包括以下功能: ?通過 2 種模式設計和管理戶外區(qū)域:向?qū)Ш透呒墸ㄗ杂赡J剑??導
    發(fā)表于 06-17 08:56

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?1930次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應用的最佳實踐

    LITESTAR 4D應用:運動場照明設計流程

    當設計一個專業(yè)的足球運動場時,可以使用LITESTAR 4D中SportPlus進行設計 1.插入燈具并設置高度數(shù)量 2.設置桅桿及燈具瞄準點 3.計算結(jié)果 4.最后查看結(jié)果,打印報表。
    發(fā)表于 06-09 08:49

    運動場館智慧照明控制系統(tǒng)

    隨著智能技術的發(fā)展,運動場館的照明系統(tǒng)正從傳統(tǒng)的手動控制向智慧、數(shù)字化方向轉(zhuǎn)型。通過對照明系統(tǒng)進行升級,提升場館運營效率,優(yōu)化運動員與觀
    的頭像 發(fā)表于 04-30 14:38 ?871次閱讀

    智慧工廠第6期 實時監(jiān)控系統(tǒng)—打造智能數(shù)字化車間

    在工業(yè)4.0和智能制造浪潮的推動下,傳統(tǒng)生產(chǎn)模式正加速數(shù)字化、網(wǎng)絡、智能方向演進。實時監(jiān)控系統(tǒng)作為智慧工廠的核心支柱,正在重塑制造企業(yè)
    的頭像 發(fā)表于 04-22 09:50 ?722次閱讀
    智慧工廠第6期 <b class='flag-5'>實時</b>監(jiān)控系統(tǒng)—<b class='flag-5'>打造</b>智能<b class='flag-5'>數(shù)字化</b>車間

    華宇電子加速先進封裝測試數(shù)字化轉(zhuǎn)型

    近日,安徽省工業(yè)和信息廳聯(lián)合安徽省廣播電視臺打造數(shù)字化轉(zhuǎn)型·安徽時刻”專欄,聚焦華宇電子數(shù)字化轉(zhuǎn)型典型案例,展示數(shù)字化轉(zhuǎn)型中最有代表性和
    的頭像 發(fā)表于 04-11 13:43 ?990次閱讀

    Altair One? 云端門戶與 NVIDIA Omniverse 實時數(shù)字孿生藍圖完成全面整合

    正式宣布其?Altair One?云端門戶與?NVIDIA Omniverse 實時數(shù)字孿生藍圖實現(xiàn)技術融合。通過整合?GPU 加速、NVIDIA NIM 微服務與?Omniverse
    的頭像 發(fā)表于 04-02 14:01 ?701次閱讀

    德賽西威榮獲2024年度數(shù)字化轉(zhuǎn)型領航案例

    未來,在“數(shù)字化轉(zhuǎn)型”的賽道上,德賽西威會繼續(xù)發(fā)揮全球視野和技術優(yōu)勢,以開放姿態(tài)攜手生態(tài)伙伴共同推動中國汽車工業(yè)的數(shù)字化變革,打造更具韌性與創(chuàng)新力的產(chǎn)業(yè)生態(tài),為全球智能出行發(fā)展注入新動能,助力中國制造向“中國智造”
    的頭像 發(fā)表于 03-31 11:27 ?1208次閱讀

    華為攜手合作伙伴加速城市全域數(shù)字化轉(zhuǎn)型

    ,華為基于“平臺+生態(tài)”合作戰(zhàn)略,攜手19家合作伙伴發(fā)布城市全域數(shù)字化轉(zhuǎn)型聯(lián)合行動計劃,共同構建端到端解決方案能力,加速城市全域數(shù)字化轉(zhuǎn)型。
    的頭像 發(fā)表于 03-31 09:20 ?936次閱讀