91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA TensorRT的數(shù)據(jù)格式定義

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:Ken He ? 2022-05-20 14:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

TensorRT 支持不同的數(shù)據(jù)格式。有兩個(gè)方面需要考慮:數(shù)據(jù)類(lèi)型和布局。

數(shù)據(jù)類(lèi)型格式

數(shù)據(jù)類(lèi)型是每個(gè)單獨(dú)值的表示。它的大小決定了取值范圍和表示的精度,分別是FP32(32位浮點(diǎn),或單精度),F(xiàn)P16(16位浮點(diǎn)或半精度),INT32(32位整數(shù)表示),和 INT8(8 位表示)。

布局格式

布局格式確定存儲(chǔ)值的順序。通常,batch 維度是最左邊的維度,其他維度指的是每個(gè)數(shù)據(jù)項(xiàng)的方面,例如圖像中的C是通道, H是高度, W是寬度。忽略總是在這些之前的批量大小, C 、 H和W通常被排序?yàn)镃HW (參見(jiàn)圖 1 )或HWC (參見(jiàn)圖 2 )。

圖1. CHW的布局格式:圖像分為HxW矩陣,每個(gè)通道一個(gè),矩陣按順序存儲(chǔ);通道的所有值都是連續(xù)存儲(chǔ)的。

poYBAGKHOmuAG3jrAABI1Auz45s159.png

圖2. HWC的布局格式:圖像存儲(chǔ)為單個(gè)HxW矩陣,其值實(shí)際上是 C 元組,每個(gè)通道都有一個(gè)值;一個(gè)點(diǎn)(像素)的所有值都是連續(xù)存儲(chǔ)的。

pYYBAGKHOmSAF4_4AABE_ZAr4MY310.png

為了實(shí)現(xiàn)更快的計(jì)算,定義了更多格式以將通道值打包在一起并使用降低的精度。因此,TensorRT 還支持NC / 2HW2和NHWC8等格式。

在NC / 2HW2 ( TensorFormat::kCHW2 ) 中,通道值對(duì)在每個(gè)HxW矩陣中打包在一起(在奇數(shù)通道的情況下為空值)。結(jié)果是一種格式,其中? C/2 ? HxW矩陣的值是兩個(gè)連續(xù)通道的值對(duì)(參見(jiàn)圖 3 );請(qǐng)注意,如果它們?cè)谕粚?duì)中,則此排序?qū)⒕S度交錯(cuò)為具有步長(zhǎng)1的通道的值,否則將步長(zhǎng)為 2xHxW 。

圖 3. 一對(duì)通道值在每個(gè)HxW矩陣中打包在一起。結(jié)果是一種格式,其中[C/2] HxW矩陣的值是兩個(gè)連續(xù)通道的值對(duì)

poYBAGKHOl6AAMv6AABJ1rtP6Z8262.png

在NHWC8 ( TensorFormat::kHWC8 ) 中, HxW矩陣的條目包括所有通道的值。此外,這些值被打包在? C/8 ? 8 元組中,并且C向上舍入到最接近的 8 倍數(shù)。

在這種NHWC8格式中, HxW矩陣的條目包括所有通道的值。

其他TensorFormat遵循與前面提到的TensorFormat::kCHW2和TensorFormat::kHWC8類(lèi)似的規(guī)則。

關(guān)于作者

Ken He 是 NVIDIA 企業(yè)級(jí)開(kāi)發(fā)者社區(qū)經(jīng)理 & 高級(jí)講師,擁有多年的 GPU人工智能開(kāi)發(fā)經(jīng)驗(yàn)。自 2017 年加入 NVIDIA 開(kāi)發(fā)者社區(qū)以來(lái),完成過(guò)上百場(chǎng)培訓(xùn),幫助上萬(wàn)個(gè)開(kāi)發(fā)者了解人工智能和 GPU 編程開(kāi)發(fā)。在計(jì)算機(jī)視覺(jué),高性能計(jì)算領(lǐng)域完成過(guò)多個(gè)獨(dú)立項(xiàng)目。并且,在機(jī)器人無(wú)人機(jī)領(lǐng)域,有過(guò)豐富的研發(fā)經(jīng)驗(yàn)。對(duì)于圖像識(shí)別,目標(biāo)的檢測(cè)與跟蹤完成過(guò)多種解決方案。曾經(jīng)參與 GPU 版氣象模式GRAPES,是其主要研發(fā)者。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    31079

    瀏覽量

    222236
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5594

    瀏覽量

    109731
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50098

    瀏覽量

    265362
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    BLE 藍(lán)牙空中報(bào)文格式與解析(廣播包)

    BLE 廣播包數(shù)據(jù)格式解析說(shuō)明 ...... 矜辰所致
    的頭像 發(fā)表于 01-04 17:28 ?1867次閱讀
    BLE 藍(lán)牙空中報(bào)文<b class='flag-5'>格式</b>與解析(廣播包)

    電能質(zhì)量在線(xiàn)監(jiān)測(cè)裝置的數(shù)據(jù)壓縮存儲(chǔ)功能支持的數(shù)據(jù)格式可以修改嗎?

    電能質(zhì)量在線(xiàn)監(jiān)測(cè)裝置的數(shù)據(jù)壓縮存儲(chǔ)功能支持的數(shù)據(jù)格式 部分可修改 ,具體取決于格式類(lèi)型(數(shù)據(jù)文件格式 / 壓縮算法格式)與廠(chǎng)家設(shè)計(jì),核心結(jié)論
    的頭像 發(fā)表于 12-11 16:39 ?1093次閱讀
    電能質(zhì)量在線(xiàn)監(jiān)測(cè)裝置的<b class='flag-5'>數(shù)據(jù)</b>壓縮存儲(chǔ)功能支持的<b class='flag-5'>數(shù)據(jù)格式</b>可以修改嗎?

    電能質(zhì)量在線(xiàn)監(jiān)測(cè)裝置支持哪些數(shù)據(jù)格式的離線(xiàn)查看?

    電能質(zhì)量在線(xiàn)監(jiān)測(cè)裝置支持的離線(xiàn)數(shù)據(jù)格式主要分為 標(biāo)準(zhǔn)格式 和 通用格式 兩大類(lèi),其中標(biāo)準(zhǔn)格式是行業(yè)主流,通用格式則方便日常
    的頭像 發(fā)表于 12-05 17:19 ?1307次閱讀
    電能質(zhì)量在線(xiàn)監(jiān)測(cè)裝置支持哪些<b class='flag-5'>數(shù)據(jù)格式</b>的離線(xiàn)查看?

    電能質(zhì)量在線(xiàn)監(jiān)測(cè)裝置的數(shù)據(jù)推送協(xié)議是否可以自定義配置?

    現(xiàn)代電能質(zhì)量在線(xiàn)監(jiān)測(cè)裝置普遍支持 協(xié)議參數(shù)自定義配置 和 協(xié)議組合靈活適配 ,用戶(hù)可根據(jù)實(shí)際需求調(diào)整通信參數(shù)、映射數(shù)據(jù)格式,甚至通過(guò)第三方工具實(shí)現(xiàn)非標(biāo)準(zhǔn)協(xié)議的兼容。以下是具體實(shí)現(xiàn)方式及技術(shù)細(xì)節(jié): 一
    的頭像 發(fā)表于 11-12 13:58 ?413次閱讀
    電能質(zhì)量在線(xiàn)監(jiān)測(cè)裝置的<b class='flag-5'>數(shù)據(jù)</b>推送協(xié)議是否可以自<b class='flag-5'>定義</b>配置?

    NVIDIA TensorRT LLM 1.0推理框架正式上線(xiàn)

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑:一方面,針對(duì)需
    的頭像 發(fā)表于 10-21 11:04 ?1174次閱讀

    TensorRT-LLM的大規(guī)模專(zhuān)家并行架構(gòu)設(shè)計(jì)

    之前文章已介紹引入大規(guī)模 EP 的初衷,本篇將繼續(xù)深入介紹 TensorRT-LLM 的大規(guī)模專(zhuān)家并行架構(gòu)設(shè)計(jì)與創(chuàng)新實(shí)現(xiàn)。
    的頭像 發(fā)表于 09-23 14:42 ?1107次閱讀
    <b class='flag-5'>TensorRT</b>-LLM的大規(guī)模專(zhuān)家并行架構(gòu)設(shè)計(jì)

    DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4450次閱讀
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的實(shí)現(xiàn)與優(yōu)化

    淺談電子工程師困惑多年的EDA行業(yè)的標(biāo)準(zhǔn)格式

    數(shù)據(jù)格式還是非常豐富的。比如*.dxf,*.step,*.prt,*.stl......格式特點(diǎn)STEP(.STP/.STEP)ISO標(biāo)準(zhǔn),支持精確幾何,裝配結(jié)
    的頭像 發(fā)表于 08-23 12:34 ?683次閱讀
    淺談電子工程師困惑多年的EDA行業(yè)的標(biāo)準(zhǔn)<b class='flag-5'>格式</b>

    PLC串口自由協(xié)議通信概述

    串口自由協(xié)議通信是一種靈活的串行通信方式。在該模式下,開(kāi)發(fā)者無(wú)需遵循特定標(biāo)準(zhǔn)協(xié)議,可根據(jù)實(shí)際需求自由定義數(shù)據(jù)格式與交互規(guī)則。
    的頭像 發(fā)表于 08-07 09:15 ?2153次閱讀
    PLC串口自由協(xié)議通信概述

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開(kāi)放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和 NVIDIA
    的頭像 發(fā)表于 07-16 09:16 ?2049次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專(zhuān)為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù),可幫助開(kāi)發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2184次閱讀

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個(gè) NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場(chǎng)景中的性能紀(jì)錄:在 GTC 2025
    的頭像 發(fā)表于 07-02 19:31 ?3292次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類(lèi)別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?1881次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應(yīng)用的最佳實(shí)踐

    NVIDIA Blackwell數(shù)據(jù)手冊(cè)與NVIDIA Blackwell架構(gòu)技術(shù)解析

    NVIDIA Blackwell數(shù)據(jù)手冊(cè)與NVIDIA Blackwell 架構(gòu)技術(shù)解析
    的頭像 發(fā)表于 03-20 17:19 ?2460次閱讀

    LPC55S28修改音頻數(shù)據(jù)格式后USB Aduio類(lèi)異常的原因?

    您好 NXP 前輩,我已經(jīng)更改了 LPC55S28 官方 SDK 上的 USB 音頻數(shù)據(jù)格式。 我的主要問(wèn)題是修改音頻流格式類(lèi)型描述符。 我的想法是將 USB Aduio 每個(gè)通道的數(shù)據(jù)字節(jié)數(shù)從 2
    發(fā)表于 03-20 07:33