91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA QAT工具包實現(xiàn)TensorRT量化網(wǎng)絡的設計

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-06-21 16:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

出身背景

加速深層神經(jīng)網(wǎng)絡( DNN )推理是實現(xiàn)實時應用(如圖像分類、圖像分割、自然語言處理等)延遲關鍵部署的重要步驟。

改進 DNN 推理延遲的需要引發(fā)了人們對以較低精度運行這些模型的興趣,如 FP16 和 INT8 。在 INT8 精度下運行 DNN 可以提供比其浮點對應項更快的推理速度和更低的內(nèi)存占用。 NVIDIA TensorRT 支持訓練后量化( PTQ )和 QAT 技術(shù),將浮點 DNN 模型轉(zhuǎn)換為 INT8 精度。

在這篇文章中,我們討論了這些技術(shù),介紹了用于 TensorFlow 的 NVIDIA QAT 工具包,并演示了一個端到端工作流,以設計最適合 TensorRT 部署的量化網(wǎng)絡。

量化感知訓練

QAT 背后的主要思想是通過最小化訓練期間的量化誤差來模擬低精度行為。為此,可以通過在所需層周圍添加量化和去量化( QDQ )節(jié)點來修改 DNN 圖。這使得量化網(wǎng)絡能夠?qū)⒂捎谀P土炕统瑓?shù)的微調(diào)而導致的 PTQ 精度損失降至最低。

另一方面, PTQ 在模型已經(jīng)訓練之后,使用校準數(shù)據(jù)集執(zhí)行模型量化。由于量化沒有反映在訓練過程中,這可能導致精度下降。圖 1 顯示了這兩個過程。

pYYBAGKxiG-ATkKeAACqD-C1-UA461.png

圖 1 通過 PTQ 和 QAT 的量化工作流

用于 TensorFlow 的 NVIDIA QAT 工具包

該工具包的目標是使您能夠以最適合于 TensorRT 部署的方式輕松量化網(wǎng)絡。

目前, TensorFlow 在其開源軟件 模型優(yōu)化工具包 中提供非對稱量化。他們的量化方法包括在所需層的輸出和權(quán)重(如果適用)處插入 QDQ 節(jié)點,并提供完整模型或部分層類類型的量化。這是為 TFLite 部署而優(yōu)化的,而不是 TensorRT 部署。

需要此工具包來獲得一個量化模型,該模型非常適合 TensorRT 部署。 TensorRT optimizer 傳播 Q 和 DQ 節(jié)點,并通過網(wǎng)絡上的浮點操作將它們?nèi)诤显谝黄?,以最大?INT8 中可以處理的圖形比例。這將導致 NVIDIA GPU 上的最佳模型加速。我們的量化方法包括在所需層的輸入和權(quán)重(如果適用)處插入 QDQ 節(jié)點。

我們還執(zhí)行對稱量化( TensorRT 使用),并通過層名稱和 基于模式的層量化 的部分量化提供擴展量化支持。

表 1 總結(jié)了 TFMOT 和用于 TensorFlow 的 NVIDIA QAT 工具包之間的差異。

圖2顯示了一個簡單模型的前/后示例,用 Netron 可視化。QDQ節(jié)點放置在所需層的輸入和權(quán)重(如適用)中,即卷積(Conv)和完全連接(MatMul)。

圖 2 量化前后的模型示例(分別為基線和 QAT 模型)

TensorRT 中部署 QAT 模型的工作流

圖 3 顯示了在 TensorRT 中部署 QAT 模型的完整工作流,該模型是通過 QAT 工具包獲得的。

圖 3 TensorRT 使用 QAT 工具包獲得的 QAT 模型的部署工作流

假設預訓練的 TensorFlow 2 模型為 SavedModel 格式,也稱為基線模型。

使用quantize_model功能對該模型進行量化,該功能使用 QDQ 節(jié)點克隆并包裝每個所需的層。

微調(diào)獲得的量化模型,在訓練期間模擬量化,并將其保存為SavedModel格式。

將其轉(zhuǎn)換為 ONNX 。

然后, TensorRT 使用 ONNX 圖來執(zhí)行層融合和其他圖優(yōu)化,如 專用 QDQ 優(yōu)化 ,并生成一個用于更快推理的引擎。

ResNet-50v1 示例

在本例中,我們將向您展示如何使用 TensorFlow 2 工具包量化和微調(diào) QAT 模型,以及如何在 TensorRT 中部署該量化模型。有關更多信息,請參閱完整的 example_resnet50v1.ipynb Jupyter 筆記本。

要求

要跟進,您需要以下資源:

Python 3.8

TensorFlow 2.8

NVIDIA TF-QAT 工具包

TensorRT 8.4

準備數(shù)據(jù)

對于本例,使用 ImageNet 2012 數(shù)據(jù)集 進行圖像分類(任務 1 ),由于訪問協(xié)議的條款,需要手動下載。 QAT 模型微調(diào)需要此數(shù)據(jù)集,它還用于評估基線和 QAT 模型。

登錄或注冊鏈接網(wǎng)站,下載列車/驗證數(shù)據(jù)。您應該至少有 155 GB 的可用空間。

工作流支持 TFRecord 格式,因此請使用以下說明(從 TensorFlow 說明 ) 轉(zhuǎn)換下載的。將 ImageNet 文件轉(zhuǎn)換為所需格式:

set IMAGENET_HOME=/path/to/imagenet/tar/files in data/imagenet_data_setup.sh 。

將 imagenet_to_gcs.py 下載到$IMAGENET_HOME。

Run 。/data/imagenet_data_setup.sh.

您現(xiàn)在應該可以在$IMAGENET_HOME中看到兼容的數(shù)據(jù)集。

量化和微調(diào)模型

from tensorflow_quantization import quantize_model
from tensorflow_quantization.custom_qdq_cases import ResNetV1QDQCase # Create baseline model
model = tf.keras.applications.ResNet50(weights="imagenet", classifier_activation="softmax") # Quantize model
q_model = quantize_model(model, custom_qdq_cases=[ResNetV1QDQCase()]) # Fine-tune
q_model.compile( optimizer="sgd", loss=tf.keras.losses.SparseCategoricalCrossentropy(), metrics=["accuracy"]
)
q_model.fit( train_batches, validation_data=val_batches, batch_size=64, steps_per_epoch=500, epochs=2
) # Save as TF 2 SavedModel
q_model.save(“saved_model_qat”)

將 SavedModel 轉(zhuǎn)換為 ONNX

$ python -m tf2onnx.convert --saved-model= --output= --opset 13

部署 TensorRT 發(fā)動機

將 ONNX 模型轉(zhuǎn)換為 TensorRT 引擎(還可以獲得延遲測量):

$ trtexec --onnx= --int8 --saveEngine= -v

獲取驗證數(shù)據(jù)集的準確性結(jié)果:

$ python infer_engine.py --engine= --data_dir= -b=

后果

在本節(jié)中,我們報告了 ResNet 和 EfficientNet 系列中各種型號的準確性和延遲性能數(shù)字:

ResNet-50v1

ResNet-50v2

ResNet-101v1

ResNet-101v2

效率網(wǎng) -B0

效率網(wǎng) -B3

所有結(jié)果都是在 NVIDIA A100 GPU 上獲得的,批次大小為 1 ,使用 TensorRT 8.4 ( EA 用于 ResNet , GA 用于 EfficientNet )。

圖 4 顯示了基線 FP32 模型與其量化等效模型( PTQ 和 QAT )之間的精度比較。正如您所見,基線模型和 QAT 模型之間的準確性幾乎沒有損失。有時,由于模型的進一步整體微調(diào),精度甚至更高。由于 QAT 中模型參數(shù)的微調(diào), QAT 的精度總體上高于 PTQ 。

圖 4 FP32 (基線)、帶 PTQ 的 INT8 和帶 QAT 的 INT8 中 ResNet 和 EfficientNet 數(shù)據(jù)集的準確性

ResNet 作為一種網(wǎng)絡結(jié)構(gòu),一般量化穩(wěn)定,因此 PTQ 和 QAT 之間的差距很小。然而, EfficientNet 從 QAT 中獲益匪淺,與 PTQ 相比,基線模型的準確度損失有所減少。

有關不同模型如何從 QAT 中受益的更多信息,請參見 深度學習推理的整數(shù)量化:原理與實證評價 (量化白皮書)中的表 7 。

圖 5 顯示了 PTQ 和 QAT 具有相似的時間,與各自的基線模型相比,它們引入了高達 19 倍的加速。

圖 5 ResNet 和 EfficientNet 系列中各種模型的延遲性能評估

PTQ 有時可能比 QAT 略快,因為它試圖量化模型中的所有層,這通常會導致更快的推斷,而 QAT 僅量化用 QDQ 節(jié)點包裹的層。

有關 TensorRT 如何使用 QDQ 節(jié)點的更多信息,請參閱 TensorRT 文檔中的 使用 INT8 和 走向 INT8 推理:使用 TensorRT 部署量化感知訓練網(wǎng)絡的端到端工作流 GTC 會話。

有關各種受支持型號的性能數(shù)字的更多信息,請參閱 model zoo 。

結(jié)論

在本文中,我們介紹了 TensorFlow 2 的 NVIDIA QAT 工具包 。 我們討論了在 TensorRT 推理加速環(huán)境中使用該工具包的優(yōu)勢。然后,我們演示了如何將該工具包與 ResNet50 結(jié)合使用,并對 ResNet 和 EfficientNet 數(shù)據(jù)集執(zhí)行準確性和延遲評估。

實驗結(jié)果表明,與 FP32 模型相比,用 QAT 訓練的 INT8 模型的精度相差約 1% ,實現(xiàn)了 19 倍的延遲加速。

關于作者

Gwena Cunha Sergio 在 NVIDIA 擔任深度學習軟件工程師。在此之前,她是韓國京浦國立大學的一名博士生,致力于研究基于深度學習的方法,用于嘈雜的自然語言處理任務和從多模態(tài)數(shù)據(jù)生成序列。

Sagar Shelke 是 NVIDIA 的深度學習軟件工程師,專注于自主駕駛應用程序。他的興趣包括用于部署和機器學習系統(tǒng)的神經(jīng)網(wǎng)絡優(yōu)化。薩加爾擁有圣地亞哥州立大學電氣和計算機工程碩士學位。

Dheeraj Peri 在 NVIDIA 擔任深度學習軟件工程師。在此之前,他是紐約羅切斯特理工學院的研究生,致力于基于深度學習的內(nèi)容檢索和手寫識別方法。 Dheeraj 的研究興趣包括信息檢索、圖像生成和對抗性機器學習。他獲得了印度皮拉尼 Birla 理工學院的學士學位。

Josh Park 是 NVIDIA 的汽車解決方案架構(gòu)師經(jīng)理。到目前為止,他一直在研究使用 DL 框架的深度學習解決方案,例如在 multi-GPUs /多節(jié)點服務器和嵌入式系統(tǒng)上的 TensorFlow 。此外,他一直在評估和改進各種 GPUs + x86 _ 64 / aarch64 的訓練和推理性能。他在韓國大學獲得理學學士和碩士學位,并在德克薩斯農(nóng)工大學獲得計算機科學博士學位

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4838

    瀏覽量

    107846
  • NVIDIA
    +關注

    關注

    14

    文章

    5598

    瀏覽量

    109803
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    破解RDMA網(wǎng)絡“黑盒”:輕量化會話追蹤工具

    在RDMA網(wǎng)絡運維面臨“黑盒”挑戰(zhàn)的背景下,星融元推出的RST工具通過無侵入捕獲CM報文,實現(xiàn)RDMA會話的可視化追蹤與全網(wǎng)路徑還原。該工具基于RFT與RPT雙模塊,支持從設備流表到全
    的頭像 發(fā)表于 02-13 14:30 ?367次閱讀
    破解RDMA<b class='flag-5'>網(wǎng)絡</b>“黑盒”:輕<b class='flag-5'>量化</b>會話追蹤<b class='flag-5'>工具</b>

    MinGW-w64工具集壓縮的下載

    MinGW-w64工具集壓縮的下載 這是MinGW-w64工具集壓縮的下載進度界面,文件名為x86_64-13.2.0-release-posix-seh-ucrt-rt_v11-
    發(fā)表于 02-07 04:59

    NVIDIA Spectrum-X以太網(wǎng)硅光技術(shù)助力AI工廠網(wǎng)絡創(chuàng)新

    NVIDIA 將率先為 AI 工廠引入采用光電一體封裝 (CPO) 的優(yōu)化以太網(wǎng)網(wǎng)絡,通過 NVIDIA Spectrum-X 以太網(wǎng)硅光技術(shù),為 NVIDIA Rubin 平臺
    的頭像 發(fā)表于 01-14 09:06 ?628次閱讀
    <b class='flag-5'>NVIDIA</b> Spectrum-X以太網(wǎng)硅光技術(shù)助力AI工廠<b class='flag-5'>網(wǎng)絡</b>創(chuàng)新

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現(xiàn)這一目標,其構(gòu)建了多維度的核心
    的頭像 發(fā)表于 10-21 11:04 ?1195次閱讀

    NVIDIA AI網(wǎng)絡閃耀2025云棲大會

    2025 云棲大會于 9 月 24 日至 9 月 26 日舉辦,NVIDIA 作為大會巔峰合作伙伴參與 2025 云棲大會。本文將帶您回顧 NVIDIA AI 網(wǎng)絡在本屆云棲大會上的精彩內(nèi)容。
    的頭像 發(fā)表于 10-13 11:19 ?1191次閱讀

    eForce無線通信軟件開發(fā)工具包兼容WLAN模塊WKR612AA1

    近期,eForce株式會社宣布,其面向嵌入式設備的無線通信軟件開發(fā)工具包(μC3-WLAN SDK)現(xiàn)已兼容 KAGA FEI 生產(chǎn)的無線局域網(wǎng)(WLAN)模塊"WKR612AA1"。
    的頭像 發(fā)表于 09-24 15:16 ?1261次閱讀

    TensorRT-LLM的大規(guī)模專家并行架構(gòu)設計

    之前文章已介紹引入大規(guī)模 EP 的初衷,本篇將繼續(xù)深入介紹 TensorRT-LLM 的大規(guī)模專家并行架構(gòu)設計與創(chuàng)新實現(xiàn)
    的頭像 發(fā)表于 09-23 14:42 ?1117次閱讀
    <b class='flag-5'>TensorRT</b>-LLM的大規(guī)模專家并行架構(gòu)設計

    DeepSeek R1 MTP在TensorRT-LLM中的實現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀錄,Multi-Token Prediction (MTP) 實現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4468次閱讀
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的<b class='flag-5'>實現(xiàn)</b>與優(yōu)化

    量化評估企業(yè)軟件測試能力的評估工具包

    的能力評估標準,讓測試團隊陷入"救火式加班"的循環(huán)。更令人焦慮的是——管理層難以量化測試團隊的真實能力水平;工程師說不清效率瓶頸究竟在哪里;工具投入不少,但效果始
    的頭像 發(fā)表于 08-27 10:04 ?757次閱讀
    <b class='flag-5'>量化</b>評估企業(yè)軟件測試能力的評估<b class='flag-5'>工具包</b>

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和 NVIDIA
    的頭像 發(fā)表于 07-16 09:16 ?2061次閱讀

    IQM 宣布 Resonance 量子云平臺重大升級,推出全新軟件開發(fā)工具包

    進程,并為終端用戶帶來性能強大的新一代量子系統(tǒng)。 此次升級將 Qrisp——一個源自德國弗勞恩霍夫 FOKUS 研究所的項目——設為平臺新的默認軟件開發(fā)工具包 (SDK)。Qrisp 為量子開發(fā)者
    的頭像 發(fā)表于 07-11 11:03 ?678次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應用原型驗證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2204次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?1905次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應用的最佳實踐

    NVIDIA實現(xiàn)神經(jīng)網(wǎng)絡渲染技術(shù)的突破性增強功能

    近日,NVIDIA 宣布了 NVIDIA RTX 神經(jīng)網(wǎng)絡渲染技術(shù)的突破性增強功能。NVIDIA 與微軟合作,將在 4 月的 Microsoft DirectX 預覽版中增加神經(jīng)
    的頭像 發(fā)表于 04-07 11:33 ?1202次閱讀

    NVIDIA推出全新硅光網(wǎng)絡交換機

    NVIDIA 今天推出了 NVIDIA Spectrum-X 和 NVIDIA Quantum-X 硅光網(wǎng)絡交換機,使 AI 工廠能夠跨區(qū)域連接數(shù)百萬 GPU ,同時大幅降低能耗和運營
    的頭像 發(fā)表于 03-20 14:52 ?1010次閱讀