91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA TensorRT 8 BERT在1.2毫秒內(nèi)進(jìn)行推斷

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:About Jay Rodge ? 2022-03-31 17:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA 發(fā)布的TensorRT 8.0 ,通過新的優(yōu)化將 BERT 的大推理延遲降低到 1.2 毫秒。該版本還提供了 2 倍的精度為 INT8 精度與量化意識的訓(xùn)練,并通過支持稀疏性,這是引進(jìn)安培 GPU 的顯著更高的性能。

TensorRT 是一個用于高性能深度學(xué)習(xí)推理的 SDK ,包括推理優(yōu)化器和運(yùn)行時,提供低延遲和高吞吐量。 TensorRT 用于醫(yī)療、汽車、制造、互聯(lián)網(wǎng)/電信服務(wù)、金融服務(wù)、能源等行業(yè),下載量近 250 萬次。

有幾種新的基于 transformer 模型被用于會話人工智能。 TensorRT 中的新的廣義優(yōu)化可以加速所有這些模型,將推理時間減少到 TensorRT 7 的一半。

此版本的亮點(diǎn)包括:

BERT 在 1.2 毫秒內(nèi)進(jìn)行推斷,并進(jìn)行了新的 transformer 優(yōu)化

使用量化感知訓(xùn)練,以 INT8 精度實(shí)現(xiàn)與 FP32 相當(dāng)?shù)臏?zhǔn)確性

引入稀疏性支持對安培 GPU 的快速推理

關(guān)于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的產(chǎn)品營銷經(jīng)理,負(fù)責(zé)深入學(xué)習(xí)和推理產(chǎn)品,推動產(chǎn)品發(fā)布和產(chǎn)品營銷計劃。杰伊在芝加哥伊利諾伊理工學(xué)院獲得計算機(jī)科學(xué)碩士學(xué)位,主攻計算機(jī)視覺和自然語言處理。在 NVIDIA 之前,杰伊是寶馬集團(tuán)的人工智能研究實(shí)習(xí)生,為寶馬最大的制造廠使用計算機(jī)視覺解決問題。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5644

    瀏覽量

    109917
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5218

    瀏覽量

    135680
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    UPS電源工作原理揭秘:從電力中斷到持續(xù)守護(hù)的技術(shù)密碼

    ?電流中斷的剎那,隱藏在機(jī)柜中的精密系統(tǒng)正在完成一場毫秒級的接力。2022年,某沿海數(shù)據(jù)中心遭遇雷擊導(dǎo)致電網(wǎng)閃斷,整個園區(qū)的服務(wù)器卻安然無恙——監(jiān)控畫面顯示,電壓驟降的4毫秒內(nèi),一套UPS系統(tǒng)完成
    的頭像 發(fā)表于 12-12 10:09 ?655次閱讀
    UPS電源工作原理揭秘:從電力中斷到持續(xù)守護(hù)的技術(shù)密碼

    數(shù)據(jù)中心應(yīng)急供電:超級電容無縫切換,守護(hù)數(shù)據(jù)不丟失

    毫秒級切換,杜絕供電中斷 數(shù)據(jù)中心對供電連續(xù)性要求極高,微秒級斷電即可導(dǎo)致數(shù)據(jù)丟失或硬件損傷。超級電容憑借物理儲能機(jī)制(雙電層結(jié)構(gòu)),可在 5毫秒內(nèi) 完成充電和放電,實(shí)現(xiàn)主電源與備用電源的無縫切換。例如: 英偉達(dá)
    的頭像 發(fā)表于 12-02 14:40 ?1016次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑:一方面,針對需
    的頭像 發(fā)表于 10-21 11:04 ?1233次閱讀

    讓還在為智能穿戴設(shè)備發(fā)愁?這顆2米芯片你變硬件大神

    STK8321 ——這串字母數(shù)字組合可能看起來平平無奇,但它正在悄悄顛覆智能硬件行業(yè)的游戲規(guī)則。想象一下:當(dāng)你設(shè)計的運(yùn)動手環(huán)能在0.1秒內(nèi)感知用戶抬腕動作,當(dāng)你的TWS耳機(jī)盒跌落時自動記錄沖擊數(shù)據(jù)
    的頭像 發(fā)表于 10-20 09:35 ?563次閱讀

    DeepSeek R1 MTPTensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4510次閱讀
    DeepSeek R1 MTP<b class='flag-5'>在</b><b class='flag-5'>TensorRT</b>-LLM中的實(shí)現(xiàn)與優(yōu)化

    毫秒不差的背后:北斗時間服務(wù)器如何重塑現(xiàn)代網(wǎng)絡(luò)同步?

    金融交易、電力調(diào)度、5G通信等領(lǐng)域,1毫秒的時間誤差可能導(dǎo)致連鎖反應(yīng)。而北斗時間服務(wù)器的出現(xiàn),正悄然改變著全球時間同步的格局。
    的頭像 發(fā)表于 08-13 15:40 ?552次閱讀
    <b class='flag-5'>毫秒</b>不差的背后:北斗時間服務(wù)器如何重塑現(xiàn)代網(wǎng)絡(luò)同步?

    Alif Semiconductor發(fā)布支持生成式AI的MCU基準(zhǔn)測試結(jié)果,鞏固其邊緣AI領(lǐng)域的領(lǐng)先地位

    檢測,8毫秒內(nèi)完成圖像分類。 ? 中國,北京2025年8月13日 ——Alif Semiconductor?是全球領(lǐng)先的安全、互聯(lián)、高能效人工智
    的頭像 發(fā)表于 08-13 15:39 ?2.2w次閱讀
    Alif Semiconductor發(fā)布支持生成式AI的MCU基準(zhǔn)測試結(jié)果,鞏固其<b class='flag-5'>在</b>邊緣AI領(lǐng)域的領(lǐng)先地位

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和 NVIDIA
    的頭像 發(fā)表于 07-16 09:16 ?2086次閱讀

    水表界的“翻譯官”:讓CCLinkIE和Modbus TCP“無障礙聊天”!

    撞車”; 雙網(wǎng)關(guān)冗余:關(guān)鍵通道增設(shè)備用網(wǎng)關(guān),防止單點(diǎn)故障。 最終,丟包率降至0.5%以下,延遲穩(wěn)定在50毫秒內(nèi),數(shù)據(jù)通信瞬間“絲滑”! 技術(shù)要點(diǎn):用對工具,事半功倍 網(wǎng)關(guān)雖妙,但需注意: 延遲預(yù)警:協(xié)議
    發(fā)表于 07-10 15:43

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2255次閱讀

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1最小延遲場景中的性能紀(jì)錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1
    的頭像 發(fā)表于 07-02 19:31 ?3349次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1<b class='flag-5'>在</b>最小延遲場景中的性能紀(jì)錄

    &quot;毫秒之間,萬物同步:NTP時間服務(wù)器如何塑造現(xiàn)代數(shù)字世界&quot;

    金融交易、電力調(diào)度、5G通信甚至科學(xué)研究中,時間誤差超過1毫秒就可能引發(fā)數(shù)據(jù)混亂。而隱藏在這些場景背后的關(guān)鍵角色,正是NTP(網(wǎng)絡(luò)時間協(xié)議)時間服務(wù)器。它像一臺無形的精密鐘擺,維系著全球數(shù)字系統(tǒng)的秩序。
    的頭像 發(fā)表于 06-30 14:16 ?639次閱讀
    &quot;<b class='flag-5'>毫秒</b>之間,萬物同步:NTP時間服務(wù)器如何塑造現(xiàn)代數(shù)字世界&quot;

    安科瑞ASCP限流式保護(hù)器筑牢充電樁毫秒級安全防線

    安科瑞 劉芳 咨詢家:acrel-js 政策要求 限流式保護(hù)器能氣什么作用 限流式保護(hù)器是兼具短路限流、過載保護(hù)與電弧抑止功能的電氣安全裝置,核心作用是 1 毫秒內(nèi)快速切斷故障電流,防止電氣火災(zāi)
    的頭像 發(fā)表于 06-19 14:13 ?662次閱讀
    安科瑞ASCP限流式保護(hù)器筑牢充電樁<b class='flag-5'>毫秒</b>級安全防線

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?1946次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應(yīng)用的最佳實(shí)踐

    Redis 8 向量搜索實(shí)測:輕松擴(kuò)展至 10 億向量

    艾體寶Redis 8 向量搜索實(shí)測輕松支持 10 億向量,仍保持低延遲與高吞吐。中位延遲僅200毫秒,90%精確度;處理50并發(fā)搜索請求中位延遲僅1.3,95%精確度。
    的頭像 發(fā)表于 05-13 14:00 ?798次閱讀
    Redis <b class='flag-5'>8</b> 向量搜索實(shí)測:輕松擴(kuò)展至 10 億向量