91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

游戲AI對自對弈推理速度提出新要求

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達 ? 2021-10-22 09:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

騰訊一直積極地推動強化學習在游戲AI領域的發(fā)展,并在2019年推出了“開悟”AI開放研究平臺,提供不同游戲的訓練場景、支撐AI進行強化訓練的大規(guī)模算力、統(tǒng)一的強化學習框架以加速研發(fā)速度、通用的訓練與推理服務,加快AI訓練速度。

游戲AI對自對弈推理速度提出新要求

和圖像以及語音的訓練方式不同,目前在游戲AI訓練上表現(xiàn)最好的方式是強化學習。強化學習除了需要大量的算力來訓練深度學習網絡之外,還需要一個自對弈的模塊用來產生訓練數(shù)據(jù)。在自對弈模塊當中,會模擬游戲環(huán)境,并且選擇不同時期的模型來操控游戲內的角色,AI對游戲內角色的每一操控都需要對模型進行一次前向推理。由于更新模型的訓練數(shù)據(jù)來自于自對弈模塊,因此自對弈的推理速度會對整個模型的訓練速度和效果造成非常大的影響。

而自對弈推理每一次前向推理對延時的要求比實際的線上服務小,因此常見的方式是通過CPU來進行自對弈中的推理,但CPU成本太高。為了提高自對弈的速度與吞吐,減少推理成本,騰訊希望在“開悟”AI開放研究平臺里面充分利用GPU去進行自對弈中的模型前向推理。

TensorRT 助力“開悟”AI加速自對弈推理

為了解決在自對弈推理當中GPU利用率不高的問題, 騰訊“開悟”AI開放研究平臺選擇使用NVIDIA V100 GPU和NVIDIA TensorRT推理引擎來加速推理。

為了自動化地將模型從TensorFlow轉換到TensorRT, 騰訊“開悟”AI開放研究平臺一開始通過自行開發(fā)parser,將TensorFlow的算子映射到TensorRT的算子。同時,為了支持更廣泛的模型與算子,減少維護和開發(fā)的成本, 騰訊“開悟”AI開放研究平臺也積極地與NVIDIA合作,推動從TensorFlow轉換成ONNX模型,再通過TensorRT ONNX parser轉換到TensorRT的流程。

在自對弈的過程中,需要頻繁地更新模型的權重,讓自對弈模型始終能保持在較新的狀態(tài)。這個更新的頻率大概幾分鐘一次,每次必須限制在幾百個毫秒。如果通過重新build engine 的方式來更新模型的話,無法滿足上述要求。因此 騰訊“開悟”AI開放研究平臺采用 TensorRT refit engine的功能來更新權重。同時,為了對更新權重有更好的支持、以及支持更多的算子, 騰訊“開悟”AI開放研究平臺從原本的TensorRT 5 升級到TensorRT 7。

TensorRT 7雖然在部分算子上支持權重更新,但并不支持LSTM這個在游戲AI當中很重要的算子。為了解決這個問題, 騰訊“開悟”AI開放研究平臺通過開發(fā)TensorRT插件的方式封裝LSTM算子,并在插件當中更新權重。

為了充分利用NVIDIA V100 GPU的Tensor core, 騰訊“開悟”AI開放研究平臺希望能夠使用TensorRT FP16精度來加速推理。由于TensorRT對FP16的支持非常成熟和簡便,整個推理流程很快被切換到FP16,并取得了2倍左右的加速。

尋找模型推理時的性能瓶頸,通過開發(fā)TensorRT插件進行算子融合,進一步地提升推理的速度。

在完成以上的工作之后,對比TensorFlow的基礎版本,TensorRT 7 能提供5倍以上的加速效果。

通過NVIDIA V100 GPU以及TensorRT推理引擎加速自對弈訓練的推理部分,騰訊“開悟”AI開放研究平臺極大地提升了自對弈推理的吞吐量與速度,進一步地提升了整個模型訓練的速度與降低訓練成本,加快模型迭代的周期。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5598

    瀏覽量

    109806
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5198

    瀏覽量

    135521
  • AI
    AI
    +關注

    關注

    91

    文章

    39878

    瀏覽量

    301530

原文標題:NVIDIA TensorRT助力騰訊加速“開悟”AI開放研究平臺

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    從英偉達電話會看Agentic AI推理與FPGA價值

    2026年2月,英偉達發(fā)布2026財年Q4財報:營收681億美元,同比增長73%,數(shù)據(jù)中心業(yè)務增長75%——預期中的超預期。更值得關注的,是電話會中反復出現(xiàn)的幾個關鍵詞:Agentic AI、推理
    的頭像 發(fā)表于 03-04 17:07 ?1076次閱讀
    從英偉達電話會看Agentic <b class='flag-5'>AI</b><b class='flag-5'>推理</b>與FPGA價值

    把大模型“刻進”芯片,AI芯片推理速度17000 tokens/秒

    電子發(fā)燒友網綜合報道 近期,加拿大多倫多初創(chuàng)公司Taalas正式發(fā)布首款AI推理芯片HC1,將大模型權重直接蝕刻到芯片的金屬互連層中,實現(xiàn)推理速度達17000 tokens/秒。 ?
    的頭像 發(fā)表于 03-01 06:45 ?6036次閱讀
    把大模型“刻進”芯片,<b class='flag-5'>AI</b>芯片<b class='flag-5'>推理</b><b class='flag-5'>速度</b>17000 tokens/秒

    新思科技PrimeSim+ASO.ai解決方案推動模擬存內計算創(chuàng)新

    隨著世界不斷數(shù)字化,AI、5G、物聯(lián)網以及自動駕駛等技術日益普及。而這些數(shù)字應用所依賴的芯片架構,對模擬功能提出了更高的創(chuàng)新要求。
    的頭像 發(fā)表于 02-03 18:19 ?1759次閱讀

    AI推理芯片需求爆發(fā),OpenAI欲尋求新合作伙伴

    電子發(fā)燒友網綜合報道,在人工智能迅猛發(fā)展的當下,AI推理芯片需求正呈爆發(fā)式增長。 ? AI推理,即支撐如ChatGPT這類AI模型響應用戶問
    的頭像 發(fā)表于 02-03 17:15 ?2162次閱讀

    使用NORDIC AI的好處

    × 在 CPU 上運行時可快 10×、更省電,平均模型體積 <5 KB。[Edge AI 軟件頁] Axon NPU 對同一 TensorFlow Lite 模型:* 推理速度最高可比
    發(fā)表于 01-31 23:16

    AI端側部署開發(fā)(SC171開發(fā)套件V3)2026版

    Stack模型推理指南 11分55秒 https://t.elecfans.com/v/28526.html *附件:文檔:Fibo AI Stack模型推理指南_V2.0.pdf *附件:工程源碼:模型
    發(fā)表于 01-15 10:31

    歐盟新規(guī)下鋰電池CE認證最新要求

    ”,而是邁向更嚴格、更系統(tǒng)、更綠色的新階段。作為專業(yè)的檢測認證服務機構,我們?yōu)槟媸崂懋斍皻W盟對鋰電池CE認證的最新要求,助您提前布局,規(guī)避市場風險。一、從“舊指令
    的頭像 發(fā)表于 11-12 17:30 ?2073次閱讀
    歐盟新規(guī)下鋰電池CE認證最<b class='flag-5'>新要求</b>

    什么是AI模型的推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1287次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    AI被賦予了人的智能,科學家們希望在沒有人類的引導下,AI自主的提出科學假設,諾貝爾獎級別的假設哦。 AI驅動科學被認為是科學發(fā)現(xiàn)的第五個范式了,與實驗科學、理論科學、計算科學、數(shù)據(jù)驅
    發(fā)表于 09-17 11:45

    AI開啟更逼真的游戲時代

    本文編譯semiengineering神經網絡負責圖形渲染,AI智能體指導玩法,而‘幻覺’則用于填補缺失的細節(jié),讓游戲世界更加完整。隨著處理性能和內存的大幅提升,以及數(shù)據(jù)傳輸速度的顯
    的頭像 發(fā)表于 08-20 11:22 ?1308次閱讀
    <b class='flag-5'>AI</b>開啟更逼真的<b class='flag-5'>游戲</b>時代

    華為亮相2025金融AI推理應用落地與發(fā)展論壇

    近日,2025金融AI推理應用落地與發(fā)展論壇在上海舉行。中國銀聯(lián)執(zhí)行副總裁涂曉軍、華為數(shù)字金融軍團CEO曹沖出席本次論壇并發(fā)表致辭。論壇上,華為公司副總裁、數(shù)據(jù)存儲產品線總裁周躍峰博士發(fā)布AI
    的頭像 發(fā)表于 08-15 09:45 ?1239次閱讀

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎技術研究有限公司開發(fā)的新一代AI大模型。其核心優(yōu)勢在于強大的推理引擎能力,融合了自然語言處理(
    發(fā)表于 07-16 15:29

    大模型推理顯存和計算量估計方法研究

    過程中需要占用大量顯存,導致推理速度變慢,甚至無法進行。 計算量過大:大模型的計算量較大,導致推理速度慢,難以滿足實時性要求。 為了解決這些
    發(fā)表于 07-03 19:43

    燈具諧波新要求

    燈具諧波方面的新要求,適合燈具方面的設計
    發(fā)表于 05-28 14:11 ?0次下載

    首創(chuàng)開源架構,天璣AI開發(fā)套件讓端側AI模型接入得心應手

    應用開發(fā)不用“等平臺”,徹底釋放開發(fā)效率和模型接入自由度。 DeepSeek橫空出世以來,這種更適合端側部署,回答效率更高效的訓練模式快速引爆了AI行業(yè),主流大模型紛紛加強了推理能力。天璣A
    發(fā)表于 04-13 19:52