91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

點(diǎn)亮未來(lái):TensorRT-LLM 更新加速 AI 推理性能,支持在 RTX 驅(qū)動(dòng)的 Windows PC 上運(yùn)行新模型

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:未知 ? 2023-11-16 21:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

微軟 Ignite 2023 技術(shù)大會(huì)發(fā)布的新工具和資源包括 OpenAIChatAPI 的 TensorRT-LLM 封裝接口、RTX 驅(qū)動(dòng)的性能改進(jìn) DirectMLforLlama2、其他熱門(mén) LLM

Windows PC 上的 AI 標(biāo)志著科技史上的關(guān)鍵時(shí)刻,它將徹底改變玩家、創(chuàng)作者、主播、上班族、學(xué)生乃至普通 PC 用戶(hù)的體驗(yàn)。

AI 為 1 億多臺(tái)采用 RTX GPU 的 Windows PC 和工作站提高生產(chǎn)力帶來(lái)前所未有的機(jī)會(huì)。NVIDIA RTX 技術(shù)使開(kāi)發(fā)者更輕松地創(chuàng)建 AI 應(yīng)用,從而改變?nèi)藗兪褂糜?jì)算機(jī)的方式。

在微軟 Ignite 2023 技術(shù)大會(huì)上發(fā)布的全新優(yōu)化、模型和資源將更快地幫助開(kāi)發(fā)者提供新的終端用戶(hù)體驗(yàn)。

TensorRT-LLM 是一款提升 AI 推理性能的開(kāi)源軟件,它即將發(fā)布的更新將支持更多大語(yǔ)言模型,在 RTX GPU 8GB 及以上顯存的 PC 和筆記本電腦上使要求嚴(yán)苛的 AI 工作負(fù)載更容易完成。

Tensor RT-LLM for Windows 即將通過(guò)全新封裝接口與 OpenAI 廣受歡迎的聊天 API 兼容。這將使數(shù)以百計(jì)的開(kāi)發(fā)者項(xiàng)目和應(yīng)用能在 RTX PC 的本地運(yùn)行,而非云端運(yùn)行,因此用戶(hù)可以在 PC 上保留私人和專(zhuān)有數(shù)據(jù)。

定制的生成式 AI 需要時(shí)間和精力來(lái)維護(hù)項(xiàng)目。特別是跨多個(gè)環(huán)境和平臺(tái)進(jìn)行協(xié)作和部署時(shí),該過(guò)程可能會(huì)異常復(fù)雜和耗時(shí)。

AI Workbench 是一個(gè)統(tǒng)一、易用的工具包,允許開(kāi)發(fā)者在 PC 或工作站上快速創(chuàng)建、測(cè)試和定制預(yù)訓(xùn)練生成式 AI 模型和 LLM。它為開(kāi)發(fā)者提供一個(gè)單一平臺(tái),用于組織他們的 AI 項(xiàng)目,并根據(jù)特定用戶(hù)需求來(lái)調(diào)整模型。

這使開(kāi)發(fā)者能夠進(jìn)行無(wú)縫協(xié)作和部署,快速創(chuàng)建具有成本效益、可擴(kuò)展的生成式 AI 模型。加入搶先體驗(yàn)名單,成為首批用戶(hù)以率先了解不斷更新的功能,并接收更新信息。

為支持 AI 開(kāi)發(fā)者,NVIDIA 與微軟發(fā)布 DirectML 增強(qiáng)功能以加速最熱門(mén)的基礎(chǔ) AI 模型之一的 Llama 2。除了全新性能標(biāo)準(zhǔn),開(kāi)發(fā)者現(xiàn)在有更多跨供應(yīng)商部署可選。

便攜式 AI

2023 年 10 月,NVIDIA 發(fā)布 TensorRT-LLM for Windows —— 一個(gè)用于加速大語(yǔ)言模型(LLM)推理的庫(kù)。

本月底發(fā)布的 TensorRT-LLM v0.6.0 更新將帶來(lái)至高達(dá) 5 倍的推理性能提升,并支持更多熱門(mén)的 LLM,包括全新 Mistral 7B 和 Nemotron-3 8B。這些 LLM 版本將可在所有采用 8GB 及以上顯存的 GeForce RTX 30系列和 40系列 GPU 上運(yùn)行,從而使最便攜的 Windows PC 設(shè)備也能獲得快速、準(zhǔn)確的本地運(yùn)行 LLM 功能。

wKgaomVWFwiAI5yYAAD9zpwM1bA457.jpg

TensorRT-LLM v0.6.0

帶來(lái)至高達(dá) 5 倍推理性能提升

新發(fā)布的 TensorRT-LLM 可在/NVIDIA/TensorRT-LLMGitHub 代碼庫(kù)中下載安裝,新調(diào)優(yōu)的模型將在ngc.nvidia.com提供。

從容對(duì)話(huà)

世界各地的開(kāi)發(fā)者和愛(ài)好者將 OpenAI 的聊天 API 廣泛用于各種應(yīng)用——從總結(jié)網(wǎng)頁(yè)內(nèi)容、起草文件和電子郵件,到分析和可視化數(shù)據(jù)以及創(chuàng)建演示文稿。

這類(lèi)基于云的 AI 面臨的一大挑戰(zhàn)是它們需要用戶(hù)上傳輸入數(shù)據(jù),因此對(duì)于私人或?qū)S袛?shù)據(jù)以及處理大型數(shù)據(jù)集來(lái)說(shuō)并不實(shí)用。

為應(yīng)對(duì)這一挑戰(zhàn),NVIDIA 即將啟用 TensorRT-LLM for Windows,通過(guò)全新封裝接口提供與 OpenAI 廣受歡迎的 ChatAPI 類(lèi)似的 API 接口,為開(kāi)發(fā)者帶來(lái)類(lèi)似的工作流,無(wú)論他們?cè)O(shè)計(jì)的模型和應(yīng)用要在 RTX PC 的本地運(yùn)行,還是在云端運(yùn)行。只需修改一兩行代碼,數(shù)百個(gè) AI 驅(qū)動(dòng)的開(kāi)發(fā)者項(xiàng)目和應(yīng)用現(xiàn)在就能從快速的本地 AI 中受益。用戶(hù)可將數(shù)據(jù)保存在 PC 上,不必?fù)?dān)心將數(shù)據(jù)上傳到云端。

使用由 TensorRT-LLM 驅(qū)動(dòng)的

Microsoft VS Code 插件 Continue.dev 編碼助手

此外,最重要的一點(diǎn)是這些項(xiàng)目和應(yīng)用中有很多都是開(kāi)源的,開(kāi)發(fā)者可以輕松利用和擴(kuò)展它們的功能,從而加速生成式 AI 在 RTX 驅(qū)動(dòng)的 Windows PC 上的應(yīng)用。

該封裝接口可與所有對(duì) TensorRT-LLM 進(jìn)行優(yōu)化的 LLM (如,Llama 2、Mistral 和 NV LLM)配合使用,并作為參考項(xiàng)目在 GitHub 上發(fā)布,同時(shí)發(fā)布的還有用于在 RTX 上使用 LLM 的其他開(kāi)發(fā)者資源。

模型加速

開(kāi)發(fā)者現(xiàn)可利用尖端的 AI 模型,并通過(guò)跨供應(yīng)商 API 進(jìn)行部署。NVIDIA 和微軟一直致力于增強(qiáng)開(kāi)發(fā)者能力,通過(guò) DirectML API 在 RTX 上加速 Llama。

在 10 月宣布的為這些模型提供最快推理性能的基礎(chǔ)上,這一跨供應(yīng)商部署的全新選項(xiàng)使將 AI 引入 PC 變得前所未有的簡(jiǎn)單。

開(kāi)發(fā)者和愛(ài)好者可下載最新的 ONNX 運(yùn)行時(shí)并按微軟的安裝說(shuō)明進(jìn)行操作,同時(shí)安裝最新 NVIDIA 驅(qū)動(dòng)(將于 11 月 21 日發(fā)布)以獲得最新優(yōu)化體驗(yàn)。

這些新優(yōu)化、模型和資源將加速 AI 功能和應(yīng)用在全球 1 億臺(tái) RTX PC 上的開(kāi)發(fā)和部署,一并加入 400 多個(gè)合作伙伴的行列,他們已經(jīng)發(fā)布了由 RTX GPU 加速的 AI 驅(qū)動(dòng)的應(yīng)用和游戲。

隨著模型易用性的提高,以及開(kāi)發(fā)者將更多生成式 AI 功能帶到 RTX 驅(qū)動(dòng)的 Windows PC 上,RTX GPU 將成為用戶(hù)利用這一強(qiáng)大技術(shù)的關(guān)鍵。

GTC 2024 將于 2024 年 3 月 18 至 21 日在美國(guó)加州圣何塞會(huì)議中心舉行,線(xiàn)上大會(huì)也將同期開(kāi)放。點(diǎn)擊“閱讀原文”掃描下方海報(bào)二維碼,立即注冊(cè) GTC 大會(huì)。


原文標(biāo)題:點(diǎn)亮未來(lái):TensorRT-LLM 更新加速 AI 推理性能,支持在 RTX 驅(qū)動(dòng)的 Windows PC 上運(yùn)行新模型

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4089

    瀏覽量

    99230

原文標(biāo)題:點(diǎn)亮未來(lái):TensorRT-LLM 更新加速 AI 推理性能,支持在 RTX 驅(qū)動(dòng)的 Windows PC 上運(yùn)行新模型

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用NORDIC AI的好處

    × CPU 運(yùn)行時(shí)可快 10×、更省電,平均模型體積 <5 KB。[Edge AI 軟件頁(yè)] Axon NPU 對(duì)同一 Ten
    發(fā)表于 01-31 23:16

    NVIDIA TensorRT LLM 1.0推理框架正式上線(xiàn)

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的
    的頭像 發(fā)表于 10-21 11:04 ?1191次閱讀

    TensorRT-LLM的大規(guī)模專(zhuān)家并行架構(gòu)設(shè)計(jì)

    之前文章已介紹引入大規(guī)模 EP 的初衷,本篇將繼續(xù)深入介紹 TensorRT-LLM 的大規(guī)模專(zhuān)家并行架構(gòu)設(shè)計(jì)與創(chuàng)新實(shí)現(xiàn)。
    的頭像 發(fā)表于 09-23 14:42 ?1117次閱讀
    <b class='flag-5'>TensorRT-LLM</b>的大規(guī)模專(zhuān)家并行架構(gòu)設(shè)計(jì)

    使用OpenVINO將PP-OCRv5模型部署Intel顯卡

    是一個(gè)用于優(yōu)化和部署人工智能(AI模型,提升AI推理性能的開(kāi)源工具集合,不僅支持以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為核心組件的預(yù)測(cè)式
    的頭像 發(fā)表于 09-20 11:17 ?1247次閱讀
    使用OpenVINO將PP-OCRv5<b class='flag-5'>模型</b>部署<b class='flag-5'>在</b>Intel顯卡<b class='flag-5'>上</b>

    大規(guī)模專(zhuān)家并行模型TensorRT-LLM的設(shè)計(jì)

    DeepSeek-V3 / R1 等模型采用大規(guī)模細(xì)粒度混合專(zhuān)家模型 (MoE) 架構(gòu),大幅提升了開(kāi)源模型的質(zhì)量。Llama 4 和 Qwen3 等新發(fā)布的開(kāi)源模型的設(shè)計(jì)原則也采用了類(lèi)
    的頭像 發(fā)表于 09-06 15:21 ?1238次閱讀
    大規(guī)模專(zhuān)家并行<b class='flag-5'>模型</b><b class='flag-5'>在</b><b class='flag-5'>TensorRT-LLM</b>的設(shè)計(jì)

    米爾RK3576部署端側(cè)多模態(tài)多輪對(duì)話(huà),6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    定IMAGE_HEIGHT、IMAGE_WIDTH及EMBED_SIZE; 微調(diào) LLM 模型:借助 RKLLM 工具鏈的 LoRA-INT4 量化支持, 24 GB 顯存的
    發(fā)表于 09-05 17:25

    DeepSeek R1 MTPTensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM NVIDIA Blackwell GPU 創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP)
    的頭像 發(fā)表于 08-30 15:47 ?4467次閱讀
    DeepSeek R1 MTP<b class='flag-5'>在</b><b class='flag-5'>TensorRT-LLM</b>中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM中的分離式服務(wù)

    之前的技術(shù)博客中,我們介紹了低延遲[1] 和高吞吐[2] 場(chǎng)景的優(yōu)化方法。對(duì)于生產(chǎn)部署,用戶(hù)還關(guān)心滿(mǎn)足特定延遲約束的情況下,每個(gè) GPU 的吞吐表現(xiàn)。本文將圍繞“吞吐量-延遲”性能場(chǎng)景,介紹
    的頭像 發(fā)表于 08-27 12:29 ?1763次閱讀
    <b class='flag-5'>TensorRT-LLM</b>中的分離式服務(wù)

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬(wàn)TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIA NVIDIA Blackwell 架構(gòu)優(yōu)化了這兩款全新的開(kāi)放權(quán)重模型并實(shí)現(xiàn)了推理性能
    的頭像 發(fā)表于 08-15 20:34 ?2317次閱讀
    NVIDIA從云到邊緣<b class='flag-5'>加速</b>OpenAI gpt-oss<b class='flag-5'>模型</b>部署,實(shí)現(xiàn)150萬(wàn)TPS<b class='flag-5'>推理</b>

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    模態(tài)的技術(shù)特性,DeepSeek正加速推動(dòng)AI金融、政務(wù)、科研及網(wǎng)絡(luò)智能化等關(guān)鍵領(lǐng)域的深度應(yīng)用。 信而泰:AI推理引擎賦能網(wǎng)絡(luò)智能診斷新范
    發(fā)表于 07-16 15:29

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開(kāi)放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助
    的頭像 發(fā)表于 07-16 09:16 ?2060次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專(zhuān)為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù),可幫助開(kāi)發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)
    的頭像 發(fā)表于 07-04 14:38 ?2201次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類(lèi)別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。
    的頭像 發(fā)表于 06-12 15:37 ?1902次閱讀
    使用NVIDIA Triton和<b class='flag-5'>TensorRT-LLM</b>部署TTS應(yīng)用的最佳實(shí)踐

    詳解 LLM 推理模型的現(xiàn)狀

    領(lǐng)域的最新研究進(jìn)展,特別是自DeepSeekR1發(fā)布后興起的推理時(shí)間計(jì)算擴(kuò)展相關(guān)內(nèi)容。LLM中實(shí)施和改進(jìn)推理簡(jiǎn)單來(lái)說(shuō),基于LLM
    的頭像 發(fā)表于 04-03 12:09 ?1635次閱讀
    詳解 <b class='flag-5'>LLM</b> <b class='flag-5'>推理模型</b>的現(xiàn)狀

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時(shí)降低了擴(kuò)展測(cè)試時(shí)計(jì)算 (Scaling Test-Time Compute) 的成本; NVIDIA Blackwell 推理優(yōu)化
    的頭像 發(fā)表于 03-20 15:03 ?1251次閱讀