91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA TensorRT提升Llama 3.2性能

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2024-11-20 09:59 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Llama 3.2 模型集擴(kuò)展了 Meta Llama 開源模型集的模型陣容,包含視覺語言模型(VLM)、小語言模型(SLM)和支持視覺的更新版 Llama Guard 模型。與 NVIDIA 加速計(jì)算平臺搭配使用,Llama 3.2 可為開發(fā)者、研究者和企業(yè)提供極具價(jià)值的新功能和優(yōu)化,幫助實(shí)現(xiàn)生成式 AI 用例。

1B 和 3B 規(guī)模的 SLM 基于 NVIDIA Tensor Core GPU 訓(xùn)練而成,最適合用于在各種邊緣設(shè)備上部署基于 Llama 的 AI 助手。11B 和 90B 規(guī)模的 VLM 支持文本和圖像輸入以及文本輸出。憑借多模態(tài)支持,VLM 可以幫助開發(fā)者構(gòu)建需要視覺基礎(chǔ)、推理和理解能力的強(qiáng)大應(yīng)用。例如,他們可以構(gòu)建用于圖像描述生成、圖像轉(zhuǎn)文本檢索、視覺問答和文檔問答等的 AI 智能體。除文本輸入外,Llama Guard 模型現(xiàn)在還支持圖像輸入護(hù)欄。

Llama 3.2 模型架構(gòu)是一種自動(dòng)回歸語言模型,使用了經(jīng)過優(yōu)化的 Transformer 架構(gòu)。其指令調(diào)整版本使用了監(jiān)督微調(diào)(SFT)和人類反饋強(qiáng)化學(xué)習(xí)(RLHF)技術(shù),以符合人類對有用性和安全性的偏好。所有模型均支持 128K 詞元的長上下文長度,并通過支持分組查詢注意力(GQA)針對推理進(jìn)行了優(yōu)化。

NVIDIA 已對 Llama 3.2 模型集進(jìn)行了優(yōu)化,使其能夠在全球數(shù)百萬個(gè) GPU 上實(shí)現(xiàn)高吞吐量和低延遲,其中包括數(shù)據(jù)中心、搭載NVIDIA RTX的本地工作站和搭載NVIDIA Jetson的邊緣應(yīng)用。本文將介紹針對硬件和軟件的優(yōu)化、定制和易于部署的功能。

使用 NVIDIA TensorRT

提升 Llama 3.2 的性能

為了提供空前吞吐量和最佳終端用戶體驗(yàn),同時(shí)降低成本和延遲,NVIDIA 正在加速 Llama 3.2 模型集。NVIDIA TensorRT包含了適用于高性能深度學(xué)習(xí)推理的 TensorRT 和 TensorRT-LLM 程序庫。

Llama 3.2 1B 和 Llama 3.2 3B 模型在 TensorRT-LLM 中使用按比例旋轉(zhuǎn)位置嵌入(RoPE)技術(shù)和其他幾項(xiàng)優(yōu)化措施(包括 KV 緩存和飛行批處理)獲得加速,以支持長上下文。

Llama 3.2 11B 和 Llama 3.2 90B 模型均為多模態(tài)模型,并且包含一個(gè)視覺編碼器和一個(gè)文本解碼器。視覺編碼器通過將模型導(dǎo)出為 ONNX 圖并構(gòu)建 TensorRT 引擎獲得加速。ONNX 導(dǎo)出創(chuàng)建了一個(gè)包含內(nèi)置運(yùn)算符和標(biāo)準(zhǔn)數(shù)據(jù)類型的標(biāo)準(zhǔn)模型定義,主要用于推理。TensorRT 利用 ONNX 圖,通過構(gòu)建 TensorRT 引擎針對目標(biāo) GPU 優(yōu)化模型。這種引擎能夠提供各種硬件級優(yōu)化,通過層和張量融合以及內(nèi)核自動(dòng)調(diào)整最大程度地提高 NVIDIA GPU 的利用率。

借助 TensorRT-LLM 支持的交叉注意力機(jī)制,視覺編碼器的視覺信息被融合到 Llama 文本解碼器中。這樣一來,VLM 就能聯(lián)系輸入的文本進(jìn)行視覺推理和理解,從而高效率地生成文本。

使用 NVIDIA NIM

輕松部署生成式 AI 解決方案

用戶可使用NVIDIA NIM微服務(wù)將 TensorRT 優(yōu)化直接部署到生產(chǎn)中。NIM 微服務(wù)加速了生成式 AI 模型在所有 NVIDIA 加速基礎(chǔ)設(shè)施上的部署,包括云、數(shù)據(jù)中心和工作站等。

NIM 微服務(wù)支持 Llama 3.2 90B Vision Instruct,Llama 3.2 11B Vision Instruct,Llama 3.2 3B Instruct 和 Llama 3.2 1B Instruct 在生產(chǎn)中的部署。NIM 為生成式 AI 工作負(fù)載提供了經(jīng)過簡化的管理和編排、標(biāo)準(zhǔn)應(yīng)用編程接口(API)以及帶有生產(chǎn)就緒容器的企業(yè)級支持。世界各地的開發(fā)者、研究者和企業(yè)對整個(gè)生態(tài)系統(tǒng)提供了強(qiáng)大且日益增強(qiáng)的支持,目前已有超過 175 家合作伙伴將其解決方案與 NVIDIA NIM 微服務(wù)集成,他們可以從生成式 AI 應(yīng)用投資中取得最大的回報(bào)。

使用 NVIDIA AI Foundry 和 NVIDIA NeMo

定制和評估 Llama 3.2 模型

NVIDIA AI Foundry提供了一個(gè)端到端的 Llama 3.2 模型定制平臺,使用戶能夠獲取先進(jìn)的 AI 工具、計(jì)算資源和 AI 專業(yè)知識。定制模型在專有數(shù)據(jù)上進(jìn)行微調(diào),使企業(yè)能夠在特定領(lǐng)域的任務(wù)中實(shí)現(xiàn)更高的性能和準(zhǔn)確性,從而獲得競爭優(yōu)勢。

開發(fā)者可以借助NVIDIA NeMo整理他們的訓(xùn)練數(shù)據(jù),充分利用 LoRA、SFT、DPO、RLHF 等先進(jìn)的調(diào)校技術(shù)定制 Llama 3.2 模型、評估準(zhǔn)確性和添加護(hù)欄,以此保證模型提供適當(dāng)?shù)幕卮稹I Foundry 在 NVIDIA DGX Cloud 上提供專用容量并得到 NVIDIA AI 專家的支持。輸出被打包成 NVIDIA NIM 推理微服務(wù)的定制 Llama 3.2 模型,該模型可部署在任何地方。

使用 NVIDIA RTX 和

NVIDIA Jetson 擴(kuò)展本地推理

如今,Llama 3.2 模型已在全球超過 1 億臺 NVIDIA RTX PC 和工作站上進(jìn)行了優(yōu)化。為了部署在 Windows 中,NVIDIA 已對這套模型進(jìn)行了優(yōu)化,使其能夠利用 ONNX-GenAI 運(yùn)行時(shí)和 DirectML 后端實(shí)現(xiàn)高效運(yùn)行。

全新的 VLM 和 SLM 為 NVIDIA RTX 系統(tǒng)解鎖了新的功能。為了進(jìn)行演示,我們創(chuàng)建了一個(gè)多模態(tài)檢索增強(qiáng)生成(RAG)管線示例。該管線結(jié)合了文本和可視化數(shù)據(jù)處理(例如圖像、統(tǒng)計(jì)圖和圖表),具有更強(qiáng)大的信息檢索和生成功能。

請注意,您需要一個(gè)配備 NVIDIA RTX 專業(yè) GPU且顯存在 30GB 以上的 Linux 工作站。

SLM 專為邊緣設(shè)備本地部署而定制,采用了蒸餾、剪枝和量化等技術(shù)降低顯存、延遲和計(jì)算要求,同時(shí)保持了重點(diǎn)應(yīng)用領(lǐng)域的準(zhǔn)確性。如要下載 Llama 3.2 1B 和 3B SLM 并將其部署到 GPU 推理能力經(jīng)過優(yōu)化且具有 INT4/FP8 量化功能的 Jetson 上,請參見NVIDIA Jetson AI Lab 上的 SLM 教程。

多模態(tài)模型為視頻分析和機(jī)器人領(lǐng)域帶來了獨(dú)一無二的視覺功能,因此在邊緣應(yīng)用中的作用越來越突出。

推動(dòng)社區(qū) AI 模型的發(fā)展

作為積極的開源貢獻(xiàn)者,NVIDIA 致力于優(yōu)化社區(qū)軟件,幫助用戶應(yīng)對最嚴(yán)峻的挑戰(zhàn)。開源 AI 模型還能促進(jìn)公開透明,使用戶能夠大范圍地分享 AI 安全性和彈性方面的工作成果。

借助 Hugging Face 推理即服務(wù)功能,開發(fā)者能夠快速部署領(lǐng)先的大語言模型(LLM),例如在 NVIDIA DGX Cloud 上運(yùn)行且通過 NVIDIA NIM 微服務(wù)優(yōu)化的 Llama 3 模型集。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5594

    瀏覽量

    109761
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5194

    瀏覽量

    135498
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39795

    瀏覽量

    301460
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3752

    瀏覽量

    52114

原文標(biāo)題:從邊緣到云端部署經(jīng)加速的 Llama 3.2

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何在Arm Neoverse N2平臺上提升llama.cpp擴(kuò)展性能

    跨 NUMA 內(nèi)存訪問可能會(huì)限制 llama.cpp 在 Arm Neoverse 平臺上的擴(kuò)展能力。本文將為你詳細(xì)分析這一問題,并通過引入原型驗(yàn)證補(bǔ)丁來加以解決。測試結(jié)果表明,在基于 Neoverse N2 平臺的系統(tǒng)上運(yùn)行 llama3_Q4_0 模型時(shí),該補(bǔ)丁可使文
    的頭像 發(fā)表于 02-11 10:06 ?171次閱讀

    NVIDIA RTX PRO 4000 Blackwell GPU性能測試

    作為 NVIDIA 專業(yè)顯卡產(chǎn)品線中單槽性能的巔峰之作,NVIDIA RTX PRO 4000 Blackwell 在各項(xiàng)核心指標(biāo)上均實(shí)現(xiàn)對前代 NVIDIA RTX 4000 Ada
    的頭像 發(fā)表于 12-29 15:30 ?1375次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 Blackwell GPU<b class='flag-5'>性能</b>測試

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑:一
    的頭像 發(fā)表于 10-21 11:04 ?1181次閱讀

    使用NVIDIA NVLink Fusion技術(shù)提升AI推理性能

    本文詳細(xì)闡述了 NVIDIA NVLink Fusion 如何借助高效可擴(kuò)展的 NVIDIA NVLink scale-up 架構(gòu)技術(shù),滿足日益復(fù)雜的 AI 模型不斷增長的需求。
    的頭像 發(fā)表于 09-23 14:45 ?929次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion技術(shù)<b class='flag-5'>提升</b>AI推理<b class='flag-5'>性能</b>

    DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4457次閱讀
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT</b>-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM中的分離式服務(wù)

    在之前的技術(shù)博客中,我們介紹了低延遲[1] 和高吞吐[2] 場景的優(yōu)化方法。對于生產(chǎn)部署,用戶還關(guān)心在滿足特定延遲約束的情況下,每個(gè) GPU 的吞吐表現(xiàn)。本文將圍繞“吞吐量-延遲”性能場景,介紹 TensorRT-LLM 分離式服務(wù)的設(shè)計(jì)理念、使用方法,以及
    的頭像 發(fā)表于 08-27 12:29 ?1761次閱讀
    <b class='flag-5'>TensorRT</b>-LLM中的分離式服務(wù)

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和 NVIDIA
    的頭像 發(fā)表于 07-16 09:16 ?2057次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2200次閱讀

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀(jì)錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個(gè) NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場景中的性能紀(jì)錄:在 G
    的頭像 發(fā)表于 07-02 19:31 ?3296次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell GPU優(yōu)化DeepSeek-R1<b class='flag-5'>性能</b> 打破DeepSeek-R1在最小延遲場景中的<b class='flag-5'>性能</b>紀(jì)錄

    使用 NPU 插件對量化的 Llama 3.1 8b 模型進(jìn)行推理時(shí)出現(xiàn)“從 __Int64 轉(zhuǎn)換為無符號 int 的錯(cuò)誤”,怎么解決?

    安裝了 OpenVINO? GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-llama
    發(fā)表于 06-25 07:20

    全球各大品牌利用NVIDIA AI技術(shù)提升運(yùn)營效率

    歐萊雅、LVMH 集團(tuán)和雀巢利用 NVIDIA 加速的智能體 AI 和物理 AI,大幅提升產(chǎn)品設(shè)計(jì)、營銷及物流等方面的運(yùn)營效率。
    的頭像 發(fā)表于 06-19 14:36 ?1208次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?1889次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應(yīng)用的最佳實(shí)踐

    ServiceNow攜手NVIDIA構(gòu)建150億參數(shù)超級助手

    Apriel Nemotron 15B 開源大語言模型 (LLM) 使用 NVIDIA NeMo、NVIDIA Llama Nemotron 開放數(shù)據(jù)集以及 ServiceNow 專業(yè)領(lǐng)域數(shù)據(jù)創(chuàng)建而成,并在
    的頭像 發(fā)表于 05-12 15:37 ?928次閱讀

    企業(yè)使用NVIDIA NeMo微服務(wù)構(gòu)建AI智能體平臺

    已發(fā)布的 NeMo 微服務(wù)可與合作伙伴平臺集成,作為創(chuàng)建 AI 智能體的構(gòu)建模塊,使用商業(yè)智能與強(qiáng)大的邏輯推理模型 (包括 NVIDIA Llama Nemotron) 處理更多任務(wù)。
    的頭像 發(fā)表于 04-27 15:05 ?1289次閱讀

    Cadence 利用 NVIDIA Grace Blackwell 加速AI驅(qū)動(dòng)的工程設(shè)計(jì)和科學(xué)應(yīng)用

    提升高達(dá) 80 倍 ●?基于全新 NVIDIA Llama Nemotron 推理模型,攜手開發(fā)面向工程設(shè)計(jì)和科學(xué)應(yīng)用的全棧代理式 AI 解決方案 ●?率先采用面向 AI 工廠數(shù)字孿生的 NV
    的頭像 發(fā)表于 03-24 10:14 ?1420次閱讀