91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2024-08-23 15:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

“魔搭社區(qū)是中國(guó)最具影響力的模型開(kāi)源社區(qū),致力給開(kāi)發(fā)者提供模型即服務(wù)的體驗(yàn)。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語(yǔ)言模型的推理性能,方便了模型應(yīng)用部署,提高了大模型產(chǎn)業(yè)應(yīng)用效率,更大規(guī)模地釋放大模型的應(yīng)用價(jià)值?!?/p>

——周文猛,魔搭社區(qū)技術(shù)負(fù)責(zé)人,阿里巴巴通義實(shí)驗(yàn)室技術(shù)總監(jiān)

魔搭上線 NVIDIA TensorRT-LLM

支持開(kāi)源LLM 推理加速

魔搭社區(qū)于 2022 年 11 月初創(chuàng)建,首次在業(yè)界提出了 “模型即服務(wù)” (MaaS, Model as a Service) 的理念。在過(guò)去一年半的時(shí)間里,MaaS 這一理念不僅實(shí)現(xiàn)了技術(shù)落地,也被行業(yè)廣泛接納,并成為繼 IaaS、PaaS、SaaS 服務(wù)的又一新的技術(shù)范式。

2023 年 7 月,Meta 宣布開(kāi)源 Llama 2 模型,改變了整個(gè)大語(yǔ)言模型 (LLM) 行業(yè)的競(jìng)爭(zhēng)格局。通過(guò)繁榮的開(kāi)源生態(tài),大語(yǔ)言模型迎來(lái)了群策群力的技術(shù)迭代和突破。

國(guó)內(nèi)外優(yōu)秀的大語(yǔ)言模型,如 ChatGLM、零一萬(wàn)物、書(shū)生·浦語(yǔ)系列、通義千問(wèn)等,都將魔搭社區(qū)作為開(kāi)源模型首發(fā)平臺(tái)。魔搭社區(qū)成為了大模型發(fā)展的技術(shù)風(fēng)向標(biāo),在中國(guó)的開(kāi)發(fā)者群體中,形成了廣泛的 “找模型,用模型,上魔搭社區(qū)” 的觀念認(rèn)同,從而建成了中國(guó)最大開(kāi)源模型社區(qū)。

魔搭社區(qū)現(xiàn)在上線了 NVIDIA TensorRT-LLM,TensorRT-LLM 提供了易于使用的應(yīng)用程序編程接口 (API),以定義和運(yùn)行大語(yǔ)言模型,支持社區(qū)上的各類開(kāi)源大語(yǔ)言模型 (LLM) 的推理加速。開(kāi)發(fā)者僅通過(guò)簡(jiǎn)短幾行代碼即可將優(yōu)化的模型部署到 GPU 上。

目前 NVIDIA TensorRT-LLM 在魔搭社區(qū)上已支持的模型類型和推理精度,幾乎涵蓋了所有主流的大語(yǔ)言/多模態(tài)模型以及常用的量化方法,包括 FP32、FP16、BF16、INT8 和 INT4,適用于不同的環(huán)境。

LLM 推理面臨的挑戰(zhàn)

計(jì)算資源消耗巨大:開(kāi)源大語(yǔ)言模型參數(shù)規(guī)模越來(lái)越大,比如 Qwen1.5-110B 參數(shù)規(guī)模高達(dá)千億級(jí),對(duì)計(jì)算資源的需求龐大。在沒(méi)有優(yōu)化的情況下直接部署,不僅成本高昂,而且對(duì)硬件要求高。

推理延遲高:大語(yǔ)言模型的推理時(shí)間長(zhǎng),尤其是在實(shí)時(shí)交互式應(yīng)用中,如聊天機(jī)器人、語(yǔ)音助手等,高延遲會(huì)嚴(yán)重影響用戶體驗(yàn)。

能效比低:計(jì)算密集型工作流意味著更高的能耗,這對(duì)于追求綠色計(jì)算和可持續(xù)發(fā)展的現(xiàn)代數(shù)據(jù)中心而言是一個(gè)重要問(wèn)題。

部署復(fù)雜度高:模型優(yōu)化、適配不同硬件平臺(tái)、以及持續(xù)維護(hù)升級(jí)等都是挑戰(zhàn),尤其對(duì)于非專業(yè)用戶來(lái)說(shuō),部署一個(gè)高性能的語(yǔ)言模型服務(wù)并不容易。

NVIDIA TensorRT-LLM

如何提升 LLM 推理效率

極致性能優(yōu)化:NVIDIA TensorRT-LLM 是基于 NVIDIA TensorRT API 生態(tài)系統(tǒng)構(gòu)建的,專為大規(guī)模語(yǔ)言模型優(yōu)化的推理引擎。它利用 GPU 的強(qiáng)大并行計(jì)算能力,通過(guò)算法優(yōu)化、層融合、量化等技術(shù)顯著減少模型推理所需的計(jì)算量和內(nèi)存占用,從而提升推理速度,降低延遲。

高效率與低功耗:通過(guò)精心設(shè)計(jì)的優(yōu)化策略,TensorRT-LLM 能夠在不犧牲模型精度的前提下,大幅提高能效比,這對(duì)于數(shù)據(jù)中心的成本控制和環(huán)境友好至關(guān)重要。

簡(jiǎn)化部署流程:提供一鍵式的模型優(yōu)化與部署工具,簡(jiǎn)化了從訓(xùn)練到推理的整個(gè)流程。即便是復(fù)雜的模型結(jié)構(gòu),開(kāi)發(fā)者也能輕松地將其部署到 GPU 上,大大降低了技術(shù)門檻,加速了產(chǎn)品上市時(shí)間。

廣泛兼容性與可擴(kuò)展性:支持魔搭社區(qū)的多種主流的深度學(xué)習(xí)框架和開(kāi)源模型架構(gòu),如 Transformer 系列模型。TensorRT-LLM 設(shè)計(jì)靈活,便于未來(lái)適應(yīng)更多先進(jìn)的模型技術(shù)和算法創(chuàng)新的更新,保持技術(shù)領(lǐng)先性。

在 NVIDIA TensorRT-LLM 和NVIDIA Triton 推理服務(wù)器的加持下,魔搭社區(qū)正在為開(kāi)發(fā)者提供更為全面、高效、快捷的模型推理部署方案。未來(lái),魔搭社區(qū)計(jì)劃將在生成式 AI 的模型和軟件加速庫(kù)層面,與 NVIDIA 相關(guān)團(tuán)隊(duì)繼續(xù)開(kāi)展合作,推動(dòng)大語(yǔ)言模型的廣泛應(yīng)用和落地。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5598

    瀏覽量

    109805
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3756

    瀏覽量

    52127
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    346

    瀏覽量

    1337

原文標(biāo)題:魔搭社區(qū)利用 NVIDIA TensorRT-LLM 加速開(kāi)源大語(yǔ)言模型推理

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    LLM推理模型是如何推理的?

    過(guò)程與核心見(jiàn)解拆解。一、核心論點(diǎn)與總覽LRM(如o1,R1)的“推理”能力提升,并非源于模型學(xué)會(huì)了人類式的邏輯推理,而是通過(guò)兩類主要技術(shù)手段,優(yōu)化了生成過(guò)程,使其
    的頭像 發(fā)表于 01-19 15:33 ?521次閱讀
    <b class='flag-5'>LLM</b><b class='flag-5'>推理</b>模型是如何<b class='flag-5'>推理</b>的?

    NVIDIA TensorRT Edge-LLM在汽車與機(jī)器人行業(yè)的落地應(yīng)用

    大語(yǔ)言模型(LLM)與多模態(tài)推理系統(tǒng)正迅速突破數(shù)據(jù)中心的局限。越來(lái)越多的汽車與機(jī)器人領(lǐng)域的開(kāi)發(fā)者希望將對(duì)話式 AI 智能體、多模態(tài)感知系統(tǒng)和高級(jí)規(guī)劃功能直接部署在端側(cè),因?yàn)樵谶@些場(chǎng)景中,低延遲、高可靠性以及離線運(yùn)行能力至關(guān)重要。
    的頭像 發(fā)表于 01-14 09:10 ?2986次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b> Edge-<b class='flag-5'>LLM</b>在汽車與機(jī)器人行業(yè)的落地應(yīng)用

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突
    的頭像 發(fā)表于 10-21 11:04 ?1196次閱讀

    TensorRT-LLM的大規(guī)模專家并行架構(gòu)設(shè)計(jì)

    之前文章已介紹引入大規(guī)模 EP 的初衷,本篇將繼續(xù)深入介紹 TensorRT-LLM 的大規(guī)模專家并行架構(gòu)設(shè)計(jì)與創(chuàng)新實(shí)現(xiàn)。
    的頭像 發(fā)表于 09-23 14:42 ?1119次閱讀
    <b class='flag-5'>TensorRT-LLM</b>的大規(guī)模專家并行架構(gòu)設(shè)計(jì)

    大規(guī)模專家并行模型在TensorRT-LLM的設(shè)計(jì)

    DeepSeek-V3 / R1 等模型采用大規(guī)模細(xì)粒度混合專家模型 (MoE) 架構(gòu),大幅提升了開(kāi)源模型的質(zhì)量。Llama 4 和 Qwen3 等新發(fā)布的開(kāi)源模型的設(shè)計(jì)原則也采用了類似的大規(guī)模細(xì)粒度 MoE 架構(gòu)。但大規(guī)模 MoE 模型為推理系統(tǒng)帶來(lái)了新的挑戰(zhàn),如高顯存
    的頭像 發(fā)表于 09-06 15:21 ?1238次閱讀
    大規(guī)模專家并行模型在<b class='flag-5'>TensorRT-LLM</b>的設(shè)計(jì)

    米爾RK3576部署端側(cè)多模態(tài)多輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    rkllm_infer_params.keep_history = 1,開(kāi)啟上下文記憶功能,KV-Cache 在顯存中持續(xù)追加存儲(chǔ),每輪對(duì)話僅計(jì)算新增 token,大幅提升推理效率。使模型能關(guān)聯(lián)多輪對(duì)話內(nèi)容; 若設(shè)為 0,則每輪
    發(fā)表于 09-05 17:25

    DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLMNVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4469次閱讀
    DeepSeek R1 MTP在<b class='flag-5'>TensorRT-LLM</b>中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM中的分離式服務(wù)

    在之前的技術(shù)博客中,我們介紹了低延遲[1] 和高吞吐[2] 場(chǎng)景的優(yōu)化方法。對(duì)于生產(chǎn)部署,用戶還關(guān)心在滿足特定延遲約束的情況下,每個(gè) GPU 的吞吐表現(xiàn)。本文將圍繞“吞吐量-延遲”性能場(chǎng)景,介紹 TensorRT-LLM 分離式服務(wù)的設(shè)計(jì)理念、使用方法,以及性能研究結(jié)果。
    的頭像 發(fā)表于 08-27 12:29 ?1766次閱讀
    <b class='flag-5'>TensorRT-LLM</b>中的分離式服務(wù)

    Votee AI借助NVIDIA技術(shù)加速方言小語(yǔ)種LLM開(kāi)發(fā)

    了精準(zhǔn)的方言及小語(yǔ)種大語(yǔ)言模型 (LLM)。此舉成功解決了數(shù)據(jù)稀缺、語(yǔ)言復(fù)雜及計(jì)算效率等挑戰(zhàn),為全球數(shù)以百萬(wàn)計(jì)、缺乏數(shù)字化資源的語(yǔ)言使用者提供了技術(shù)支持。
    的頭像 發(fā)表于 08-20 14:21 ?867次閱讀

    如何在社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù),可幫助開(kāi)發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)
    的頭像 發(fā)表于 07-04 14:38 ?2206次閱讀

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個(gè) NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場(chǎng)景中的性能紀(jì)錄:在 GTC 2025
    的頭像 發(fā)表于 07-02 19:31 ?3303次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理
    的頭像 發(fā)表于 06-12 15:37 ?1907次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT-LLM</b>部署TTS應(yīng)用的最佳實(shí)踐

    LM Studio使用NVIDIA技術(shù)加速LLM性能

    隨著 AI 使用場(chǎng)景不斷擴(kuò)展(從文檔摘要到定制化軟件代理),開(kāi)發(fā)者和技術(shù)愛(ài)好者正在尋求以更 快、更靈活的方式來(lái)運(yùn)行大語(yǔ)言模型(LLM)。
    的頭像 發(fā)表于 06-06 15:14 ?1196次閱讀
    LM Studio使用<b class='flag-5'>NVIDIA</b>技術(shù)加速<b class='flag-5'>LLM</b>性能

    詳解 LLM 推理模型的現(xiàn)狀

    2025年,如何提升大型語(yǔ)言模型(LLM)的推理能力成了最熱門的話題之一,大量?jī)?yōu)化推理能力的新策略開(kāi)始出現(xiàn),包括擴(kuò)展推理時(shí)間計(jì)算、運(yùn)用強(qiáng)化學(xué)
    的頭像 發(fā)表于 04-03 12:09 ?1638次閱讀
    詳解 <b class='flag-5'>LLM</b> <b class='flag-5'>推理</b>模型的現(xiàn)狀

    新品 | Module LLM Kit,離線大語(yǔ)言模型推理模塊套裝

    推理與數(shù)據(jù)交互需求。ModuleLLM是一款集成化的離線大語(yǔ)言模型(LLM)推理模塊,專為需要高效、智能交互的終端設(shè)備設(shè)計(jì)。Module13.2LLMMate模塊
    的頭像 發(fā)表于 03-28 18:49 ?1225次閱讀
    新品 | Module <b class='flag-5'>LLM</b> Kit,離線大語(yǔ)言模型<b class='flag-5'>推理</b>模塊套裝