亚欧日韩一级二级三级Av,一本一道久久a久久精

“魔搭社區(qū)是中國(guó)最具影響力的模型開(kāi)源社區(qū)，致力給開(kāi)發(fā)者提供模型即服務(wù)的體驗(yàn)。魔搭社區(qū)利用NVIDIA TensorRT-LLM，大大提高了大語(yǔ)言模型的推理性能，方便了模型應(yīng)用部署，提高了大模型產(chǎn)業(yè)應(yīng)用效率，更大規(guī)模地釋放大模型的應(yīng)用價(jià)值?！?/p>

——周文猛，魔搭社區(qū)技術(shù)負(fù)責(zé)人，阿里巴巴通義實(shí)驗(yàn)室技術(shù)總監(jiān)

魔搭上線 NVIDIA TensorRT-LLM

支持開(kāi)源LLM 推理加速

魔搭社區(qū)于 2022 年 11 月初創(chuàng)建，首次在業(yè)界提出了 “模型即服務(wù)” (MaaS, Model as a Service) 的理念。在過(guò)去一年半的時(shí)間里，MaaS 這一理念不僅實(shí)現(xiàn)了技術(shù)落地，也被行業(yè)廣泛接納，并成為繼 IaaS、PaaS、SaaS 服務(wù)的又一新的技術(shù)范式。

2023 年 7 月，Meta 宣布開(kāi)源 Llama 2 模型，改變了整個(gè)大語(yǔ)言模型 (LLM) 行業(yè)的競(jìng)爭(zhēng)格局。通過(guò)繁榮的開(kāi)源生態(tài)，大語(yǔ)言模型迎來(lái)了群策群力的技術(shù)迭代和突破。

國(guó)內(nèi)外優(yōu)秀的大語(yǔ)言模型，如 ChatGLM、零一萬(wàn)物、書(shū)生·浦語(yǔ)系列、通義千問(wèn)等，都將魔搭社區(qū)作為開(kāi)源模型首發(fā)平臺(tái)。魔搭社區(qū)成為了大模型發(fā)展的技術(shù)風(fēng)向標(biāo)，在中國(guó)的開(kāi)發(fā)者群體中，形成了廣泛的 “找模型，用模型，上魔搭社區(qū)” 的觀念認(rèn)同，從而建成了中國(guó)最大開(kāi)源模型社區(qū)。

魔搭社區(qū)現(xiàn)在上線了 NVIDIA TensorRT-LLM，TensorRT-LLM 提供了易于使用的應(yīng)用程序編程接口 (API)，以定義和運(yùn)行大語(yǔ)言模型，支持社區(qū)上的各類開(kāi)源大語(yǔ)言模型 (LLM) 的推理加速。開(kāi)發(fā)者僅通過(guò)簡(jiǎn)短幾行代碼即可將優(yōu)化的模型部署到 GPU 上。

目前 NVIDIA TensorRT-LLM 在魔搭社區(qū)上已支持的模型類型和推理精度，幾乎涵蓋了所有主流的大語(yǔ)言/多模態(tài)模型以及常用的量化方法，包括 FP32、FP16、BF16、INT8 和 INT4，適用于不同的環(huán)境。

LLM 推理面臨的挑戰(zhàn)

計(jì)算資源消耗巨大：開(kāi)源大語(yǔ)言模型參數(shù)規(guī)模越來(lái)越大，比如 Qwen1.5-110B 參數(shù)規(guī)模高達(dá)千億級(jí)，對(duì)計(jì)算資源的需求龐大。在沒(méi)有優(yōu)化的情況下直接部署，不僅成本高昂，而且對(duì)硬件要求高。

推理延遲高：大語(yǔ)言模型的推理時(shí)間長(zhǎng)，尤其是在實(shí)時(shí)交互式應(yīng)用中，如聊天機(jī)器人、語(yǔ)音助手等，高延遲會(huì)嚴(yán)重影響用戶體驗(yàn)。

能效比低：計(jì)算密集型工作流意味著更高的能耗，這對(duì)于追求綠色計(jì)算和可持續(xù)發(fā)展的現(xiàn)代數(shù)據(jù)中心而言是一個(gè)重要問(wèn)題。

部署復(fù)雜度高：模型優(yōu)化、適配不同硬件平臺(tái)、以及持續(xù)維護(hù)升級(jí)等都是挑戰(zhàn)，尤其對(duì)于非專業(yè)用戶來(lái)說(shuō)，部署一個(gè)高性能的語(yǔ)言模型服務(wù)并不容易。

NVIDIA TensorRT-LLM

如何提升 LLM 推理效率

極致性能優(yōu)化：NVIDIA TensorRT-LLM 是基于 NVIDIA TensorRT API 生態(tài)系統(tǒng)構(gòu)建的，專為大規(guī)模語(yǔ)言模型優(yōu)化的推理引擎。它利用 GPU 的強(qiáng)大并行計(jì)算能力，通過(guò)算法優(yōu)化、層融合、量化等技術(shù)顯著減少模型推理所需的計(jì)算量和內(nèi)存占用，從而提升推理速度，降低延遲。

高效率與低功耗：通過(guò)精心設(shè)計(jì)的優(yōu)化策略，TensorRT-LLM 能夠在不犧牲模型精度的前提下，大幅提高能效比，這對(duì)于數(shù)據(jù)中心的成本控制和環(huán)境友好至關(guān)重要。

簡(jiǎn)化部署流程：提供一鍵式的模型優(yōu)化與部署工具，簡(jiǎn)化了從訓(xùn)練到推理的整個(gè)流程。即便是復(fù)雜的模型結(jié)構(gòu)，開(kāi)發(fā)者也能輕松地將其部署到 GPU 上，大大降低了技術(shù)門檻，加速了產(chǎn)品上市時(shí)間。

廣泛兼容性與可擴(kuò)展性：支持魔搭社區(qū)的多種主流的深度學(xué)習(xí)框架和開(kāi)源模型架構(gòu)，如 Transformer 系列模型。TensorRT-LLM 設(shè)計(jì)靈活，便于未來(lái)適應(yīng)更多先進(jìn)的模型技術(shù)和算法創(chuàng)新的更新，保持技術(shù)領(lǐng)先性。

在 NVIDIA TensorRT-LLM 和NVIDIA Triton 推理服務(wù)器的加持下，魔搭社區(qū)正在為開(kāi)發(fā)者提供更為全面、高效、快捷的模型推理部署方案。未來(lái)，魔搭社區(qū)計(jì)劃將在生成式 AI 的模型和軟件加速庫(kù)層面，與 NVIDIA 相關(guān)團(tuán)隊(duì)繼續(xù)開(kāi)展合作，推動(dòng)大語(yǔ)言模型的廣泛應(yīng)用和落地。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴