91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Hugging Face大語言模型優(yōu)化技術(shù)

jf_WZTOguxH ? 來源:AI前線 ? 2023-10-09 16:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大語言模型的生產(chǎn)部署存在兩個(gè)主要的挑戰(zhàn),一個(gè)是需要大量的參數(shù),一個(gè)是需要處理非常長的用于表示上下文信息的輸入序列。Hugging Face 基于他們提供大模型服務(wù)的經(jīng)驗(yàn)分享了一些克服這些障礙的技術(shù)。

Patrick von Platen 在文中介紹的 Hugging Face 研究的三種技術(shù)是降低數(shù)值精度、使用一種叫作 Flash Attention 的注意力算法,以及使用專門的推理架構(gòu)。

大語言模型需要大量的 VRAM 來加載,從幾十 (bigcode/starcoder) 到數(shù)百 GB (Llama、Bloom、GPT3)。第一個(gè)優(yōu)化手段是從 float32 切換到 bfloat16 精度:

現(xiàn)在幾乎所有的模型都是基于 bfloat16 訓(xùn)練的,如果你的 GPU 支持 bfloat16,就沒有理由基于全 float32 精度運(yùn)行模型。float32 不會給出比訓(xùn)練模型所使用的精度更好的推理結(jié)果。

這可以使總體內(nèi)存消耗減少一半,但可惜的是,在許多情況下仍然需要很大的內(nèi)存。一種更激進(jìn)的方法是將模型權(quán)重量化為 8 位或 4 位,這已經(jīng)被證明不會導(dǎo)致顯著的性能下降。

量化對于文本生成來說特別有效,因?yàn)槲覀兯P(guān)心的是選擇最有可能的下一個(gè)標(biāo)記集合,而不是下一個(gè)標(biāo)記 Logit 分布的確切值。

這將進(jìn)一步減少所需的內(nèi)存,使得在只有 16GB VRAM 的 GPU 上運(yùn)行較小的模型成為可能,盡管代價(jià)是推理時(shí)間稍長。

von Platen 寫道,使用 Flash Attention 是另一相關(guān)鍵的優(yōu)化,它是大語言模型用來理解輸入標(biāo)記上下文關(guān)系的自注意力層的一種算法,有可能打破輸入標(biāo)記數(shù)量的二次增長。

因?yàn)樵撍惴ㄌ^復(fù)雜,無法在這里描述,但可以這么說,它利用了 softmax 規(guī)范化統(tǒng)計(jì)數(shù)據(jù)和一些數(shù)學(xué)手段,在只需要隨輸入標(biāo)記線性增長的內(nèi)存的情況下提供相同的輸出。推理性能也得益于算法使用了更快的 SRAM 而不是更慢的 GPU VRAM。

在實(shí)踐中,目前絕對沒有理由不使用 Flash Attention。該算法在數(shù)學(xué)層面給出了相同的輸出,并且速度更快,內(nèi)存效率更高。

Here recent research can help to make the right choice with two components that quickly become bottlenecks, says von Platen,positional embeddingsand thekey-value cache.

在生產(chǎn)環(huán)境中部署大語言模型的第三項(xiàng)優(yōu)化措施是選擇正確的架構(gòu),讓它們能夠有效地處理長文本輸入。von Platen 寫道,最近的研究有助于我們?nèi)绾螌蓚€(gè)很快成為瓶頸的組件做出選擇——一個(gè)是 _ 位置嵌入 (positional embeddings)_,一個(gè)是 _ 鍵值緩存 _。

位置嵌入通過將每個(gè)標(biāo)記的位置編碼為數(shù)字表示來幫助語言大模型理解序列順序。對于需要處理大型文本輸入任務(wù)的大語言模型,應(yīng)該使用 RoPE 和 ALiBi 等相對位置嵌入技術(shù)進(jìn)行訓(xùn)練。

RoPE 和 ALiBi 位置編碼都可以外推到訓(xùn)練期間未遇到過的輸入長度,而事實(shí)證明,與 RoPE 相比,外推對于開箱即用的 ALiBi 的效果要好得多。

目前的許多大語言模型中已經(jīng)在使用這兩種算法。

鍵值緩存可以作為對對話上下文進(jìn)行編碼的一種方法。鍵值緩存在發(fā)生每個(gè)新交互時(shí)增加一個(gè)元素,這比為每個(gè)請求編碼 / 解碼上下文的方法要有效得多。von Platen 詳細(xì)介紹了兩類鍵值緩存,即 Multi-Query-Attention (MQA) 和 Grouped-Query-Attention(GQA) 。

von Platen 的文章所涵蓋的內(nèi)容不只有本文所概述的這些,他的文章中還提供了實(shí)際的例子來證明他的觀點(diǎn),所以請不要錯(cuò)過他的文章。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5196

    瀏覽量

    135511
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    571

    瀏覽量

    11322
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3653

    瀏覽量

    5195

原文標(biāo)題:Hugging Face 大語言模型優(yōu)化技術(shù)

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA Alpamayo 1模型Hugging Face平臺下載量已突破10萬次

    NVIDIA Alpamayo 1 在 Hugging Face 的下載量已突破 10 萬次,且仍在持續(xù)增長,已成為 Hugging Face 平臺下載量最高的機(jī)器人
    的頭像 發(fā)表于 03-04 16:27 ?682次閱讀

    摩爾線程新一代大語言模型對齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領(lǐng)域取得重要突破,其提出的新一代大語言模型對齊框架——URPO統(tǒng)一獎勵與策略優(yōu)化,相關(guān)研究論文已被人工智能領(lǐng)域的國際頂級學(xué)術(shù)會議AAAI 2026收錄。這一成果標(biāo)志著摩爾線程在大
    的頭像 發(fā)表于 11-17 16:03 ?501次閱讀
    摩爾線程新一代大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>對齊框架URPO入選AAAI 2026

    NVIDIA推出面向語言、機(jī)器人和生物學(xué)的全新開源AI技術(shù)

    NVIDIA 秉持對開源的長期承諾,推出了面向語言、機(jī)器人和生物學(xué)的全新開源 AI 技術(shù),為構(gòu)建開源生態(tài)系統(tǒng)做出貢獻(xiàn),擴(kuò)展 AI 的普及并推動創(chuàng)新。NVIDIA 正將這些模型、數(shù)據(jù)和訓(xùn)練框架貢獻(xiàn)給
    的頭像 發(fā)表于 11-06 11:49 ?1081次閱讀

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現(xiàn)已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應(yīng)用開發(fā)者都可以構(gòu)建并部署帶有先進(jìn)動畫的高精度角色。NVIDIA 開源 Audio2Face 的訓(xùn)練框架,任何人都可以針對特定用例對現(xiàn)有
    的頭像 發(fā)表于 10-21 11:11 ?832次閱讀
    NVIDIA開源Audio2<b class='flag-5'>Face</b><b class='flag-5'>模型</b>及SDK

    什么是AI模型的推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊(duì)為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理
    的頭像 發(fā)表于 09-23 15:19 ?1284次閱讀

    具身智能家務(wù)機(jī)器人黑客松報(bào)名通道已開啟

    在家庭服務(wù)場景中,機(jī)器人自主完成烹飪、家務(wù)處理等任務(wù)已成為技術(shù)探索熱點(diǎn)。為了助力開發(fā)者打造適用于家務(wù)場景的創(chuàng)新機(jī)器人應(yīng)用,NVIDIA、Seeed Studio 和 Hugging Face 發(fā)起
    的頭像 發(fā)表于 09-04 11:29 ?1182次閱讀

    3萬字長文!深度解析大語言模型LLM原理

    我們正在參加全球電子成就獎的評選,歡迎大家?guī)臀覀兺镀薄x謝支持本文轉(zhuǎn)自:騰訊技術(shù)工程作者:royceshao大語言模型LLM的精妙之處在于很好地利用數(shù)學(xué)解決了工業(yè)場景的問題,筆者基于過往工程經(jīng)驗(yàn)
    的頭像 發(fā)表于 09-02 13:34 ?3467次閱讀
    3萬字長文!深度解析大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>LLM原理

    Arm神經(jīng)技術(shù)是業(yè)界首創(chuàng)在 Arm GPU 上增添專用神經(jīng)加速器的技術(shù),移動設(shè)備上實(shí)現(xiàn)PC級別的AI圖形性能

    應(yīng)用,該 AI 圖形優(yōu)化升級技術(shù)能夠以每幀四毫秒的速度實(shí)現(xiàn)兩倍的分辨率提升 開發(fā)者即刻就能通過業(yè)界首個(gè)神經(jīng)圖形的開放開發(fā)套件進(jìn)行構(gòu)建,其中包含虛幻引擎插件、模擬器,以及 GitHub 和 Hugging
    的頭像 發(fā)表于 08-14 17:59 ?2776次閱讀

    無法在NPU上推理OpenVINO?優(yōu)化的 TinyLlama 模型怎么解決?

    在 NPU 上推斷 OpenVINO?優(yōu)化的 TinyLlama 模型。 遇到的錯(cuò)誤: get_shape was called on a descriptor::Tensor with dynamic shape
    發(fā)表于 07-11 06:58

    歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語言模型

    NVIDIA 正攜手歐洲和中東的模型構(gòu)建商與云提供商,共同優(yōu)化主權(quán)大語言模型 (LLM),加速該地區(qū)各行業(yè)采用企業(yè)級 AI。
    的頭像 發(fā)表于 06-12 15:42 ?1197次閱讀

    商湯科技日日新V6大模型斬獲“雙料第一” 一項(xiàng)國內(nèi)榜首,一個(gè)全球第一

    衛(wèi)冕“雙冠”! 通用語言能力并列國內(nèi)榜首、多模態(tài)能力全球最強(qiáng),商湯「日日新V6」近期斬獲“雙料第一”。 5月28日,權(quán)威大模型測評機(jī)構(gòu)SuperCLUE《中文大模型基準(zhǔn)測評2025年5月報(bào)告》全新
    的頭像 發(fā)表于 05-30 11:13 ?1598次閱讀
    商湯科技日日新V6大<b class='flag-5'>模型</b>斬獲“雙料第一” 一項(xiàng)國內(nèi)榜首,一個(gè)全球第一

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語言模型

    在當(dāng)今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個(gè)熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1319次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    如何基于Android 14在i.MX95 EVK上運(yùn)行Deepseek-R1-1.5B和性能

    Internet,或者您可以手動下載模型。按“ ”并選擇 “從Hugging Face添加” 并搜索1.5B,找到deepseek-R1-1.5B模型,下載
    發(fā)表于 04-04 06:59

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺內(nèi)容相關(guān)的自然
    的頭像 發(fā)表于 03-17 15:32 ?8903次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    利用英特爾OpenVINO在本地運(yùn)行Qwen2.5-VL系列模型

    近期阿里通義實(shí)驗(yàn)室在 Hugging Face 和 ModelScope 上開源了 Qwen2.5-VL 的 Base 和 Instruct 模型,包含 3B、7B 和 72B 在內(nèi)的 3 個(gè)
    的頭像 發(fā)表于 03-12 13:42 ?2621次閱讀
    利用英特爾OpenVINO在本地運(yùn)行Qwen2.5-VL系列<b class='flag-5'>模型</b>