91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

華為提出Sorted LLaMA:SoFT代替SFT,訓(xùn)練多合一大語(yǔ)言模型

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-09-26 16:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

ChatGPT、LLaMa等大型語(yǔ)言模型(LLMs)在自然語(yǔ)言處理領(lǐng)域帶來(lái)的革命性進(jìn)步。通過有監(jiān)督微調(diào)(SFT)的訓(xùn)練方式,這些模型擁有強(qiáng)大的上下文學(xué)習(xí)能力,在各種任務(wù)中都展現(xiàn)了超凡的表現(xiàn)。然而,它們也有一個(gè)不小的問題——龐大的存儲(chǔ)空間和高昂的計(jì)算資源成本。

但現(xiàn)在,研究人員們?yōu)槲覀儙?lái)了一項(xiàng)新的解決方案——SortedNet。它允許我們?cè)谝粋€(gè)大型模型內(nèi)創(chuàng)建多個(gè)“子模型”,每一個(gè)都有自己專門的任務(wù)責(zé)任區(qū)。這意味著我們可以根據(jù)自己的需求和可用資源來(lái)選擇適合的子模型,從而大幅度減少存儲(chǔ)空間和計(jì)算資源的需求。

而這一切的背后,是一項(xiàng)名為Sorted Fine-Tuning(SoFT)的新訓(xùn)練技術(shù)。SoFT讓我們可以在一個(gè)訓(xùn)練周期內(nèi)產(chǎn)出多個(gè)子模型,無(wú)需任何額外的預(yù)訓(xùn)練步驟。此外,這項(xiàng)技術(shù)還揭示了模型的中間層也能夠產(chǎn)生高質(zhì)量的輸出,這一點(diǎn)在之前的研究中常常被忽視。

為了證明這種方法的有效性,研究人員使用了LLaMa 2 13B和Stanford Alpaca數(shù)據(jù)集進(jìn)行測(cè)試和驗(yàn)證。他們不僅對(duì)比了SFT和SoFT這兩種方法,還創(chuàng)建了多個(gè)不同層次的子模型來(lái)確定哪些層最能產(chǎn)出高質(zhì)量的結(jié)果。測(cè)試結(jié)果令人鼓舞——使用SoFT創(chuàng)建的子模型不僅運(yùn)行速度更快,而且能夠保持或甚至超越原始模型的性能水平。

讓我們一起深入了解一下SortedNet和SoFT技術(shù)吧!

02d06996-5c36-11ee-939d-92fbcf53809c.png

Paper:Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Using Sorted Fine-Tuning
Link:https://arxiv.org/abs/2309.08968

Many-in-One LLMs

在介紹這篇研究之前,先讓我們了解一下什么是Many-in-One。

深度神經(jīng)網(wǎng)絡(luò)通常存在過多的參數(shù),導(dǎo)致模型部署的成本增加。此外,在實(shí)際應(yīng)用中,這些過度參數(shù)化的深度神經(jīng)網(wǎng)絡(luò)需要為具有不同需求和計(jì)算預(yù)算的客戶提供服務(wù)。為了滿足這些多樣化的需求,可以考慮訓(xùn)練不同大小的模型,但這將非常昂貴(涉及訓(xùn)練和內(nèi)存成本),或者另一種選擇是訓(xùn)練Many-in-One網(wǎng)絡(luò)。

Many-in-One解決方案是在一個(gè)神經(jīng)網(wǎng)絡(luò)模型內(nèi)部包含多個(gè)子網(wǎng)絡(luò),每個(gè)子網(wǎng)絡(luò)可以執(zhí)行不同的任務(wù)或具有不同的結(jié)構(gòu)。這個(gè)方法的目標(biāo)是將多個(gè)任務(wù)或模型結(jié)構(gòu)整合到一個(gè)統(tǒng)一的網(wǎng)絡(luò)中,從而提高模型的通用性和適應(yīng)性。例如:

早期退出(Early Exit):在訓(xùn)練過程中,Early Exit在除了最后的預(yù)測(cè)層之外,還在網(wǎng)絡(luò)的特定中間層上添加了額外的預(yù)測(cè)頭。這些預(yù)測(cè)頭在需要時(shí)提供中間預(yù)測(cè),可以實(shí)現(xiàn)更快的推斷速度。

層丟棄(Drop Layer),通過在訓(xùn)練期間隨機(jī)丟棄層來(lái)訓(xùn)練具有任意深度的網(wǎng)絡(luò)。

最近,LLMs引起了廣泛的關(guān)注。為了使LLMs適應(yīng)這些多樣化的需求,研究者提出了兩種適應(yīng)方法:參數(shù)高效調(diào)整(PEFT)和模型壓縮。

PEFT:核心主干模型保持不變,而只更新一些適配器參數(shù)。這些適配器的作用就像是在LLMs上進(jìn)行微調(diào),使其適應(yīng)不同的任務(wù)和需求。有一些PEFT的變種,比如LoRA、KRONA、Adapter、DyLoRA、Ladder Side-Tuning和Compacter等。這些方法可以讓LLMs更加靈活,但仍然無(wú)法提供動(dòng)態(tài)大小的LLMs。

模型壓縮:在模型壓縮中,大型模型通過知識(shí)蒸餾、修剪和量化等壓縮方法來(lái)減小尺寸。這些方法可以生成不同尺寸的模型,但需要分別對(duì)每個(gè)壓縮模型進(jìn)行訓(xùn)練,而且它們也不是多合一模型。

現(xiàn)在,再回到Many in one LLMs的概念。這是一種非常有趣的想法,它們可以同時(shí)適應(yīng)多種不同的任務(wù)和需求。但到目前為止,我們還沒有看到發(fā)布的多合一LLM模型。因此,在這項(xiàng)研究中,研究人員將一種SortedNet的訓(xùn)練方法應(yīng)用到LLaMA 13B模型上,這將成為第一個(gè)Many in one LLM。

方法

這項(xiàng)研究的方法涉及將大型語(yǔ)言模型(LLMs)轉(zhuǎn)化為多合一模型,靈感來(lái)自SortedNet方法,主要步驟如下:

形成子網(wǎng)絡(luò):首先需要將LLMs劃分為多個(gè)子網(wǎng)絡(luò)。子網(wǎng)絡(luò)的深度(即前n層的子模型)用fn(x; θn)表示。在這項(xiàng)研究中,選擇的語(yǔ)言模型是LLaMA2 13B,總共包括40層。因此,定義了一系列不同層數(shù)的子網(wǎng)絡(luò),如12層、16層、20層等。

計(jì)算子網(wǎng)絡(luò)的輸出:每個(gè)子模型的輸出將通過使用原始網(wǎng)絡(luò)最后一層的共享輸出預(yù)測(cè)頭來(lái)進(jìn)行預(yù)測(cè)。需要注意的是,在LLaMA模型中,輸出預(yù)測(cè)頭之前存在一個(gè)RMSNorm層,該歸一化層被添加到每個(gè)子模型的共享預(yù)測(cè)頭之前。研究人員認(rèn)為,這種歸一化對(duì)于Sorted LLama在所有子模型上更好地泛化至關(guān)重要。

目標(biāo)函數(shù):為了訓(xùn)練這些子網(wǎng)絡(luò),定義了每個(gè)子模型的損失函數(shù)Ln(x; θn)??倱p失L是所有子模型和主模型的損失之和。

訓(xùn)練數(shù)據(jù)集:在這項(xiàng)研究中,使用了Stanford Alpaca數(shù)據(jù)集,該數(shù)據(jù)集包含了5.2萬(wàn)個(gè)指令跟隨示例的演示。

評(píng)估:除了評(píng)估最后一層的嵌入質(zhì)量外,還評(píng)估了從第1到第n個(gè)塊的中間輸出的嵌入質(zhì)量。Panda-LM基準(zhǔn)用于比較不同子模型的輸出。Panda-LM使用一個(gè)大型語(yǔ)言模型來(lái)評(píng)估來(lái)自兩個(gè)源的生成文本的質(zhì)量。最終的評(píng)估結(jié)果包括勝利次數(shù)、失敗次數(shù)和驗(yàn)證集中的平局次數(shù)。最終得分是通過特定的公式計(jì)算出來(lái),表示模型在指令跟隨任務(wù)上的性能,得分范圍在-1到1之間。

Baseline:作者對(duì)LLama2 13B模型進(jìn)行了微調(diào),采用了兩種不同的設(shè)置作為基線:常規(guī)監(jiān)督微調(diào)(SFT)和排序微調(diào)(SoFT)。其中,常規(guī)監(jiān)督式微調(diào)是常見做法,主要關(guān)注網(wǎng)絡(luò)的最后一層的訓(xùn)練。在這種情況下,只對(duì)網(wǎng)絡(luò)的最后一層進(jìn)行微調(diào)。排序微調(diào)(SoFT)下,計(jì)算從第12層到第40層(最后一層)的多個(gè)輸出的損失,分為四個(gè)間隔,并同時(shí)訓(xùn)練多個(gè)模型,就像在前面的部分中解釋的那樣。

實(shí)驗(yàn)結(jié)果

對(duì)于生成模型的不同層排序信息的影響是什么?

研究者首先關(guān)注了在不同層次的生成模型中對(duì)信息進(jìn)行排序的效果。他們進(jìn)行了一系列實(shí)驗(yàn),生成了不同層次的響應(yīng),并使用PandaLM評(píng)估器進(jìn)行了成對(duì)比較。結(jié)果顯示,Sorted Fine-Tuning對(duì)于將學(xué)到的知識(shí)傳遞到中間層具有顯著影響。在自動(dòng)評(píng)估中,Sorted LLaMA在幾乎所有層次上都表現(xiàn)出色,遠(yuǎn)遠(yuǎn)超過了常規(guī)微調(diào)(SFT)。

02f0d654-5c36-11ee-939d-92fbcf53809c.png

需要注意的是,盡管對(duì)SoFT的性能進(jìn)行了zero-shot評(píng)估,但為了更好地理解SFT層次的結(jié)果,研究者進(jìn)行了額外的訓(xùn)練——對(duì)每個(gè)子模型的分類層進(jìn)行訓(xùn)練??梢宰⒁獾?,與Sorted LLaMA的第12層相比,SFT的第12層性能略好。下表是一個(gè)生成的回復(fù)例子,可以看到SFT中較早層的生成文本大多是亂碼的。當(dāng)我們進(jìn)入SFT中的較高層時(shí),生成的文本變得越來(lái)越有意義,這使得與Sorted LLAMA層的比較更加合理。

03109f5c-5c36-11ee-939d-92fbcf53809c.png

這一部分的實(shí)驗(yàn)結(jié)果呈現(xiàn)出了Sorted Fine-Tuning對(duì)于LLama2模型性能的積極影響,尤其是在中間層次的性能上,這為后續(xù)的研究提供了重要基準(zhǔn)。

此外,結(jié)果還突顯了Sorted Fine-Tuning能夠生成性能強(qiáng)大且尺寸較小的子模型,這些子模型與原始模型的性能相媲美。在接下來(lái)的圖表中,研究者進(jìn)行了SFT和SoFT在不同條件下的評(píng)估,結(jié)果顯示,無(wú)論是零-shot還是Early-Exit,兩種方法的結(jié)果幾乎沒有變化。這些實(shí)驗(yàn)證明了Sorted Fine-Tuning的魯棒性和有效性。

0333c626-5c36-11ee-939d-92fbcf53809c.png

034e2804-5c36-11ee-939d-92fbcf53809c.png

結(jié)果分析

SoFT和SFT學(xué)習(xí)到的概率分布對(duì)比

研究者使用Kullback-Leibler(KL)散度作為度量標(biāo)準(zhǔn)來(lái)衡量?jī)蓚€(gè)概率分布之間的相似性。

下圖(a)比較了Sorted LLaMA和SFT子模型在不同輸出位置上的概率分布。首先,圖(a)左展示了與SFT模型的最后一層以及從第12層到第36層的層次之間的比較??梢悦黠@看出,與生成初始標(biāo)記后的最后一層相比,即使在較高的層次,如36和32,輸出分布迅速發(fā)散。需要注意的是,這種評(píng)估是在zero-shot方式下生成的,沒有調(diào)整分類器頭。

03631b06-5c36-11ee-939d-92fbcf53809c.png

下圖(b)顯示了在Sorted LLaMA中,隨著我們靠近最后一層,生成結(jié)果的可能性分布越來(lái)越接近完整尺寸子模型,至少在生成文本的初始位置上是如此。

037eb578-5c36-11ee-939d-92fbcf53809c.png

下圖(c)展示了不同SFT層次與最后一個(gè)Sorted LLaMA層次之間的比較。圖中顯示,只有SFT的完整尺寸輸出分布接近排序的完整尺寸模型,而其他層次的分布在生成文本的初始步驟中與SoFT相比迅速發(fā)散。

039d8fca-5c36-11ee-939d-92fbcf53809c.png

圖(d)比較了所有排序?qū)哟蔚妮敵龇植寂c最后一個(gè)SFT層次的輸出分布。與圖4c(左)相比,圖4d(左)顯示Sorted LLaMA甚至在較低層次的初始輸出標(biāo)記上也能保持與SFT完整尺寸模型接近的輸出分布。

03bac7ca-5c36-11ee-939d-92fbcf53809c.png

總結(jié)

這項(xiàng)工作提出了Sorted LLaMA,它是一種基于Sorted Fine-Tuning而不是監(jiān)督微調(diào)獲得的多合一LLaMA模型,用于動(dòng)態(tài)推理。Sorted LLaMA釋放了中間層的潛在表示能力,提供了無(wú)需預(yù)訓(xùn)練或與模型壓縮相關(guān)的額外開銷的動(dòng)態(tài)自適應(yīng)能力。它為NLP領(lǐng)域中生成語(yǔ)言模型的優(yōu)化提供了有前途的途徑。

SoFT使這些模型的部署更加高效。由于所有子模型仍然是原始模型的組成部分,因此存儲(chǔ)要求和不同計(jì)算需求之間的過渡成本最小化,使得在推理期間管理多個(gè)模型成為現(xiàn)實(shí)。

這些分析結(jié)果揭示了Sorted Fine-Tuning對(duì)于生成模型的輸出分布的影響,特別是在不同的模型層次上,以及Sorted LLaMA在保持輸出分布方面的能力。這些結(jié)果有助于更深入地理解Sorted Fine-Tuning方法的效果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 華為
    +關(guān)注

    關(guān)注

    218

    文章

    36005

    瀏覽量

    262097
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3752

    瀏覽量

    52109
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    571

    瀏覽量

    11310
  • ChatGPT
    +關(guān)注

    關(guān)注

    31

    文章

    1598

    瀏覽量

    10267

原文標(biāo)題:華為提出Sorted LLaMA:SoFT代替SFT,訓(xùn)練多合一大語(yǔ)言模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【飛騰派4G版免費(fèi)試用】仙女姐姐的嵌入式實(shí)驗(yàn)室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B

    預(yù)訓(xùn)練語(yǔ)言模型。該模型最大的特點(diǎn)就是基于以較小的參數(shù)規(guī)模取得了優(yōu)秀的性能,根據(jù)官網(wǎng)提供的信息,LLaMA
    發(fā)表于 12-22 10:18

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    模型架構(gòu)奠定基礎(chǔ)。然后,引介些經(jīng)典的預(yù)訓(xùn)練模型,如BERT、GPT等。最后,解讀ChatGPT和LLaMA系列
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

    訓(xùn)練數(shù)據(jù)時(shí),數(shù)量、質(zhì)量和多樣性三者缺不可。 數(shù)據(jù)的多樣性對(duì)于大語(yǔ)言模型至關(guān)重要,這主要體現(xiàn)在數(shù)據(jù)的類別和來(lái)源兩個(gè)方面。豐富的數(shù)據(jù)類別能夠提供多樣的
    發(fā)表于 05-07 17:10

    Multilingual多語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)文中提出XLM預(yù)訓(xùn)練語(yǔ)言
    的頭像 發(fā)表于 05-05 15:23 ?4049次閱讀

    種基于亂序語(yǔ)言模型的預(yù)訓(xùn)練模型-PERT

    由于亂序語(yǔ)言模型不使用[MASK]標(biāo)記,減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap,并由于預(yù)測(cè)空間大小為輸入序列長(zhǎng)度,使得計(jì)算效率高于掩碼語(yǔ)言模型
    的頭像 發(fā)表于 05-10 15:01 ?2325次閱讀

    基于預(yù)訓(xùn)練模型語(yǔ)言增強(qiáng)的零樣本視覺學(xué)習(xí)

    些非自然圖像中要比傳統(tǒng)模型表現(xiàn)更好 CoOp 增加些 prompt 會(huì)讓模型能力進(jìn)步提升 怎么讓能力更好?可以引入其他知識(shí),即其他的
    的頭像 發(fā)表于 06-15 16:36 ?1183次閱讀
    基于預(yù)<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>和<b class='flag-5'>語(yǔ)言</b>增強(qiáng)的零樣本視覺學(xué)習(xí)

    Meta發(fā)布款可以使用文本提示生成代碼的大型語(yǔ)言模型Code Llama

    今天,Meta發(fā)布了Code Llama,款可以使用文本提示生成代碼的大型語(yǔ)言模型(LLM)。
    的頭像 發(fā)表于 08-25 09:06 ?2548次閱讀
    Meta發(fā)布<b class='flag-5'>一</b>款可以使用文本提示生成代碼的大型<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>Code <b class='flag-5'>Llama</b>

    語(yǔ)言模型(LLM)預(yù)訓(xùn)練數(shù)據(jù)集調(diào)研分析

    語(yǔ)言模型涉及數(shù)據(jù)的通常有有多個(gè)階段(Aligning language models to follow instructions [1] ):pre-train、sft(supervised
    的頭像 發(fā)表于 09-19 10:00 ?2275次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>(LLM)預(yù)<b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集調(diào)研分析

    語(yǔ)言模型簡(jiǎn)介:基于大語(yǔ)言模型模型全家桶Amazon Bedrock

    本文基于亞馬遜云科技推出的大語(yǔ)言模型與生成式AI的全家桶:Bedrock對(duì)大語(yǔ)言模型進(jìn)行介紹。大語(yǔ)言模型
    的頭像 發(fā)表于 12-04 15:51 ?1569次閱讀

    Meta推出最強(qiáng)開源模型Llama 3 要挑戰(zhàn)GPT

    公司這次開源了Llama 3 8B與70B兩款不同規(guī)模的模型,開發(fā)者可以免費(fèi)使用,而Meta公司還將陸續(xù)推出系列具備模態(tài)、多語(yǔ)言對(duì)話、更
    的頭像 發(fā)表于 04-19 17:00 ?1609次閱讀

    語(yǔ)言模型的預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型的預(yù)訓(xùn)練是這技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?1719次閱讀

    Llama 3 語(yǔ)言模型應(yīng)用

    在人工智能領(lǐng)域,語(yǔ)言模型的發(fā)展直是研究的熱點(diǎn)。隨著技術(shù)的不斷進(jìn)步,我們見證了從簡(jiǎn)單的關(guān)鍵詞匹配到復(fù)雜的上下文理解的轉(zhuǎn)變。 、Llama
    的頭像 發(fā)表于 10-27 14:15 ?1320次閱讀

    Llama 3 模型訓(xùn)練技巧

    Llama 3 模型,假設(shè)是指個(gè)先進(jìn)的人工智能模型,可能是個(gè)虛構(gòu)的或者是個(gè)特定領(lǐng)域的術(shù)語(yǔ)。
    的頭像 發(fā)表于 10-27 14:24 ?1207次閱讀

    從零開始訓(xùn)練個(gè)大語(yǔ)言模型需要投資多少錢?

    ,前言 ? 在AI領(lǐng)域,訓(xùn)練個(gè)大型語(yǔ)言模型(LLM)是個(gè)耗時(shí)且復(fù)雜的過程。幾乎每個(gè)做大型
    的頭像 發(fā)表于 11-08 14:15 ?1807次閱讀
    從零開始<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>一</b>個(gè)大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>需要投資多少錢?

    用Ollama輕松搞定Llama 3.2 Vision模型本地部署

    Ollama的安裝。 ,Llama3.2 Vision簡(jiǎn)介 Llama 3.2 Vision是個(gè)模態(tài)大型
    的頭像 發(fā)表于 11-23 17:22 ?4683次閱讀
    用Ollama輕松搞定<b class='flag-5'>Llama</b> 3.2 Vision<b class='flag-5'>模型</b>本地部署