av在线资源导航,国产欧法无码小电影人

ChatGPT、LLaMa等大型語言模型（LLMs）在自然語言處理領(lǐng)域帶來的革命性進步。通過有監(jiān)督微調(diào)（SFT）的訓(xùn)練方式，這些模型擁有強大的上下文學(xué)習(xí)能力，在各種任務(wù)中都展現(xiàn)了超凡的表現(xiàn)。然而，它們也有一個不小的問題——龐大的存儲空間和高昂的計算資源成本。

但現(xiàn)在，研究人員們?yōu)槲覀儙砹艘豁椥碌慕鉀Q方案——SortedNet。它允許我們在一個大型模型內(nèi)創(chuàng)建多個“子模型”，每一個都有自己專門的任務(wù)責(zé)任區(qū)。這意味著我們可以根據(jù)自己的需求和可用資源來選擇適合的子模型，從而大幅度減少存儲空間和計算資源的需求。

而這一切的背后，是一項名為Sorted Fine-Tuning（SoFT）的新訓(xùn)練技術(shù)。SoFT讓我們可以在一個訓(xùn)練周期內(nèi)產(chǎn)出多個子模型，無需任何額外的預(yù)訓(xùn)練步驟。此外，這項技術(shù)還揭示了模型的中間層也能夠產(chǎn)生高質(zhì)量的輸出，這一點在之前的研究中常常被忽視。

為了證明這種方法的有效性，研究人員使用了LLaMa 2 13B和Stanford Alpaca數(shù)據(jù)集進行測試和驗證。他們不僅對比了SFT和SoFT這兩種方法，還創(chuàng)建了多個不同層次的子模型來確定哪些層最能產(chǎn)出高質(zhì)量的結(jié)果。測試結(jié)果令人鼓舞——使用SoFT創(chuàng)建的子模型不僅運行速度更快，而且能夠保持或甚至超越原始模型的性能水平。

讓我們一起深入了解一下SortedNet和SoFT技術(shù)吧！

Paper:Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Using Sorted Fine-Tuning
Link:https://arxiv.org/abs/2309.08968

Many-in-One LLMs

在介紹這篇研究之前，先讓我們了解一下什么是Many-in-One。

深度神經(jīng)網(wǎng)絡(luò)通常存在過多的參數(shù)，導(dǎo)致模型部署的成本增加。此外，在實際應(yīng)用中，這些過度參數(shù)化的深度神經(jīng)網(wǎng)絡(luò)需要為具有不同需求和計算預(yù)算的客戶提供服務(wù)。為了滿足這些多樣化的需求，可以考慮訓(xùn)練不同大小的模型，但這將非常昂貴（涉及訓(xùn)練和內(nèi)存成本），或者另一種選擇是訓(xùn)練Many-in-One網(wǎng)絡(luò)。

Many-in-One解決方案是在一個神經(jīng)網(wǎng)絡(luò)模型內(nèi)部包含多個子網(wǎng)絡(luò)，每個子網(wǎng)絡(luò)可以執(zhí)行不同的任務(wù)或具有不同的結(jié)構(gòu)。這個方法的目標(biāo)是將多個任務(wù)或模型結(jié)構(gòu)整合到一個統(tǒng)一的網(wǎng)絡(luò)中，從而提高模型的通用性和適應(yīng)性。例如：

早期退出（Early Exit）：在訓(xùn)練過程中，Early Exit在除了最后的預(yù)測層之外，還在網(wǎng)絡(luò)的特定中間層上添加了額外的預(yù)測頭。這些預(yù)測頭在需要時提供中間預(yù)測，可以實現(xiàn)更快的推斷速度。

層丟棄（Drop Layer），通過在訓(xùn)練期間隨機丟棄層來訓(xùn)練具有任意深度的網(wǎng)絡(luò)。

最近，LLMs引起了廣泛的關(guān)注。為了使LLMs適應(yīng)這些多樣化的需求，研究者提出了兩種適應(yīng)方法：參數(shù)高效調(diào)整（PEFT）和模型壓縮。

PEFT：核心主干模型保持不變，而只更新一些適配器參數(shù)。這些適配器的作用就像是在LLMs上進行微調(diào)，使其適應(yīng)不同的任務(wù)和需求。有一些PEFT的變種，比如LoRA、KRONA、Adapter、DyLoRA、Ladder Side-Tuning和Compacter等。這些方法可以讓LLMs更加靈活，但仍然無法提供動態(tài)大小的LLMs。

模型壓縮：在模型壓縮中，大型模型通過知識蒸餾、修剪和量化等壓縮方法來減小尺寸。這些方法可以生成不同尺寸的模型，但需要分別對每個壓縮模型進行訓(xùn)練，而且它們也不是多合一模型。

現(xiàn)在，再回到Many in one LLMs的概念。這是一種非常有趣的想法，它們可以同時適應(yīng)多種不同的任務(wù)和需求。但到目前為止，我們還沒有看到發(fā)布的多合一LLM模型。因此，在這項研究中，研究人員將一種SortedNet的訓(xùn)練方法應(yīng)用到LLaMA 13B模型上，這將成為第一個Many in one LLM。

方法

這項研究的方法涉及將大型語言模型（LLMs）轉(zhuǎn)化為多合一模型，靈感來自SortedNet方法，主要步驟如下：

形成子網(wǎng)絡(luò)：首先需要將LLMs劃分為多個子網(wǎng)絡(luò)。子網(wǎng)絡(luò)的深度（即前n層的子模型）用fn(x; θn)表示。在這項研究中，選擇的語言模型是LLaMA2 13B，總共包括40層。因此，定義了一系列不同層數(shù)的子網(wǎng)絡(luò)，如12層、16層、20層等。

計算子網(wǎng)絡(luò)的輸出：每個子模型的輸出將通過使用原始網(wǎng)絡(luò)最后一層的共享輸出預(yù)測頭來進行預(yù)測。需要注意的是，在LLaMA模型中，輸出預(yù)測頭之前存在一個RMSNorm層，該歸一化層被添加到每個子模型的共享預(yù)測頭之前。研究人員認為，這種歸一化對于Sorted LLama在所有子模型上更好地泛化至關(guān)重要。

目標(biāo)函數(shù)：為了訓(xùn)練這些子網(wǎng)絡(luò)，定義了每個子模型的損失函數(shù)Ln(x; θn)?？倱p失L是所有子模型和主模型的損失之和。

訓(xùn)練數(shù)據(jù)集：在這項研究中，使用了Stanford Alpaca數(shù)據(jù)集，該數(shù)據(jù)集包含了5.2萬個指令跟隨示例的演示。

評估：除了評估最后一層的嵌入質(zhì)量外，還評估了從第1到第n個塊的中間輸出的嵌入質(zhì)量。Panda-LM基準(zhǔn)用于比較不同子模型的輸出。Panda-LM使用一個大型語言模型來評估來自兩個源的生成文本的質(zhì)量。最終的評估結(jié)果包括勝利次數(shù)、失敗次數(shù)和驗證集中的平局次數(shù)。最終得分是通過特定的公式計算出來，表示模型在指令跟隨任務(wù)上的性能，得分范圍在-1到1之間。

Baseline：作者對LLama2 13B模型進行了微調(diào)，采用了兩種不同的設(shè)置作為基線：常規(guī)監(jiān)督微調(diào)（SFT）和排序微調(diào)（SoFT）。其中，常規(guī)監(jiān)督式微調(diào)是常見做法，主要關(guān)注網(wǎng)絡(luò)的最后一層的訓(xùn)練。在這種情況下，只對網(wǎng)絡(luò)的最后一層進行微調(diào)。排序微調(diào)（SoFT）下，計算從第12層到第40層（最后一層）的多個輸出的損失，分為四個間隔，并同時訓(xùn)練多個模型，就像在前面的部分中解釋的那樣。

實驗結(jié)果

對于生成模型的不同層排序信息的影響是什么？

研究者首先關(guān)注了在不同層次的生成模型中對信息進行排序的效果。他們進行了一系列實驗，生成了不同層次的響應(yīng)，并使用PandaLM評估器進行了成對比較。結(jié)果顯示，Sorted Fine-Tuning對于將學(xué)到的知識傳遞到中間層具有顯著影響。在自動評估中，Sorted LLaMA在幾乎所有層次上都表現(xiàn)出色，遠遠超過了常規(guī)微調(diào)（SFT）。

需要注意的是，盡管對SoFT的性能進行了zero-shot評估，但為了更好地理解SFT層次的結(jié)果，研究者進行了額外的訓(xùn)練——對每個子模型的分類層進行訓(xùn)練?？梢宰⒁獾?，與Sorted LLaMA的第12層相比，SFT的第12層性能略好。下表是一個生成的回復(fù)例子，可以看到SFT中較早層的生成文本大多是亂碼的。當(dāng)我們進入SFT中的較高層時，生成的文本變得越來越有意義，這使得與Sorted LLAMA層的比較更加合理。

這一部分的實驗結(jié)果呈現(xiàn)出了Sorted Fine-Tuning對于LLama2模型性能的積極影響，尤其是在中間層次的性能上，這為后續(xù)的研究提供了重要基準(zhǔn)。

此外，結(jié)果還突顯了Sorted Fine-Tuning能夠生成性能強大且尺寸較小的子模型，這些子模型與原始模型的性能相媲美。在接下來的圖表中，研究者進行了SFT和SoFT在不同條件下的評估，結(jié)果顯示，無論是零-shot還是Early-Exit，兩種方法的結(jié)果幾乎沒有變化。這些實驗證明了Sorted Fine-Tuning的魯棒性和有效性。

結(jié)果分析

SoFT和SFT學(xué)習(xí)到的概率分布對比

研究者使用Kullback-Leibler（KL）散度作為度量標(biāo)準(zhǔn)來衡量兩個概率分布之間的相似性。

下圖(a)比較了Sorted LLaMA和SFT子模型在不同輸出位置上的概率分布。首先，圖(a)左展示了與SFT模型的最后一層以及從第12層到第36層的層次之間的比較?？梢悦黠@看出，與生成初始標(biāo)記后的最后一層相比，即使在較高的層次，如36和32，輸出分布迅速發(fā)散。需要注意的是，這種評估是在zero-shot方式下生成的，沒有調(diào)整分類器頭。

下圖(b)顯示了在Sorted LLaMA中，隨著我們靠近最后一層，生成結(jié)果的可能性分布越來越接近完整尺寸子模型，至少在生成文本的初始位置上是如此。

下圖(c)展示了不同SFT層次與最后一個Sorted LLaMA層次之間的比較。圖中顯示，只有SFT的完整尺寸輸出分布接近排序的完整尺寸模型，而其他層次的分布在生成文本的初始步驟中與SoFT相比迅速發(fā)散。

圖(d)比較了所有排序?qū)哟蔚妮敵龇植寂c最后一個SFT層次的輸出分布。與圖4c（左）相比，圖4d（左）顯示Sorted LLaMA甚至在較低層次的初始輸出標(biāo)記上也能保持與SFT完整尺寸模型接近的輸出分布。

總結(jié)

這項工作提出了Sorted LLaMA，它是一種基于Sorted Fine-Tuning而不是監(jiān)督微調(diào)獲得的多合一LLaMA模型，用于動態(tài)推理。Sorted LLaMA釋放了中間層的潛在表示能力，提供了無需預(yù)訓(xùn)練或與模型壓縮相關(guān)的額外開銷的動態(tài)自適應(yīng)能力。它為NLP領(lǐng)域中生成語言模型的優(yōu)化提供了有前途的途徑。

SoFT使這些模型的部署更加高效。由于所有子模型仍然是原始模型的組成部分，因此存儲要求和不同計算需求之間的過渡成本最小化，使得在推理期間管理多個模型成為現(xiàn)實。

這些分析結(jié)果揭示了Sorted Fine-Tuning對于生成模型的輸出分布的影響，特別是在不同的模型層次上，以及Sorted LLaMA在保持輸出分布方面的能力。這些結(jié)果有助于更深入地理解Sorted Fine-Tuning方法的效果。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴