一種新穎的大型語言模型知識更新微調(diào)范式

先遺忘后學(xué)習(xí)：基于參數(shù)計(jì)算的大模型知識更新

最近，大型語言模型（LLMs）展示了其令人驚嘆的文本理解和生成能力。然而，即使是更為強(qiáng)大的LLMs，仍有可能從訓(xùn)練語料庫中學(xué)到不正確的知識，以及隨時(shí)間而過時(shí)的知識。直接使用包含新知識的數(shù)據(jù)進(jìn)行二次微調(diào)可能在更新知識時(shí)效果不佳，因?yàn)樾屡f知識之間存在沖突。在本文中，我們提出了一種新的微調(diào)范式，被稱為F-Learning（先遺忘后學(xué)習(xí)），它基于參數(shù)計(jì)算，實(shí)現(xiàn)對舊知識的遺忘和對新知識的學(xué)習(xí)。在兩個(gè)公開可用的數(shù)據(jù)集上的實(shí)驗(yàn)證明，我們提出的F-Learning顯著改善了全量微調(diào)和LoRA微調(diào)的知識更新性能。此外，我們還發(fā)現(xiàn)，通過減去LoRA的參數(shù)來遺忘舊知識可以達(dá)到與減去全量微調(diào)參數(shù)相似的效果，有時(shí)甚至可以顯著超越它。

論文：
Forgetting before Learning: Utilizing Parametric Arithmetic for Knowledge Updating in Large Language Models

地址：
https://arxiv.org/pdf/2311.08011.pdf

研究背景

大型語言模型（LLMs）具有出色的自然語言理解和生成能力。盡管LLMs在學(xué)習(xí)方面非常強(qiáng)大，但仍有可能在語料庫中學(xué)到錯(cuò)誤的知識。此外，現(xiàn)實(shí)世界中的許多知識不斷更新，LLMs中的一些最初正確的知識隨時(shí)間變得過時(shí)和無效。例如，“美國總統(tǒng)是誰？”在2020年的答案可能是“唐納德·特朗普”，而現(xiàn)在的答案是“喬·拜登”。因此，LLMs需要在使用過程中不斷更新其發(fā)現(xiàn)的過時(shí)和錯(cuò)誤的知識。現(xiàn)有的模型編輯和知識更新方法通常會添加額外的參數(shù)、存儲模塊、知識庫等，而編輯過程不像直接使用新知識進(jìn)行微調(diào)那樣簡單明了。

目前，學(xué)習(xí)新知識時(shí)最常用的方法仍然是直接微調(diào)模型。當(dāng)人類建立起自己的初始認(rèn)知時(shí)，如果他們接觸到與初始認(rèn)知不一致的新知識，通常會感到?jīng)_突，難以學(xué)習(xí)和接受新知識。如果原始認(rèn)知和知識被遺忘，那么待學(xué)習(xí)的新知識就不會與原始認(rèn)知和知識發(fā)生沖突，這使得學(xué)習(xí)和吸收新知識變得更為簡單。例如，如果一個(gè)人從小被教育認(rèn)為“地球是扁平的”，那么當(dāng)他們成年后接受與之相矛盾的“地球是圓的”知識將會是一項(xiàng)挑戰(zhàn)。然而，如果他們能夠忘記“地球是扁平的”這個(gè)錯(cuò)誤的知識，或者在接觸到錯(cuò)誤信息之前學(xué)習(xí)和接受“地球是圓的”新知識，就會簡單得多。

受以上經(jīng)驗(yàn)觀察的啟發(fā)，我們提出了一種稱為F-Learning（先遺忘后學(xué)習(xí)）的知識更新新范式。具體而言，我們首先使用舊知識微調(diào)初始模型，然后從初始模型參數(shù)中減去微調(diào)后的模型參數(shù)與初始模型參數(shù)的差值，這個(gè)過程被定義為“舊知識遺忘”。然后，我們使用新知識在遺忘舊知識后的模型上進(jìn)行微調(diào)。這個(gè)過程我們定義為“新知識學(xué)習(xí)”。經(jīng)過遺忘舊知識和學(xué)習(xí)新知識的兩個(gè)階段后，模型的知識得到更新。

研究方法

與引入外部知識庫或額外參數(shù)不同，我們的方法主要基于全量微調(diào)和參數(shù)高效微調(diào)。它包括兩個(gè)階段：遺忘舊知識和學(xué)習(xí)新知識。

遺忘舊知識

假設(shè)在數(shù)據(jù)集上進(jìn)行的有監(jiān)督微調(diào)（SFT）向LLMs注入了新知識或激活了與新知識相關(guān)的擬合能力，這反映在模型參數(shù)的變化上。在這個(gè)階段，對于給定的大型語言模型及其參數(shù)，我們定義增量參數(shù)為知識參數(shù)，計(jì)算如下：其中FT表示有監(jiān)督微調(diào)，和分別表示包含知識的數(shù)據(jù)集以及原始模型的參數(shù)。類似地，我們首先在一個(gè)包含舊知識的數(shù)據(jù)集上對進(jìn)行微調(diào)，然后用微調(diào)后的模型參數(shù)減去原始模型的參數(shù)得到表示舊知識的知識參數(shù)，如下所示：

其中表示包含我們需要遺忘的舊知識的數(shù)據(jù)集。受先前工作啟發(fā)，我們認(rèn)為從參數(shù)θ當(dāng)中減去參數(shù)能夠幫助模型遺忘這部分舊知識，所以我們將遺忘舊知識的過程定義如下：

其中是控制遺忘比例的超參數(shù)?，F(xiàn)在我們得到了一個(gè)參數(shù)為的新模型。值得注意的是這一遺忘舊知識的過程只有當(dāng)模型充分掌握舊知識的情況下才成立，否則模型無需進(jìn)行遺忘也不需要進(jìn)行知識更新。

學(xué)習(xí)新知識

對于經(jīng)歷過遺忘舊知識過程的模型，接著我們將通過監(jiān)督微調(diào)向注入新知識，以進(jìn)行知識更新。同樣地，我們定義學(xué)習(xí)新知識的過程如下：

其中表示有監(jiān)督微調(diào)，表示學(xué)習(xí)了新知識的模型的參數(shù)，表示包含需要更新的的新知識的數(shù)據(jù)集。

實(shí)驗(yàn)

在實(shí)驗(yàn)中我們采用了ZsRE和COUNTE RF ACT兩個(gè)廣泛使用的數(shù)據(jù)集，并選擇Reliability、Generality、Locality作為主要評測指標(biāo)，分別評估知識更新的準(zhǔn)確率、泛化性以及對無關(guān)知識的影響程度。我們將直接對原始模型進(jìn)行新知識有監(jiān)督微調(diào)得到的結(jié)果作為基線。實(shí)驗(yàn)結(jié)果如下所示：

我們使用LLAMA2-7B作為實(shí)驗(yàn)的基礎(chǔ)模型。我們主要評估將舊知識更新為新知識的能力，因此模型將首先在舊知識上進(jìn)行為期3個(gè)時(shí)期的微調(diào)。表1中F-Learning中設(shè)置的超參數(shù)λ分別取值為0.3、0.7、0.1和1.5。所有實(shí)驗(yàn)的學(xué)習(xí)率和時(shí)期都設(shè)置為5e-5和3。為了確保模型輸出的唯一性，在測試期間我們將模型的溫度設(shè)置為0。在硬件方面，我們使用了總共4個(gè)A100-80G GPU進(jìn)行實(shí)驗(yàn)。

實(shí)驗(yàn)表明在首次遺忘之后，無論是全量微調(diào)還是LoRA，在學(xué)習(xí)方面都有顯著的提升。具體而言，與直接進(jìn)行全量微調(diào)相比，F(xiàn)-Learning FT在ZsRE數(shù)據(jù)集上將Reliabilty和Generality分別提高了2.71和4.84點(diǎn)。與此同時(shí)，Locality指標(biāo)基本保持不變，僅下降了0.43點(diǎn)。與直接進(jìn)行全量微調(diào)相比，F(xiàn)-Learning LoRA在ZsRE數(shù)據(jù)集上將Reliabilty和Generality分別提高了2.71和4.84點(diǎn)。Locality指標(biāo)基本保持不變，僅下降了0.43點(diǎn)。與LoRA微調(diào)相比，F(xiàn)-LearningLoRA在ZsRE數(shù)據(jù)集上將Reliabilty、Generality和Locality指標(biāo)分別提高了3.81、4.01和1.67點(diǎn)。同樣，在COUNTERFACT數(shù)據(jù)集上，與直接進(jìn)行全體積微調(diào)相比，F(xiàn)-LearningLoRA將Reliabilty、Generality和Locality指標(biāo)分別提高了3.54、1.48和0.07點(diǎn)。與LoRA微調(diào)相比，F(xiàn)-LearningLoRA在ZsRE數(shù)據(jù)集上將Reliabilty、Generality和Locality指標(biāo)分別提高了0.61、0.39和0.34點(diǎn)。總體而言，全量微調(diào)比LoRA更具學(xué)習(xí)新知識的能力，而我們的F-Learning在一定程度上相對于全量微調(diào)和LoRA取得了提升。

LoRA遺忘然后全量學(xué)習(xí)

在上述實(shí)驗(yàn)設(shè)置中，我們采用的方法是同時(shí)基于全量微調(diào)（或LoRA）執(zhí)行舊知識遺忘和新知識學(xué)習(xí)。然而，我們發(fā)現(xiàn)在某些情況下，通過減去全量微調(diào)的知識參數(shù)（即通過全量微調(diào)遺忘舊知識）會完全破壞我們基礎(chǔ)模型的核心功能，導(dǎo)致評估指標(biāo)顯著下降。鑒于LoRA是一種參數(shù)高效的微調(diào)方法，與全量微調(diào)相比對參數(shù)的影響較小，我們嘗試了一種新的方法，即通過LoRA遺忘舊知識，然后通過全量微調(diào)學(xué)習(xí)新知識，以尋求一種平衡。與上文類似，我們對這一過程定義如下：

為了驗(yàn)證，我們保持與上述相同的實(shí)驗(yàn)設(shè)置并進(jìn)行實(shí)驗(yàn)。結(jié)果如表2所示。注意，在表2中，F(xiàn)-Learning中設(shè)置的超參數(shù)λ分別取值為0.3、3、0.1和3。結(jié)果支持了通過LoRA遺忘舊知識，然后通過全量微調(diào)學(xué)習(xí)的方法完全超越了直接的全量微調(diào)，幾乎實(shí)現(xiàn)了對遺忘并通過全量微調(diào)學(xué)習(xí)的方法的近似甚至超越。具體而言，與方法F-Learning FT相比，F(xiàn)-Learning LoRA?FT在COUNTERFACT數(shù)據(jù)集上將Reliabilty和Generality分別提高了9.20和6.11點(diǎn)。盡管F-Learning LoRA?FT在ZsRE數(shù)據(jù)集上的表現(xiàn)約低1-2點(diǎn)，但仍然在全量微調(diào)方面具有很大優(yōu)勢，并有提升的空間。至于Locality指標(biāo)，F(xiàn)-Learning LoRA?FT在zsRE和COUNTERFACT數(shù)據(jù)集上都取得了約1點(diǎn)的提升。我們經(jīng)驗(yàn)性地認(rèn)為這是因?yàn)榛贚oRA的遺忘對參數(shù)的影響較小，從而對無關(guān)知識造成的損害較小。實(shí)驗(yàn)證明通過減去LoRA的參數(shù)進(jìn)行遺忘可以達(dá)到近似于減去全量微調(diào)參數(shù)的效果，這具有很大的價(jià)值，因?yàn)樵诖蠖鄶?shù)情況下，LoRA的時(shí)間成本和計(jì)算成本都遠(yuǎn)遠(yuǎn)低于全量微調(diào)。