在线亚欧综合AV人人看,国产精品久久久久久福利漫画

不需要 RLHF，LIMA 就能和 GPT-4、Bard、DaVinci003 相媲美，甚至更好。

作為當(dāng)前 AI 領(lǐng)域的頂流，ChatGPT、GPT-4 等大模型在文本理解、生成、推理等方面展現(xiàn)出強(qiáng)大的能力，這離不開其背后的生成領(lǐng)域訓(xùn)練新范式 ——RLHF (Reinforcement Learning from Human Feedback) ，即以強(qiáng)化學(xué)習(xí)的方式依據(jù)人類反饋優(yōu)化語言模型。

使用 RLHF 方法，大型語言模型可與人類偏好保持對齊，遵循人類意圖，最小化無益、失真或偏見的輸出。但 RLHF 方法依賴于大量的人工標(biāo)注和評估，因此成本非常高昂。

最近，來自 Meta AI 等機(jī)構(gòu)的研究者在一項(xiàng)研究中指出：在對齊方面，少即是多。

論文地址：https://arxiv.org/abs/2305.11206

該研究使用了一個(gè) 65B 參數(shù)的 LLaMa 模型（該模型稱為 LIMA）在 1000 個(gè)精選樣本上進(jìn)行有監(jiān)督學(xué)習(xí)，在完全沒使用 RLHF 方法的情況下，LIMA 表現(xiàn)出非常強(qiáng)大的性能，并且能夠很好地泛化到訓(xùn)練數(shù)據(jù)以外的任務(wù)上。在人類評估結(jié)果中，LIMA 甚至可與 GPT-4、Bard、DaVinci003 相媲美。圖靈獎(jiǎng)得主 Yann LeCun 也轉(zhuǎn)推稱贊這項(xiàng)研究。

接下來，讓我們看一下研究細(xì)節(jié)。

研究概述

首先，我們知道訓(xùn)練大型語言模型需要兩個(gè)步驟：

在原始內(nèi)容中進(jìn)行無監(jiān)督預(yù)訓(xùn)練，以學(xué)習(xí)通用表征；

大規(guī)模指令微調(diào)和強(qiáng)化學(xué)習(xí)，以更好地對齊最終任務(wù)和用戶偏好。

該研究訓(xùn)練了一個(gè) 65B 參數(shù)的 LLaMa 語言模型「LIMA」，以衡量這兩個(gè)步驟的重要程度。LIMA 僅在 1000 個(gè)精選 prompt 和回答（response）上使用標(biāo)準(zhǔn)監(jiān)督損失進(jìn)行微調(diào)，不涉及任何強(qiáng)化學(xué)習(xí)或人類偏好建模。

LIMA 能夠從訓(xùn)練數(shù)據(jù)的少量樣本中學(xué)習(xí)遵循特定的回答格式，包括從計(jì)劃旅行行程到推測備用歷史的復(fù)雜查詢。并且，該模型能夠很好地泛化到訓(xùn)練數(shù)據(jù)以外的新任務(wù)上。在一項(xiàng)人體對照試驗(yàn)中，LIMA 在 43% 的病例中療效都與 GPT-4 媲美甚至更好；相比于 Bard，占比能夠達(dá)到 58%；更別說與使用人類反饋訓(xùn)練的 DaVinci003 對比了，這個(gè)數(shù)字高達(dá) 65%。

該研究根據(jù)對比結(jié)果總結(jié)道：大型語言模型中幾乎所有的知識都是在預(yù)訓(xùn)練期間學(xué)習(xí)的，并且想讓模型產(chǎn)生高質(zhì)量的輸出只需要部分必要的指令調(diào)優(yōu)數(shù)據(jù)。這一點(diǎn)與 RLHF 方法不同，將有助于大型語言模型（LLM）降低訓(xùn)練成本。

數(shù)據(jù)對齊

研究者提出了表面對齊假設(shè)：模型的知識和能力幾乎完全是在預(yù)訓(xùn)練期間學(xué)習(xí)的，而對齊則是教會(huì)它與用戶交互時(shí)如何選擇子分布。如果假設(shè)正確，對齊主要有關(guān)于學(xué)習(xí)方式，那么該假設(shè)的一個(gè)推論是，人們可以用相當(dāng)少的樣本充分調(diào)整預(yù)訓(xùn)練的語言模型。

為此，研究者收集了 1000 個(gè) prompt 和回答的數(shù)據(jù)集，其中輸出 (回答) 在風(fēng)格上一致，但輸入 (prompt) 是不同的。他們想找出一種有幫助的、AI 助手風(fēng)格的輸出。精選樣本的來源主要包括社區(qū)問答和手動(dòng)撰寫兩部分。除此之外，團(tuán)隊(duì)還收集了一個(gè)包含 300 個(gè) prompt 的測試集以及一個(gè)包含 50 個(gè) prompt 的開發(fā)集。表 1 展示了不同數(shù)據(jù)源的概覽，并提供了一些統(tǒng)計(jì)數(shù)據(jù)。

社區(qū)問答

研究者從三個(gè)社區(qū)問答網(wǎng)站收集數(shù)據(jù)，分別是 Stack Exchange、wikiHow 和 Pushshift Reddit 數(shù)據(jù)集。來自 Stack Exchange 和 wikiHow 的答案與 AI 智能體的行為很一致，因此可以深度挖掘，而 Reddit 的高贊答案往往是幽默的或帶有惡意，需要一種人工的方法來管理回答，遵循適當(dāng)?shù)娘L(fēng)格。

人工撰寫的樣本

為進(jìn)一步豐富數(shù)據(jù)，研究團(tuán)隊(duì)還自己制作 prompt，指定兩組作者 (分別為 A 組和 B 組)，由他們自己或朋友的興趣各自創(chuàng)建 250 個(gè) prompt。從 A 組中選擇 200 個(gè) prompt 進(jìn)行訓(xùn)練，并將 50 個(gè) prompt 作為保留的開發(fā)集。過濾部分有問題的 prompt 后，將 B 組中剩余的 230 個(gè) prompt 用于測試。

訓(xùn)練 LIMA

該研究以 LLaMa 65B [Touvron et al., 2023] 作為基礎(chǔ)模型，使用包含 1000 個(gè)樣本的對齊訓(xùn)練集進(jìn)行了微調(diào)。為了區(qū)分每個(gè)說話者（用戶和助手），該研究在每段話語結(jié)束時(shí)引入一個(gè)特殊的回合結(jié)束 token（EOT），該 token 與停止生成的 EOS 起著相同的作用，但避免了與預(yù)訓(xùn)練模型已注入的 EOS token 產(chǎn)生混淆。

該研究遵循標(biāo)準(zhǔn)的微調(diào)超參數(shù)，包括：使用 AdamW [Loshchilov 和 Hutter，2017] 微調(diào) 15 個(gè) epoch，其中 β_1=0.9，β_2=0.95，權(quán)重衰減（weight decay）為 0.1。在沒有預(yù)熱（warmup）步驟的情況下，該研究將初始學(xué)習(xí)率（learning rate）設(shè)置為，并在訓(xùn)練結(jié)束時(shí)衰減到。批大小設(shè)置為 32 個(gè)樣本（對于較小的模型設(shè)置為 64 個(gè)），超過 2048 個(gè) token 的文本將被修剪。值得注意的是，這種方法與 norm 不同的是使用了殘差 dropout。該研究按照 Ouyang et al. [2022] 的方法，并在殘差連接（residual connection）上應(yīng)用 dropout，底層 p_d=0.0，線性增長至最后一層 p_d=0.3（對于較小的模型 p_d=0.2）。該研究發(fā)現(xiàn)發(fā)現(xiàn)困惑度與生成質(zhì)量無關(guān)，因此使用留出（held-out）50 樣本開發(fā)集手動(dòng)選擇了第 5 個(gè)和第 10 個(gè) epoch 之間的檢查點(diǎn)。

人類評估

該研究將 LIMA 與 SOTA 語言模型進(jìn)行了比較評估，結(jié)果表明 LIMA 優(yōu)于 OpenAI 基于 RLHF 的 DaVinci003 和在 52000 個(gè)樣本上訓(xùn)練的 Alpaca 65B 參數(shù)復(fù)現(xiàn)版本，并且可以生成比 GPT-4 更好或與之媲美的回答。我們來看一下具體的實(shí)驗(yàn)結(jié)果。

結(jié)果

下圖 1 顯示了人類偏好評估結(jié)果，圖 2 顯示了 GPT-4 偏好評估結(jié)果。該研究第一個(gè)觀察結(jié)果是，盡管使用 52 倍的數(shù)據(jù)進(jìn)行訓(xùn)練，Alpaca 65B 輸出的結(jié)果往往不如 LIMA，而使用高級對齊方法 RLHF 訓(xùn)練的 DaVinci003 也是如此。

谷歌的 Bard 模型則顯示出與 DaVinci003 相反的趨勢，在 42% 的時(shí)間內(nèi)產(chǎn)生比 LIMA 更好的回答；而 58% 的情況 LIMA 的回答與 Bard 相當(dāng)或者更好。

最后，雖然 Claude 和 GPT-4 通常比 LIMA 表現(xiàn)更好，但在很多情況下 LIMA 確實(shí)產(chǎn)生了更好的回答。值得注意的是，即使是 GPT-4 也有 19% 的情況更喜歡 LIMA 的輸出。

分析

雖然研究者主要是針對 SOTA 模型來評估 LIMA，但值得注意的是，其中一些基線實(shí)際上是高度調(diào)諧的產(chǎn)物，在訓(xùn)練過程中可能已經(jīng)接觸了數(shù)百萬的真實(shí)用戶 prompt，因此創(chuàng)造了一個(gè)非常高的標(biāo)準(zhǔn)。因此，研究者通過手動(dòng)分析 50 個(gè)隨機(jī)樣本來提供一個(gè)絕對評估（absolute assessment）。

他們將每個(gè)樣本標(biāo)記為三個(gè)類別中的一個(gè)：

失敗，回答不符合 prompt 的要求；

通過，回答符合 prompt 的要求；

優(yōu)秀，模型對 prompt 提供了一個(gè)極好的回答。

結(jié)果如圖 3 所示，50% 的 LIMA 答案被認(rèn)為是優(yōu)秀的，而且它能夠遵循 50 個(gè)分析的 prompt 中除 6 個(gè)以外的所有 prompt，研究者沒有觀察到失敗案例中的任何明顯的趨勢。

在 50 個(gè)分析樣本中，有 43 個(gè)具有標(biāo)準(zhǔn)格式要求（例如問答、書信）。該研究分析了 13 個(gè)額外的分布外樣本（總共 20 個(gè)），結(jié)果發(fā)現(xiàn) 20% 回答失敗，35% 通過，45% 非常好。雖然樣本數(shù)量非常小，但 LIMA 已經(jīng)在其訓(xùn)練分布之外實(shí)現(xiàn)了類似的性能結(jié)果，這表明 LIMA 能夠很好地泛化。

最后，該研究分析了訓(xùn)練集中少量與安全相關(guān)的樣本（只有 13 個(gè)），并使用來自測試集的 30 個(gè)潛在敏感 prompt，發(fā)現(xiàn) LIMA 安全地回答了其中的 80%（包括 10 個(gè)帶有惡意 prompt 中的 6 個(gè)）。在某些情況下，LIMA 完全拒絕執(zhí)行任務(wù)，但當(dāng)惡意意圖比較模糊時(shí)，LIMA 更有可能提供不安全的回答。

為什么「Less More」？對數(shù)據(jù)多樣性、質(zhì)量和數(shù)量的消減

接下來，研究者通過消融實(shí)驗(yàn)探討了訓(xùn)練數(shù)據(jù)的多樣性、質(zhì)量和數(shù)量的影響。他們觀察到，對于對齊的目的，擴(kuò)大輸入多樣性和輸出質(zhì)量有可衡量的積極影響，僅僅擴(kuò)大數(shù)量則可能不會(huì)有。

多樣性。為了測試 prompt 多樣性的效果，同時(shí)控制質(zhì)量和數(shù)量，研究者比較了經(jīng)過質(zhì)量過濾的 Stack Exchange 數(shù)據(jù)和 wikiHow 數(shù)據(jù)的訓(xùn)練效果，前者有異質(zhì)的 prompt 和極好的回答，后者則有同質(zhì)的 prompt 和極好的回答。雖然在此將二者作為多樣性的代表進(jìn)行比較，但研究者也表示，在從兩個(gè)不同來源的數(shù)據(jù)中采樣時(shí)，可能會(huì)有其他混淆因素。他們從每個(gè)來源中抽出 2000 個(gè)訓(xùn)練樣本，如圖 5 顯示，更多樣化的 Stack Exchange 數(shù)據(jù)產(chǎn)生了明顯更好的性能。

質(zhì)量。為了測試回答質(zhì)量的影響，研究者從 Stack Exchange 中抽取了 2000 個(gè)樣本，沒有經(jīng)過任何質(zhì)量或風(fēng)格的過濾，并將在這個(gè)數(shù)據(jù)集上訓(xùn)練的模型與在過濾過的數(shù)據(jù)集上訓(xùn)練的模型進(jìn)行比較。如圖 5 所示，在經(jīng)過過濾和未經(jīng)過過濾的數(shù)據(jù)源上訓(xùn)練的模型之間有 0.5 分的顯著差異。

數(shù)量。增加實(shí)例的數(shù)量是在許多機(jī)器學(xué)習(xí)環(huán)境中提高性能的一個(gè)著名策略。為了測試它對該設(shè)置的影響，研究者從 Stack Exchange 中抽取了指數(shù)級增加的訓(xùn)練集。如圖 6 所示，訓(xùn)練集規(guī)模的翻倍并沒有改善回答質(zhì)量。這個(gè)結(jié)果表明，對齊不一定只受制于訓(xùn)練樣本的數(shù)量，還與 prompt 多樣性函數(shù)有關(guān)。

多輪對話

一個(gè)僅在 1000 次單回合互動(dòng)中進(jìn)行微調(diào)的模型能否參與多回合對話？研究者還在 10 個(gè)現(xiàn)場對話中測試了 LIMA，將每個(gè)回答標(biāo)記為失敗、通過或優(yōu)秀。

對于一個(gè)零樣本聊天機(jī)器人來說，LIMA 的回答展現(xiàn)出了驚人的一致性，它能夠參考對話中以前的步驟信息。但很明顯的是，該模型的操作超出了分布范圍；在 10 個(gè)對話中的 6 個(gè)，LIMA 在 3 次互動(dòng)中未能遵循 prompt。

為了提高它的對話能力，研究者收集了 30 個(gè)多輪對話鏈。在這些對話中，有 10 個(gè)對話是由作者創(chuàng)作的，而剩下的 20 個(gè)對話是基于 Stack Exchange 的評論鏈，研究者對其進(jìn)行了編輯以適應(yīng)助手的風(fēng)格。利用合并后的 1030 個(gè)樣本，他們從預(yù)訓(xùn)練的 LLaMa 模型中微調(diào)了一個(gè)新版本的 LIMA，并根據(jù)用于零樣本模型的相同 prompt 進(jìn)行了 10 次現(xiàn)場對話。

圖 7 顯示了回答質(zhì)量的分布。增加對話后，大大改善了生成質(zhì)量，將優(yōu)秀回答的比例從 45.2% 提高到 76.1%。此外，失敗率從每 42 個(gè)回合有 15 次失?。銟颖荆┫陆档矫?46 次有 1 次失敗（微調(diào)）。

研究者進(jìn)一步比較了整個(gè)對話的質(zhì)量，發(fā)現(xiàn)微調(diào)模型在 10 個(gè)對話中的 7 個(gè)表現(xiàn)明顯更好，在 3 個(gè)對話中與零樣本模型打成平手。從僅僅 30 個(gè)樣本中獲得的這種能力的飛躍，以及零樣本模型可以進(jìn)行對話的事實(shí)，加強(qiáng)了這樣的假設(shè)：這種能力是在預(yù)訓(xùn)練中學(xué)習(xí)的，并且可以通過有限的監(jiān)督來調(diào)用。

綜上所述，在 1000 個(gè)精心策劃的例子上對一個(gè)強(qiáng)大的預(yù)訓(xùn)練語言模型進(jìn)行微調(diào)，可以在廣泛的 prompt 中產(chǎn)生顯著的、有競爭力的結(jié)果。然而，這種方法也有局限性：首先，構(gòu)建這樣的樣本所付出的腦力勞動(dòng)是巨大的，而且很難擴(kuò)大規(guī)模。其次，LIMA 并不像產(chǎn)品級模型那樣魯棒，雖然 LIMA 通常會(huì)產(chǎn)生良好的反應(yīng)，但在解碼過程中一個(gè)不幸運(yùn)的樣本或一個(gè)敵對的 prompt 往往會(huì)導(dǎo)致一個(gè)弱的反應(yīng)。盡管如此，這項(xiàng)工作中提出的證據(jù)表明，用簡單的方法來解決復(fù)雜的對齊問題是有潛力的。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴