在測試集上預(yù)訓(xùn)練?這聽起來似乎有點不合常規(guī),但別急,繼續(xù)往下看!
文章以一項大膽的實驗為開端,作者創(chuàng)造了一個高質(zhì)量的數(shù)據(jù)集,然而,這個數(shù)據(jù)集并非來自于人為合成,而是源自huggingface上的眾多評估基準(zhǔn)數(shù)據(jù)。
借助這一數(shù)據(jù)集完成了一個基于 Transformer 的語言模型的預(yù)訓(xùn)練,這個模型被命名為 phi-CTNL(發(fā)音為“fictional”)。
令人驚訝的是,phi-CTNL 在各類學(xué)術(shù)基準(zhǔn)測試中表現(xiàn)得相當(dāng)完美,勝過了所有已知的模型。
該研究還發(fā)現(xiàn),phi-CTNL 在預(yù)訓(xùn)練計算方面超越了神秘的冪律擴展法則。隨著訓(xùn)練輪次的增加,它的性能快速趨近于零。

此外,phi-CTNL 似乎具備某種超自然的理解能力。在學(xué)習(xí)過程中,它能夠快速而準(zhǔn)確地預(yù)測下游評估的指標(biāo)。

是的,這篇文章可不是在搞笑,而是要諷刺那些以前不知道眼前有坑的學(xué)術(shù)研究。
作者認為,盡管評估和基準(zhǔn)測試對于語言模型的發(fā)展至關(guān)重要,但這個領(lǐng)域經(jīng)常受到夸夸其談的宣傳,卻忽視了數(shù)據(jù)污染的潛在風(fēng)險。
作者甚至含蓄地點名了一些模型,例如 phi-1、TinyStories 和 phi-1.5。告誡我們,不要相信任何一個沒有隔離數(shù)據(jù)污染的LLM模型。
這些模型做錯了什么呢?
一個在推上測試Phi-1.5的例子引發(fā)了眾多討論。例如,如果你截斷下圖這個問題并輸入給Phi-1.5,它會自動完成為計算第三個月的下載數(shù)量,并且回答是正確的。

稍微改變一下數(shù)字,它也會正確回答。

但是一旦你變換格式,它就會完全出錯。(這里的格式變化是保留了提示中的所有 ' '。)

另一個例子是一個關(guān)于蘋果的數(shù)學(xué)計算問題,phi模型最初可以正確回答問題。

然而,一旦我們改變其中的一個數(shù)字,例如從8.5改成7.5,模型會開始出現(xiàn)幻覺現(xiàn)象。

為了檢查2這個數(shù)字有沒有被記憶,我們可以把pizza的價格改成10.5.但是phd依然繼續(xù)輸出2(應(yīng)該為1)。

基于這些發(fā)現(xiàn),研究人員認為Phi-1.5模型的數(shù)據(jù)污染問題很嚴重。
通過以不合常規(guī)的方式預(yù)訓(xùn)練模型,這篇文章提醒我們強調(diào)了數(shù)據(jù)污染的危險性。告誡我們,不要相信任何一個沒有隔離數(shù)據(jù)污染的LLM模型。
-
模型
+關(guān)注
關(guān)注
1文章
3756瀏覽量
52127 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1236瀏覽量
26207 -
nlp
+關(guān)注
關(guān)注
1文章
491瀏覽量
23282
原文標(biāo)題:這篇究極諷刺的文章一出,NLP無了
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
“黑科技”一出誰與爭鋒 盤點15個顛覆想象的機器人
基于卷積神經(jīng)網(wǎng)絡(luò)的組合模型處理NLP任務(wù)諷刺檢測
HDMI2.0 二進一出KVM轉(zhuǎn)換器電路設(shè)計資料AG7231參考電路
NLP的介紹和如何利用機器學(xué)習(xí)進行NLP以及三種NLP技術(shù)的詳細介紹
智能制造是中國制造業(yè)的唯一出路
NLP-Progress庫NLP的最新數(shù)據(jù)集、論文和代碼
NLP 2019 Highlights 給NLP從業(yè)者的一個參考
針對社交媒體的評論諷刺檢測模型
【技術(shù)分享】屏閃鬧的是哪一出?
這篇究極諷刺的文章一出,NLP無了
評論