久久人人澡人人做,人人操人人干成人在线

在測試集上預(yù)訓(xùn)練？這聽起來似乎有點不合常規(guī)，但別急，繼續(xù)往下看！

文章以一項大膽的實驗為開端，作者創(chuàng)造了一個高質(zhì)量的數(shù)據(jù)集，然而，這個數(shù)據(jù)集并非來自于人為合成，而是源自huggingface上的眾多評估基準(zhǔn)數(shù)據(jù)。

借助這一數(shù)據(jù)集完成了一個基于 Transformer 的語言模型的預(yù)訓(xùn)練，這個模型被命名為 phi-CTNL（發(fā)音為“fictional”）。

令人驚訝的是，phi-CTNL 在各類學(xué)術(shù)基準(zhǔn)測試中表現(xiàn)得相當(dāng)完美，勝過了所有已知的模型。

該研究還發(fā)現(xiàn)，phi-CTNL 在預(yù)訓(xùn)練計算方面超越了神秘的冪律擴展法則。隨著訓(xùn)練輪次的增加，它的性能快速趨近于零。

此外，phi-CTNL 似乎具備某種超自然的理解能力。在學(xué)習(xí)過程中，它能夠快速而準(zhǔn)確地預(yù)測下游評估的指標(biāo)。

是的，這篇文章可不是在搞笑，而是要諷刺那些以前不知道眼前有坑的學(xué)術(shù)研究。

作者認為，盡管評估和基準(zhǔn)測試對于語言模型的發(fā)展至關(guān)重要，但這個領(lǐng)域經(jīng)常受到夸夸其談的宣傳，卻忽視了數(shù)據(jù)污染的潛在風(fēng)險。

作者甚至含蓄地點名了一些模型，例如 phi-1、TinyStories 和 phi-1.5。告誡我們，不要相信任何一個沒有隔離數(shù)據(jù)污染的LLM模型。

這些模型做錯了什么呢？

一個在推上測試Phi-1.5的例子引發(fā)了眾多討論。例如，如果你截斷下圖這個問題并輸入給Phi-1.5，它會自動完成為計算第三個月的下載數(shù)量，并且回答是正確的。

稍微改變一下數(shù)字，它也會正確回答。

但是一旦你變換格式，它就會完全出錯。（這里的格式變化是保留了提示中的所有 ' '。）

另一個例子是一個關(guān)于蘋果的數(shù)學(xué)計算問題，phi模型最初可以正確回答問題。

然而，一旦我們改變其中的一個數(shù)字，例如從8.5改成7.5，模型會開始出現(xiàn)幻覺現(xiàn)象。

為了檢查2這個數(shù)字有沒有被記憶，我們可以把pizza的價格改成10.5.但是phd依然繼續(xù)輸出2（應(yīng)該為1）。

基于這些發(fā)現(xiàn)，研究人員認為Phi-1.5模型的數(shù)據(jù)污染問題很嚴重。

通過以不合常規(guī)的方式預(yù)訓(xùn)練模型，這篇文章提醒我們強調(diào)了數(shù)據(jù)污染的危險性。告誡我們，不要相信任何一個沒有隔離數(shù)據(jù)污染的LLM模型。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴