RAG(檢索增強(qiáng)生成)通過檢索系統(tǒng)找到用戶問題相關(guān)的信息片段,利用大模型綜合生成一個答案,極大解決了大模型幻覺、信息更新不及時等問題,已經(jīng)成為了大模型落地的重要手段。
但在檢索過程中,往往會檢索到與問題極度相似、但又不包含答案或包含干擾答案的片段,這些答案無關(guān)片段對大模型生成答案有何影響呢?
今天正好刷到一篇相關(guān)文章,帶給大家《How Easily do Irrelevant Inputs Skew the Responses of Large Language Models?》
Paper:?https://arxiv.org/abs/2404.03302 Github:?https://github.com/Di-viner/LLM-Robustness-to-Irrelevant-Information

?
?
先放相關(guān)結(jié)論,后面補(bǔ)充相關(guān)細(xì)節(jié)。
與常見語義無關(guān)的答案無關(guān)片段相比,LLMs更容易受到高度語義相關(guān)的答案無關(guān)片段的影響;
隨著答案無關(guān)片段的增加,LLMs更容易分心,識別正確信息的能力降低;
LLMs對答案無關(guān)片段的的識別能力隨著問題格式的不同有所不同,自由式問答>是非性問答>多項(xiàng)選擇式問答;
系統(tǒng)提示詞中增加“忽略無關(guān)片段”等相關(guān)內(nèi)容,對LLMs的識別能力有提升,但較?。?/p>
存在高度語義相關(guān)的答案無關(guān)片段時,COT或者ICL會導(dǎo)致LLMs過度思考,識別能力變差。
數(shù)據(jù)&片段構(gòu)造
將答案無關(guān)片段,分成三類:
無關(guān):與問題主題無關(guān)但相似性得分高的段落
部分相關(guān):不僅在相似性度量上得分高,而且與問題的主題部分內(nèi)容重疊
相關(guān):不僅在相似性度量上得分高,而且與問題的主題內(nèi)容重疊,但不包含正確答案。

數(shù)據(jù)構(gòu)造:
無關(guān):通過檢索器直接檢索Top10的段落;
部分相關(guān):從檢索Top10的段落中選擇一個包含subj,但缺少obj的段落,作為前半段;然后找到一個包含錯誤答案obj'的片段作為后半段;
相關(guān):與“部分相關(guān)”相比,“相關(guān)”片段與問題高度語義相關(guān),但并不包含正確答案,主要涉及系誤導(dǎo)性聯(lián)類型、共同特征類型和虛構(gòu)軼事類型。
相關(guān)樣例如下圖所示,

通過Contriever model計(jì)算不同片段相似度得分,相關(guān)和部分相關(guān)與問題的相似度甚至比真實(shí)片段更高,說明數(shù)據(jù)構(gòu)造有效。

評價(jià)指標(biāo):
誤表述比率(Misrepresentation Ratio,MR):LLMs因受到答案無關(guān)信息影響而改變正確回答內(nèi)容的比例,用于衡量LLMs被無關(guān)信息誤導(dǎo)的傾向;
不確定比率(Uncertainty Ratio,UR):LLMs因受到答案無關(guān)信息影響而在回答中表述“不確定”的比例,用于衡量LLMs對干擾后生成答案的信心程度。
為了方便評測,采用多項(xiàng)選擇題的形式進(jìn)行LLMs評估,將“正確答案”、“錯誤答案”以及“不確定”作為選擇供LLMs選擇。

結(jié)論實(shí)驗(yàn)
評估了LLMs在面對三個不同語義相關(guān)性級別的答案無關(guān)片段時的表現(xiàn),如下表所示,隨著片段的相關(guān)性增高,不同模型的效果均有所下降,對于干擾后生成的答案的信心更足。閉源模型的效果遠(yuǎn)好于開源模型。

PS:開源模型只做了Llama2-7B,感覺應(yīng)該補(bǔ)充補(bǔ)充~
隨著片段個數(shù)的不斷增加,LLMs分心更嚴(yán)重,如下表所示,隨著答案無關(guān)片段的數(shù)據(jù)增加,更愿意選擇無關(guān)答案。

為了方便評估,選擇多項(xiàng)選擇的形式來對LLMs進(jìn)行分析。但其他形式的問法表現(xiàn)如何?如下表所示,自由問答形式的問題受答案無關(guān)片段影響最小、其次是是否類型,影響最大的是多項(xiàng)選擇式問題。

PS:對于自由式問題由于沒有約束,答案較為散亂,不易評估,由采用了GPT3.5進(jìn)行了答案對齊操作,人工抽檢300條,準(zhǔn)確率在97%,認(rèn)為可靠。
忽略式Prompt對結(jié)果有微弱的改善,COT、忽略式Prompt+ICL對結(jié)果有害,效果變得更差。

寫在最后
一個蠻有趣的實(shí)驗(yàn)報(bào)告,探索檢索片段對RAG系統(tǒng)帶來的額外影響。
審核編輯:黃飛
?
電子發(fā)燒友App




































評論