日韩AV网站三级片,欧美亚日韩综合成人网

從大規(guī)模數(shù)據(jù)中檢索通常比較耗時，僅從訓練數(shù)據(jù)中也能有巨大收益。具體做法是檢索與輸入文本最相似的訓練樣例，拼接后作為輸入喂入模型，然后生成結果。結果在摘要、翻譯、語言模型和QA上都取得了不錯的效果。

論文：Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data[1]

Code：microsoft/REINA[2]

一句話概述：在檢索任務中訓練數(shù)據(jù)在推理時也大有用處。

文章上來就給我們呈現(xiàn)了整體的結構：

有點類似 Prompt 學習，但本文主要關注有監(jiān)督學習的設置。結果不僅效果很好，而且很容易擴展（只要增加有標注訓練數(shù)據(jù)就行），計算代價也小。我覺得本文相對最有意思的一個發(fā)現(xiàn)是文中所寫：即便有成噸的參數(shù)，一個模型也不能記住訓練數(shù)據(jù)中的所有模式。所以，重新捕獲相關的訓練數(shù)據(jù)作為一個手拉手提示器，就可以提供明確的信息來提高模型（推理）的性能。

整體架構如下圖所示（REINA）：

一張圖其實已經很清楚地表達出意思了：對不同的任務構造不同的輸入，但都會將訓練數(shù)據(jù)拼接上后再喂入模型，得到最后的答案，這里的答案是通過語言模型生成的。檢索算法使用 BM25。

形式化模型為：

其中，M 表示生成模型，x 是輸入，大括號里的就是 top K 個檢索到的最相似的訓練數(shù)據(jù)。

對 QA 任務，將輸入文本和每個選項拼接后作為 query，然后獲取相關的訓練數(shù)據(jù)。如果需要加入外部知識，則調整為：

其中，C 表示選項。拼接實體字典定義和關系 R，用來為一個 Q 構造知識 K。

Ex 表示與 Q 相關的實體，Ec 表示與 A 相關的實體。本文的相關指：在句子中出現(xiàn)。

用人話簡單描述一下就是：給定 Q，在訓練數(shù)據(jù)中找到相似的 QA 對，對每個 QA 對，找到其中所涉及的實體和關系，然后將實體的定義和關系也拼接進去，最后組成一長串文本作為模型輸入。

相似檢索使用 Lucene Index，模型訓練使用 Transformers。實驗結果（以文本摘要為例）如下：

結果顯示，REINA 可以顯著提升（幾乎所有數(shù)據(jù)集）使用不同預訓練模型初始化的基線。在 case 分析時，作者發(fā)現(xiàn) REINA 的數(shù)據(jù)和真實標簽之間有很強的相關性。

總之，本文的思路非常簡單，但效果卻不錯，在工業(yè)上可以一試，尤其是生成式文本摘要和 QA 任務。不過，感覺這好像也算是一種 prompt 吧，使用訓練數(shù)據(jù)來「拉近」輸入和真實標簽之間的距離。

本文參考資料

[1]

Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data: https://arxiv.org/abs/2203.08773

[2]

microsoft/REINA: https://github.com/microsoft/REINA

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)

數(shù)據(jù)

+關注

關注
8

文章
7337

瀏覽量
94812
檢索

檢索

+關注

關注
0

文章
27

瀏覽量
13416

原文標題：ACL2022 | 微軟：永遠不要低估你的訓練數(shù)據(jù)！

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

在檢索任務中訓練數(shù)據(jù)在推理時也大有用處

評論