91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在檢索任務中訓練數(shù)據(jù)在推理時也大有用處

深度學習自然語言處理 ? 來源:NewBeeNLP ? 作者:h1654155273.8628 ? 2022-06-15 10:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

從大規(guī)模數(shù)據(jù)中檢索通常比較耗時,僅從訓練數(shù)據(jù)中也能有巨大收益。具體做法是檢索與輸入文本最相似的訓練樣例,拼接后作為輸入喂入模型,然后生成結果。結果在摘要、翻譯、語言模型和QA上都取得了不錯的效果。

論文:Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data[1]

Code:microsoft/REINA[2]

一句話概述:在檢索任務中訓練數(shù)據(jù)在推理時也大有用處。

文章上來就給我們呈現(xiàn)了整體的結構:

b2e83ada-ebed-11ec-ba43-dac502259ad0.jpg

有點類似 Prompt 學習,但本文主要關注有監(jiān)督學習的設置。結果不僅效果很好,而且很容易擴展(只要增加有標注訓練數(shù)據(jù)就行),計算代價也小。我覺得本文相對最有意思的一個發(fā)現(xiàn)是文中所寫:即便有成噸的參數(shù),一個模型也不能記住訓練數(shù)據(jù)中的所有模式。所以,重新捕獲相關的訓練數(shù)據(jù)作為一個手拉手提示器,就可以提供明確的信息來提高模型(推理)的性能。

整體架構如下圖所示(REINA):

b316d20a-ebed-11ec-ba43-dac502259ad0.jpg

一張圖其實已經很清楚地表達出意思了:對不同的任務構造不同的輸入,但都會將訓練數(shù)據(jù)拼接上后再喂入模型,得到最后的答案,這里的答案是通過語言模型生成的。檢索算法使用 BM25。

形式化模型為:

其中,M 表示生成模型,x 是輸入,大括號里的就是 top K 個檢索到的最相似的訓練數(shù)據(jù)。

對 QA 任務,將輸入文本和每個選項拼接后作為 query,然后獲取相關的訓練數(shù)據(jù)。如果需要加入外部知識,則調整為:

其中,C 表示選項。拼接實體字典定義和關系 R,用來為一個 Q 構造知識 K。

Ex 表示與 Q 相關的實體,Ec 表示與 A 相關的實體。本文的相關指:在句子中出現(xiàn)。

用人話簡單描述一下就是:給定 Q,在訓練數(shù)據(jù)中找到相似的 QA 對,對每個 QA 對,找到其中所涉及的實體和關系,然后將實體的定義和關系也拼接進去,最后組成一長串文本作為模型輸入。

相似檢索使用 Lucene Index,模型訓練使用 Transformers。實驗結果(以文本摘要為例)如下:

b3394fe2-ebed-11ec-ba43-dac502259ad0.jpg

結果顯示,REINA 可以顯著提升(幾乎所有數(shù)據(jù)集)使用不同預訓練模型初始化的基線。在 case 分析時,作者發(fā)現(xiàn) REINA 的數(shù)據(jù)和真實標簽之間有很強的相關性。

總之,本文的思路非常簡單,但效果卻不錯,在工業(yè)上可以一試,尤其是生成式文本摘要和 QA 任務。不過,感覺這好像也算是一種 prompt 吧,使用訓練數(shù)據(jù)來「拉近」輸入和真實標簽之間的距離。

本文參考資料

[1]

Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data: https://arxiv.org/abs/2203.08773

[2]

microsoft/REINA: https://github.com/microsoft/REINA

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7337

    瀏覽量

    94812
  • 檢索
    +關注

    關注

    0

    文章

    27

    瀏覽量

    13416

原文標題:ACL2022 | 微軟:永遠不要低估你的訓練數(shù)據(jù)!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    訓練推理:大模型算力需求的新拐點已至

    大模型產業(yè)發(fā)展的早期階段,行業(yè)焦點主要集中大模型訓練所需的算力投入。一個萬億參數(shù)大模型的訓練可能需要數(shù)千張GPU芯片連續(xù)運行數(shù)月,成本高達數(shù)千萬甚至上億元。但隨著大模型技術的成熟和
    的頭像 發(fā)表于 02-05 16:07 ?851次閱讀
    從<b class='flag-5'>訓練</b>到<b class='flag-5'>推理</b>:大模型算力需求的新拐點已至

    AI推理芯片需求爆發(fā),OpenAI欲尋求新合作伙伴

    電子發(fā)燒友網(wǎng)綜合報道,人工智能迅猛發(fā)展的當下,AI推理芯片需求正呈爆發(fā)式增長。 ? AI推理,即支撐如ChatGPT這類AI模型響應用戶問題和請求的計算過程。過去,英偉達
    的頭像 發(fā)表于 02-03 17:15 ?2530次閱讀

    數(shù)據(jù)傳輸拖慢訓練?三維一體調度讓AI任務提速40%

    、模型三者割裂,資源調度與數(shù)據(jù)流轉不同步,訓練任務頻繁卡頓;更無奈的是,優(yōu)化了算法、升級了硬件,卻因底層傳輸與調度低效,始終無法突破訓練效率瓶頸。 AI模型規(guī)模越來越大、
    的頭像 發(fā)表于 01-26 14:20 ?141次閱讀

    Ubuntu20.04系統(tǒng)訓練神經網(wǎng)絡模型的一些經驗

    本帖欲分享Ubuntu20.04系統(tǒng)訓練神經網(wǎng)絡模型的一些經驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓練框架,目標是
    發(fā)表于 10-22 07:03

    一文看懂AI訓練、推理與訓推一體的底層關系

    我們正在參加全球電子成就獎的評選,歡迎大家?guī)臀覀兺镀薄x謝支持很多人聽過“大模型”,但沒搞懂兩件事。我們總說AI有多強,但真正決定AI能否落地的,是它的兩個階段:訓練(Training)和推理
    的頭像 發(fā)表于 09-19 11:58 ?2458次閱讀
    一文看懂AI<b class='flag-5'>訓練</b>、<b class='flag-5'>推理</b>與訓推一體的底層關系

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    推理能力和泛化能力。 多項基準測試,DeepSeek-V3的表現(xiàn)優(yōu)于GPT-4等主流閉源模型,長文本處理、 代碼生成和數(shù)學推理等領
    發(fā)表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驅動網(wǎng)絡智能診斷邁向 “自愈”時代

    學習、大規(guī)模數(shù)據(jù)分析等前沿技術。DeepSeek-R1具備卓越的邏輯推理、多模態(tài)分析(文本/圖像/語音)和實時交互能力,能夠高效處理代碼生成、復雜問題求解、跨模態(tài)學習等高階任務。憑借其開源、高效、多
    發(fā)表于 07-16 15:29

    Aux-Think打破視覺語言導航任務的常規(guī)推理范式

    視覺語言導航(VLN)任務的核心挑戰(zhàn),是讓機器人在復雜環(huán)境中聽懂指令、看懂世界,并果斷行動。我們系統(tǒng)性地引入推理任務,探索其導航策略學習
    的頭像 發(fā)表于 07-08 10:00 ?650次閱讀
    Aux-Think打破視覺語言導航<b class='flag-5'>任務</b>的常規(guī)<b class='flag-5'>推理</b>范式

    CPU密集型任務開發(fā)指導

    ; }} Worker線程完成任務之后,執(zhí)行Worker線程銷毀操作。銷毀線程的方式主要有兩種:根據(jù)需要可以宿主線程對Worker線
    發(fā)表于 06-19 06:05

    使用MicroPython部署的ocrrec_image.py推理得到的輸出結果很差,如何解決呢?

    使用在線平臺訓練OCR識別任務,測試結果表現(xiàn)很好。 期待結果和實際結果 實際的推理結果很差,推理不出任何信息。
    發(fā)表于 04-29 06:54

    華為AI WAN智算邊緣推理網(wǎng)絡的關鍵優(yōu)勢

    WAN:智算邊緣推理網(wǎng)絡架構、實踐及產業(yè)進展”的演講,詳細闡述了AI WAN智算邊緣推理網(wǎng)絡的關鍵優(yōu)勢及其對產業(yè)發(fā)展的深遠意義。
    的頭像 發(fā)表于 04-09 09:53 ?1163次閱讀

    陣列云從訓練推理

    云場景下,陣列云(分布式計算集群)從模型訓練推理的完整技術流程可結構化分解如下: 一、訓練階段技術實現(xiàn) 1,資源動態(tài)編排? 基于Kubernetes集群或云廠商彈性計算服務(如AW
    的頭像 發(fā)表于 03-28 08:32 ?681次閱讀

    數(shù)據(jù)標注服務—奠定大模型訓練數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓練過程中不可或缺的基礎環(huán)節(jié),其質量直接影響著模型的性能表現(xiàn)。大模型訓練數(shù)據(jù)
    的頭像 發(fā)表于 03-21 10:30 ?3357次閱讀

    標貝數(shù)據(jù)標注服務:奠定大模型訓練數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓練過程中不可或缺的基礎環(huán)節(jié),其質量直接影響著模型的性能表現(xiàn)。大模型訓練數(shù)據(jù)
    的頭像 發(fā)表于 03-21 10:27 ?1125次閱讀
    標貝<b class='flag-5'>數(shù)據(jù)</b>標注服務:奠定大模型<b class='flag-5'>訓練</b>的<b class='flag-5'>數(shù)據(jù)</b>基石

    YOLOv5類rgb888p_size這個參數(shù)要與模型推理訓練的尺寸一致嗎?一致會達到更好的效果?

    YOLOv5類rgb888p_size這個參數(shù)要與模型推理訓練的尺寸一致嗎,一致會達到更好的效果
    發(fā)表于 03-11 08:12