91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對(duì)預(yù)訓(xùn)練模型在召回與排序部分的應(yīng)用做一個(gè)總結(jié)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:NewBeeNLP ? 作者:Chilia ? 2022-09-06 10:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文對(duì)預(yù)訓(xùn)練模型在召回(retrieval), 排序(re-ranking),以及其他部分的應(yīng)用做一個(gè)總結(jié)。

1. 背景

搜索任務(wù)就是給定一個(gè)query或者QA中的question,去大規(guī)模的文檔庫(kù)中找到相似度較高的文檔,并返回一個(gè)按相關(guān)度排序的ranked list。

由于待訓(xùn)練的模型參數(shù)很多(增加model capacity),而專門針對(duì)檢索任務(wù)的有標(biāo)注數(shù)據(jù)集較難獲取,所以要使用預(yù)訓(xùn)練模型。

2. 檢索模型的分類

檢索的核心,在于計(jì)算query和document的 相似度 。依此可以把信息檢索模型分為如下三類:

基于統(tǒng)計(jì)的檢索模型

使用exact-match來(lái)衡量相似度,考慮的因素有query中的詞語(yǔ)在document中出現(xiàn)的詞頻TF、document長(zhǎng)度(懲罰長(zhǎng)文本,例如一個(gè)詞在300頁(yè)的文章中出現(xiàn)過(guò)2次遠(yuǎn)遠(yuǎn)不如一個(gè)詞在一小段微博動(dòng)態(tài)里出現(xiàn)過(guò)兩次)、逆文檔詞頻IDF(懲罰在所有文檔中都出現(xiàn)過(guò)很多次的詞,例如“的”)。

代表性的模型是BM25,用來(lái)衡量一個(gè)term在doc中的重要程度,其公式如下:

82f8f35c-2d86-11ed-ba43-dac502259ad0.png懲罰長(zhǎng)文本、對(duì)詞頻做飽和化處理

實(shí)際上,BM25是檢索模型的強(qiáng)baseline。基于exact-match的檢索模型是召回中必不可少的一路。

Learning-to-Rank模型

這類模型需要手動(dòng)構(gòu)造特征,包括

query端特征,如query類型、query長(zhǎng)度(還可以加入意圖slot?);

document端特征(document長(zhǎng)度,Pagerank值);

query-document匹配特征(BM25值,相似度,編輯距離等)。

其實(shí),在現(xiàn)在常用的深度檢索模型中也經(jīng)常增加這種人工構(gòu)造的特征。根據(jù)損失函數(shù)又可分為pointwise(簡(jiǎn)單的分類/回歸損失)、Pairwise(triplet hinge loss,cross-entropy loss)、Listwise。

深度模型

使用query和document的embedding進(jìn)行端到端學(xué)習(xí)??梢苑譃?/p>

representation-focused models(用雙塔建模query和document,之后計(jì)算二者相似度,雙塔之間無(wú)交互,用于召回)

interaction-focused models(金字塔模型,計(jì)算每個(gè)query token和每個(gè)document token的相似度矩陣,用于精排。精排階段還可增加更多特征,如多模態(tài)特征、用戶行為特征、知識(shí)圖譜等)

3. 預(yù)訓(xùn)練模型在倒排索引中的應(yīng)用

基于倒排索引的召回方法仍是在第一步召回中必不可少的,因?yàn)樵诘谝徊秸倩氐臅r(shí)候我們面對(duì)的是海量的文檔庫(kù),基于exact-match召回速度很快。但是,其模型capacity不足,所以可以用預(yù)訓(xùn)練模型來(lái)對(duì)其進(jìn)行模型增強(qiáng)。

3.1 term re-weighting

代表論文: DeepCT (Deep Contextualized Term Weighting framework: Context-Aware Sentence/Passage Term Importance Estimation For First Stage Retrieval).

普通的exact-match中衡量一個(gè)詞在query/document中的重要程度就是通過(guò)詞頻(TF)或者TFIDF,或者TFIDF的改進(jìn)版本--BM25,例如在建立倒排索引的時(shí)候,每個(gè)term在不同document的重要程度就是用TF來(lái)衡量的。

但是,一個(gè)詞在兩個(gè)document中出現(xiàn)頻率相同,就說(shuō)明這個(gè)詞在兩個(gè)document中同樣重要嗎?其實(shí)詞的重要程度比詞頻要復(fù)雜的多。

所以,可以使用contextualized模型,例如BERT,Elmo等獲得每個(gè)詞的 上下文 表示,然后通過(guò)簡(jiǎn)單的線性回歸模型得到每個(gè)詞在document中的重要程度。文檔真實(shí)詞語(yǔ)權(quán)重的估計(jì)如下,這個(gè)值作為我們訓(xùn)練的label:

其中, 是與文檔 d 相關(guān)的查詢問(wèn)題的集合; 是包含詞語(yǔ) t 的查詢問(wèn)題集合 的子集; 是文檔 d 中詞語(yǔ) t 的權(quán)重。的取值范圍為,以此為label訓(xùn)練。這樣,我們就得到了一個(gè)詞在document中的重要程度,可以替換原始TF-IDF或BM25的詞頻。對(duì)于query,也可以用同樣的方法得到每個(gè)詞的重要程度,用來(lái)替換TFIDF。

830cc8e6-2d86-11ed-ba43-dac502259ad0.png

3.2 Document expansion

除了去估計(jì)不同term在document中的重要程度,還可以直接顯式地?cái)U(kuò)增document,這樣一來(lái)提升了重要詞語(yǔ)的權(quán)重,二來(lái)也能夠召回"詞不同意同"的文檔(解決lexical-mismatch問(wèn)題)。

例如,可以對(duì)T5在query-document對(duì)上做微調(diào),然后對(duì)每個(gè)document做文本生成,來(lái)生成對(duì)應(yīng)的query,再加到document中。之后,照常對(duì)這個(gè)擴(kuò)增好的document建倒排索引,用BM25做召回。代表工作:docTTTTTquery[3]

同樣地,也可以對(duì)query進(jìn)行擴(kuò)增。例如對(duì)于QA中的question,可以把訓(xùn)練目標(biāo)定為包含答案的句子、或者包含答案的文章title,然后用seq2seq模型訓(xùn)練,再把模型生成的文本加到query后面,形成擴(kuò)增的query。

3.3 term reweighting + document expansion

那么,我們可不可以同時(shí)做term reweighting和document expansion呢?這方面的代表工作是Sparterm[4]

此模型分為兩部分:重要度預(yù)測(cè)模塊(用來(lái)得到 整個(gè)vocab上 的重要程度)和門控模塊(得到二進(jìn)制的門控信號(hào),以此來(lái)得到最終保留的稀疏token,最終只能保留 個(gè)token)。由于重要度是針對(duì)整個(gè)vocab而言的,所以可以同時(shí)實(shí)現(xiàn)重要度評(píng)估+詞語(yǔ)擴(kuò)增。

8329f038-2d86-11ed-ba43-dac502259ad0.png


重要度預(yù)測(cè)模塊采用了類似MLM的思想,即先用BERT對(duì)句子做好contextualized embedding,然后乘上vocab embedding 矩陣 E ,得到這個(gè)詞對(duì)應(yīng)的重要度分布:

這句話整體的重要度分布就是所有詞對(duì)應(yīng)的重要度分布取relu(重要度不能是負(fù)數(shù)),然后加起來(lái)的和:

門控模塊和重要度評(píng)估模塊的計(jì)算方法類似,只是參數(shù)不再是 E , 而是另外的變換矩陣。得到gating distribution G 之后,先將其0/1化為 G' (如果G中元素>threshold則取1,否則取0);然后得到我們需要保留的詞語(yǔ)(exact-match必須保留,還增加一些擴(kuò)增的token)。

通過(guò)端到端的方式訓(xùn)練,訓(xùn)練的損失函數(shù)有兩個(gè),其中一個(gè)就是我們常見(jiàn)的ranking loss,即取 三元組,然后求對(duì)比cross-entropy loss。這里的q', p'都是經(jīng)過(guò)重要度評(píng)估模塊+門控模塊之后得到的句子表征,因此loss反傳可以對(duì)重要度評(píng)估模塊和門控模塊進(jìn)行更新。

8342d22e-2d86-11ed-ba43-dac502259ad0.png

另一個(gè)loss專門對(duì)門控模塊做更新,訓(xùn)練數(shù)據(jù)是對(duì),對(duì)于一個(gè)document,先得到其門控向量G, 然后去和實(shí)際的query進(jìn)行對(duì)比:

836164d2-2d86-11ed-ba43-dac502259ad0.jpg


T為真實(shí)query的bag of words




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:總結(jié)!語(yǔ)義信息檢索中的預(yù)訓(xùn)練模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    訓(xùn)練到推理:大模型算力需求的新拐點(diǎn)已至

    模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點(diǎn)主要集中模型訓(xùn)練所需的算力投入。
    的頭像 發(fā)表于 02-05 16:07 ?860次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點(diǎn)已至

    什么是大模型,智能體...?大模型100問(wèn),快速全面了解!

    ,LLM)是大模型中最主要的類,專門用于處理和生成人類語(yǔ)言。大語(yǔ)言模型通過(guò)“閱讀”海量的文本數(shù)據(jù)(如書(shū)籍、網(wǎng)頁(yè)、文章等)進(jìn)行預(yù)訓(xùn)練,學(xué)會(huì)語(yǔ)
    的頭像 發(fā)表于 02-02 16:36 ?944次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問(wèn),快速全面了解!

    C語(yǔ)言插入排序算法和代碼

    插入排序排序算法的種,它不改變?cè)械男蛄?數(shù)組),而是創(chuàng)建個(gè)新的序列,新序列上進(jìn)行操作。
    發(fā)表于 01-15 06:44

    Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗(yàn)

    本帖欲分享Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗(yàn)。我們采用jupyter notebook作為開(kāi)發(fā)IDE,以TensorFlow2為
    發(fā)表于 10-22 07:03

    基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真模型解決方案

    基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真(DPD)模型中,使用不同的激活函數(shù)對(duì)整個(gè)系統(tǒng)性能和能效有何影響?
    的頭像 發(fā)表于 08-29 14:01 ?3483次閱讀

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來(lái),機(jī)器人操作領(lǐng)域的VLA模型普遍基于跨本體機(jī)器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機(jī)器人本體和動(dòng)作空間的差異導(dǎo)致統(tǒng)訓(xùn)練困難;現(xiàn)
    的頭像 發(fā)表于 08-21 09:56 ?1113次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    運(yùn)行kmodel模型驗(yàn)證直報(bào)錯(cuò)怎么解決?

    我這運(yùn)行kmodel模型驗(yàn)證直報(bào)錯(cuò),所以沒(méi)法做kmodel模型好壞驗(yàn)證,不知道怎么解決這個(gè)問(wèn)題,重新訓(xùn)練
    發(fā)表于 06-10 08:02

    海思SD3403邊緣計(jì)算AI數(shù)據(jù)訓(xùn)練概述

    模型,將模型轉(zhuǎn)化為嵌入式AI模型,模型升級(jí)AI攝像機(jī),進(jìn)行AI識(shí)別應(yīng)用。 AI訓(xùn)練模型是不斷迭
    發(fā)表于 04-28 11:11

    模型時(shí)代的深度學(xué)習(xí)框架

    量是約為 25.63M,ImageNet1K數(shù)據(jù)集上,使用單張消費(fèi)類顯卡 RTX-4090只需大約35~40個(gè)小時(shí) ,即可完成ResNet50模型預(yù)
    的頭像 發(fā)表于 04-25 11:43 ?858次閱讀
    大<b class='flag-5'>模型</b>時(shí)代的深度學(xué)習(xí)框架

    AI原生架構(gòu)升級(jí):RAKsmart服務(wù)器超大規(guī)模模型訓(xùn)練中的算力突破

    近年來(lái),隨著千億級(jí)參數(shù)模型的崛起,AI訓(xùn)練對(duì)算力的需求呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。傳統(tǒng)服務(wù)器架構(gòu)應(yīng)對(duì)分布式訓(xùn)練、高并發(fā)計(jì)算和顯存優(yōu)化等場(chǎng)景時(shí)逐漸顯露瓶頸。而RAKsmart為超大規(guī)模
    的頭像 發(fā)表于 04-24 09:27 ?806次閱讀

    恩智浦eIQ Time Series Studio工具使用教程之模型訓(xùn)練

    大家好,eIQ Time SeriesStudio又和大家見(jiàn)面啦!本章為大家?guī)?lái)工具核心部分-模型訓(xùn)練。
    的頭像 發(fā)表于 03-25 15:25 ?1726次閱讀
    恩智浦eIQ Time Series Studio工具使用教程之<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>

    請(qǐng)問(wèn)如何在imx8mplus上部署和運(yùn)行YOLOv5訓(xùn)練模型?

    我正在從事 imx8mplus yocto 項(xiàng)目。我已經(jīng)自定義數(shù)據(jù)集上的 YOLOv5 上訓(xùn)練了對(duì)象檢測(cè)模型。它在 ubuntu 電腦上運(yùn)行良好?,F(xiàn)在我想在我的 imx8mplus 板上運(yùn)行該
    發(fā)表于 03-25 07:23

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)
    的頭像 發(fā)表于 03-21 18:24 ?4339次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    數(shù)據(jù)標(biāo)注服務(wù)—奠定大模型訓(xùn)練的數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過(guò)程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。模型訓(xùn)練中,數(shù)
    的頭像 發(fā)表于 03-21 10:30 ?3373次閱讀

    標(biāo)貝數(shù)據(jù)標(biāo)注服務(wù):奠定大模型訓(xùn)練的數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過(guò)程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。模型訓(xùn)練中,數(shù)
    的頭像 發(fā)表于 03-21 10:27 ?1131次閱讀
    標(biāo)貝數(shù)據(jù)標(biāo)注服務(wù):奠定大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>的數(shù)據(jù)基石