91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于文本匹配的破城長(zhǎng)矛

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:CS的陋室 ? 作者:CS的陋室 ? 2021-03-31 17:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

搜索也好,檢索式對(duì)話也好,文本是一個(gè)很難繞開的話題,雖然語(yǔ)義是一個(gè)重要因素,用語(yǔ)義相似度直接梭,但是用戶的感知可不是如此,很多用戶的感知更多是文本層面的相似要高于語(yǔ)義相似,或者說,遇到語(yǔ)義相似和文本相似的時(shí)候會(huì)更優(yōu)先接受文本相似,畢竟文本使用戶能直接看到的,當(dāng)然語(yǔ)義相似度雖好,但是對(duì)于沒有什么標(biāo)注數(shù)據(jù)的情況,也是束手無(wú)策吧。

所以,即使語(yǔ)義相似度如火如荼地發(fā)展著,文本層面的匹配依舊是項(xiàng)目實(shí)踐中不可避免的關(guān)注點(diǎn)。

cqr&ctr概念

cqr和ctr的概念還是比較清晰明確的。

給定query和title,現(xiàn)在計(jì)算cqr和ctr。

講完了,就是這么簡(jiǎn)單,其實(shí)就是看兩者交集占query的占比和占title的占比,就是對(duì)應(yīng)的cqr和ctr。

當(dāng)然,由于這種計(jì)算會(huì)把所有詞的重要性考慮進(jìn)去,例如“怎么做作業(yè)”分別和“怎樣做作業(yè)”、“怎么做手機(jī)”,兩個(gè)的相似度就一樣了,此時(shí)就要考慮到給每個(gè)詞加點(diǎn)權(quán)重,這樣能更好地描述,這就是一個(gè)優(yōu)化的實(shí)用版本,加權(quán)

給定query,有對(duì)應(yīng)的權(quán)重和title,以及對(duì)應(yīng)權(quán)重,現(xiàn)在計(jì)算cqr和ctr:

想到可能會(huì)有人問到權(quán)重怎么來,這里我就要把我的歷史文章放出來了,之前是專門講過詞權(quán)重的問題的:NLP.TM[20] | 詞權(quán)重問題

這個(gè)應(yīng)該就是我自己平時(shí)用的版本了,而且屢試不爽。

而如果是要分析兩個(gè)句子綜合、無(wú)偏的相似度,只要相乘就好了:

細(xì)品

可以看到,這個(gè)東西很簡(jiǎn)單,就是一個(gè)基于統(tǒng)計(jì)計(jì)算的工具,但是我依然想仔細(xì)討論一下這個(gè)東西。

首先,有關(guān)相似度,其實(shí)我們很容易想到這個(gè)計(jì)算方法:

就是比較著名的jaccard相似度,當(dāng)然還有一個(gè)更加出名的方法,那就是BM25(更為常見,此處就不贅述了)。但是我并沒有選擇,為什么呢,其實(shí)核心就是1個(gè)點(diǎn):

query和title的長(zhǎng)度信息。

jaccard距離雖然能比較綜合、無(wú)偏向性地計(jì)算兩者的相似度,但問題是,當(dāng)query和title長(zhǎng)度計(jì)算差距很大的時(shí)候,計(jì)算準(zhǔn)確性就會(huì)受到影響,而分成兩個(gè)指標(biāo),則能夠充分表現(xiàn)兩者的相似性,當(dāng)然具體用哪種其實(shí)還是要看具體場(chǎng)景的,有的時(shí)候這種無(wú)偏向性對(duì)效果優(yōu)化還是有用的,但是有的時(shí)候其實(shí)會(huì)影響最終效果。

來看個(gè)例子,query是“我昨天新買的手機(jī),今天怎么就不能開機(jī)了”,title是“手機(jī)不能開機(jī)”,這里可以,ctr無(wú)疑就是1,當(dāng)然cqr就比較低了,但是我們可以用ctr作為后續(xù)的排序特征或者過濾條件。

優(yōu)缺點(diǎn)

感覺有些東西想說但是沒說出來,直接總結(jié)一下這個(gè)方案的優(yōu)缺點(diǎn)吧,以便大家進(jìn)行方案選擇吧,這個(gè)優(yōu)點(diǎn),是相對(duì)于常見的語(yǔ)義相似度模型而言的。

首先說優(yōu)點(diǎn):

能夠體現(xiàn)文本層面的相似度,在一些領(lǐng)域下體驗(yàn)比較好。

性能比語(yǔ)義相似度模型好很,所以是一個(gè)簡(jiǎn)單輕快的模型。

無(wú)監(jiān)督,詞權(quán)重的話用語(yǔ)料就可以訓(xùn)練了。

效果穩(wěn)定可追蹤。

當(dāng)然,還是有缺點(diǎn)的。

文本層面的匹配無(wú)法體現(xiàn)語(yǔ)義,同義詞、說法之類的無(wú)法體現(xiàn)。

對(duì)切詞敏感,類似“充不進(jìn)去電”和“充電”就完全匹配不上。

應(yīng)用

有這些有缺點(diǎn),其實(shí)我們就可以考慮這個(gè)相似度該怎么用了:

用于過濾一些肯定不對(duì)的答案。

無(wú)標(biāo)注數(shù)據(jù)下,這個(gè)指標(biāo)可以作為排序的指標(biāo),對(duì)啟動(dòng)項(xiàng)目挺重要的。

作為排序特征,保證結(jié)果在文本層面還是比較接近的。

當(dāng)然,在一個(gè)比較完整的搜索或者是檢索式對(duì)話的系統(tǒng)里,其實(shí)這種文本相似度類的特征還是非常有收益的,結(jié)合語(yǔ)義相似度還是會(huì)有一些比較穩(wěn)定的收益。

小結(jié)

東西其實(shí)不難,卻是非常實(shí)用的技能,但是在應(yīng)用的過程中能夠想到的人其實(shí)很少,但有用的東西我們學(xué)起來也挺好。

原文標(biāo)題:【文本匹配】cqr&ctr:文本匹配的破城長(zhǎng)矛

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    630

    瀏覽量

    14675
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23285

原文標(biāo)題:【文本匹配】cqr&ctr:文本匹配的破城長(zhǎng)矛

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    云漢芯與RECOM達(dá)成戰(zhàn)略合作

    近日,云漢芯(股票代碼:301563)與全球知名創(chuàng)新型全棧電源解決方案提供商RECOM達(dá)成合作,成為RECOM大中華區(qū)首家線上代理平臺(tái)!雙方以“芯電共融,智驅(qū)未來”為主題,隆重舉行合作簽約儀式。
    的頭像 發(fā)表于 02-06 14:40 ?514次閱讀

    Linux Shell文本處理神器合集:15個(gè)工具+實(shí)戰(zhàn)例子,效率直接翻倍

    在 Linux 系統(tǒng)中,文本是數(shù)據(jù)交互的 “通用語(yǔ)言”—— 日志文件、配置文件、數(shù)據(jù)報(bào)表、程序輸出幾乎都以文本形式存在。手動(dòng)編輯文本不僅繁瑣,還容易出錯(cuò),而掌握 Shell 文本處理工
    的頭像 發(fā)表于 02-03 15:42 ?1642次閱讀
    Linux Shell<b class='flag-5'>文本</b>處理神器合集:15個(gè)工具+實(shí)戰(zhàn)例子,效率直接翻倍

    詳解DBC的Signal與JSON文本結(jié)合

    為了優(yōu)化CAN數(shù)據(jù)發(fā)送與接收的操作流程,更改以前手動(dòng)輸入狀態(tài)對(duì)應(yīng)數(shù)據(jù)的模式,采用下拉列表選擇內(nèi)容,但這需要用到超出DBC原有承載能力的信息。因此,將JSON與其結(jié)合,采用JSON格式文本寫入Signal的Comment屬性,將Comment屬性的字符串通過JSON文本拓展
    的頭像 發(fā)表于 01-06 10:57 ?307次閱讀
    詳解DBC的Signal與JSON<b class='flag-5'>文本</b>結(jié)合

    頻譜分析儀與電壓探頭匹配指南

    如何實(shí)現(xiàn)頻譜分析儀與電壓探頭的精準(zhǔn)匹配?核心邏輯可概括為“三對(duì)齊一適配”——參數(shù)對(duì)齊、接口對(duì)齊、設(shè)置對(duì)齊+場(chǎng)景適配,最終目標(biāo)是規(guī)避信號(hào)反射、衰減與失真問題,確保測(cè)量數(shù)據(jù)(幅度、頻率、波形)的準(zhǔn)確性
    的頭像 發(fā)表于 12-29 14:51 ?310次閱讀
    頻譜分析儀與電壓探頭<b class='flag-5'>匹配</b>指南

    關(guān)于一款SQ805加熱壁機(jī)無(wú)法啟動(dòng)的維修

    壁機(jī)故障,開機(jī)指示燈全亮,復(fù)位正常,然后按選擇也正常再按啟動(dòng)沒有反映,無(wú)法啟動(dòng)。拆開檢查電源正常,溫度傳感器正常,就是無(wú)法進(jìn)入工作狀態(tài),把控制電路板單獨(dú)拆下來,發(fā)現(xiàn)控制芯片與按鍵以及LED在一塊板
    發(fā)表于 11-03 14:40

    激光焊接技術(shù)在焊接壁機(jī)底座工藝中的應(yīng)用

    壁機(jī)底座作為承載高速電機(jī)與刀組的關(guān)鍵結(jié)構(gòu)件,其焊接質(zhì)量直接影響整機(jī)運(yùn)行的穩(wěn)定性、噪音控制及使用壽命。面對(duì)食品接觸級(jí)不銹鋼材料的加工要求以及復(fù)雜曲面結(jié)構(gòu)的密封挑戰(zhàn),激光焊接技術(shù)憑借其高精度、低變形
    的頭像 發(fā)表于 10-20 16:26 ?565次閱讀
    激光焊接技術(shù)在焊接<b class='flag-5'>破</b>壁機(jī)底座工藝中的應(yīng)用

    科普:無(wú)源晶振的電容匹配與問題

    匹配電容并不是絕對(duì)的或者固定值,無(wú)源晶振的匹配電容一般最好選擇兩個(gè)一樣電容,在很多的方案設(shè)計(jì)中一般常用的電容有12pF、15pF、22pPF、33pF等,大致都是一個(gè)20pF量級(jí)。
    的頭像 發(fā)表于 08-29 11:27 ?2056次閱讀
    科普:無(wú)源晶振的電容<b class='flag-5'>匹配</b>與問題

    洲明科技一體化光顯解決方案落地深圳大悅

    近日,備受矚目的灣區(qū)首座大悅項(xiàng)目——深圳大悅盛大啟幕,以42萬(wàn)人次的驚人客流量、近2000萬(wàn)元的首日銷售額(不含Apple與汽車品類),一躍登頂大眾點(diǎn)評(píng)購(gòu)物熱門榜TOP1,刷新深圳商業(yè)開業(yè)熱度紀(jì)錄。
    的頭像 發(fā)表于 07-30 10:26 ?995次閱讀

    飛書富文本組件庫(kù)RichTextVista開源

    近日,飛書正式將其自研的富文本組件庫(kù) RichTextVista(簡(jiǎn)稱“RTV”)開源,并上線OpenHarmony 三方庫(kù)中心倉(cāng)。該組件以領(lǐng)先的性能、流暢的渲染體驗(yàn)與高度的開放性,為鴻蒙生態(tài)提供了更高效的富文本解決方案。
    的頭像 發(fā)表于 07-16 16:47 ?1023次閱讀

    飛書開源“RTV”富文本組件 重塑鴻蒙應(yīng)用富文本渲染體驗(yàn)

    近日,飛書正式將其自研的富文本組件庫(kù)?RichTextVista(簡(jiǎn)稱“RTV”)開源,并上線OpenHarmony?三方庫(kù)中心倉(cāng)。該組件以領(lǐng)先的性能、流暢的渲染體驗(yàn)與高度的開放性,為鴻蒙生態(tài)提供了
    的頭像 發(fā)表于 07-11 15:20 ?662次閱讀
    飛書開源“RTV”富<b class='flag-5'>文本</b>組件 重塑鴻蒙應(yīng)用富<b class='flag-5'>文本</b>渲染體驗(yàn)

    雙工不匹配如何修復(fù)它

    修復(fù)雙工不匹配問題可通過以下步驟進(jìn)行: 檢查并統(tǒng)一雙工設(shè)置:使用show interfaces(Cisco設(shè)備)或display interface brief(華為設(shè)備)等命令查看接口的雙工狀態(tài)
    的頭像 發(fā)表于 07-02 09:46 ?636次閱讀

    科學(xué)集團(tuán)與??低曔_(dá)成戰(zhàn)略合作

    近日,科學(xué)(廣州)投資集團(tuán)有限公司(以下簡(jiǎn)稱“科學(xué)集團(tuán)”)與??低暸e行戰(zhàn)略合作協(xié)議簽署儀式??茖W(xué)集團(tuán)黨委副書記、總經(jīng)理林曉鋒,??低暩呒?jí)副總裁、國(guó)內(nèi)營(yíng)銷中心總經(jīng)理郭旭東出席簽約儀式??茖W(xué)
    的頭像 發(fā)表于 05-26 17:20 ?1181次閱讀

    基于LockAI視覺識(shí)別模塊:C++多模板匹配

    多模板匹配是一種在圖像中同時(shí)尋找多個(gè)模板的技術(shù)。通過對(duì)每個(gè)模板逐一進(jìn)行匹配,找到與輸入圖像最相似的區(qū)域,并標(biāo)記出匹配度最高的結(jié)果。本實(shí)驗(yàn)提供了一個(gè)簡(jiǎn)單的多模板匹配案例,并將其封裝為一個(gè)
    的頭像 發(fā)表于 05-14 14:37 ?1632次閱讀
    基于LockAI視覺識(shí)別模塊:C++多模板<b class='flag-5'>匹配</b>

    蔚來與未來科學(xué)集團(tuán)計(jì)劃共建100座綠色能源換電站

    近日,蔚來與北京未來科學(xué)發(fā)展集團(tuán)有限公司(下稱“未來科學(xué)集團(tuán)”)在北京簽署戰(zhàn)略合作協(xié)議,將圍繞新能源汽車創(chuàng)新、服務(wù)生態(tài)構(gòu)建及綠色能源換電網(wǎng)絡(luò)建設(shè)展開深度合作。
    的頭像 發(fā)表于 03-27 16:10 ?902次閱讀

    把樹莓派打造成識(shí)別文本的“神器”!

    在許多項(xiàng)目中,RaspberryPi被用作監(jiān)控?cái)z像頭或執(zhí)行機(jī)器學(xué)習(xí)任務(wù)。在這些場(chǎng)景中,圖像中經(jīng)常包含應(yīng)用程序感興趣的文本信息。我們希望提取這些信息并將其轉(zhuǎn)換,以便通過程序分析文本
    的頭像 發(fā)表于 03-25 09:30 ?993次閱讀
    把樹莓派打造成識(shí)別<b class='flag-5'>文本</b>的“神器”!