91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

全球人工智能技術(shù)創(chuàng)新大賽短文本語(yǔ)義匹配方案技巧

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:煉丹筆記 ? 作者:DOTA ? 2021-03-29 16:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

好久不打比賽,周末看到“全球人工智能技術(shù)創(chuàng)新大賽”已經(jīng)開打了一段時(shí)間,前排分?jǐn)?shù)沖的有點(diǎn)兇,技癢的我看到了一道熟悉的賽題——小布助手對(duì)話短文本語(yǔ)義匹配,由于在搜索推薦系統(tǒng)的一些任重中,文本語(yǔ)義匹配子任務(wù)也是經(jīng)常會(huì)遇到的一個(gè)問題,于是乎掏出那根...咳咳..沉睡了很久的GPU,翻出了祖?zhèn)鞔a,跑了一波Baseline...

賽題題型不新鮮,在Baseline的的基礎(chǔ)上參考了一些思路做些煉丹技巧上的操作,3次提交之后順利沖進(jìn)排行榜首頁(yè)。針對(duì)短文本語(yǔ)義匹配,本文幫大家梳理一波方案技巧。

P.S.發(fā)稿之前,看了一眼排行榜,分?jǐn)?shù)已經(jīng)被大家刷上去了,參加人數(shù)還蠻多,有興趣的同學(xué)可以去戰(zhàn)一波...

賽題背景

意圖識(shí)別是對(duì)話系統(tǒng)中的一個(gè)核心任務(wù),而對(duì)話短文本語(yǔ)義匹配是意圖識(shí)別的主流算法方案之一。本賽題要求參賽隊(duì)伍根據(jù)脫敏后的短文本query-pair,預(yù)測(cè)它們是否屬于同一語(yǔ)義,提交的結(jié)果按照指定的評(píng)價(jià)指標(biāo)使用在線評(píng)測(cè)數(shù)據(jù)進(jìn)行評(píng)測(cè)和排名,得分最優(yōu)者獲勝。

數(shù)據(jù)及評(píng)估指標(biāo)

數(shù)據(jù)

訓(xùn)練數(shù)據(jù)包含輸入query-pair,以及對(duì)應(yīng)的真值。初賽訓(xùn)練樣本10萬,復(fù)賽訓(xùn)練樣本30萬,這份數(shù)據(jù)主要用于參賽隊(duì)伍訓(xùn)練模型,為確保數(shù)據(jù)的高質(zhì)量,每一個(gè)樣本的真值都有進(jìn)行人工標(biāo)注校驗(yàn)。每行為一個(gè)訓(xùn)練樣本,由query-pair和真值組成,每行格式如下:

query-pair格式:query以中文為主,中間可能帶有少量英文單詞(如英文縮寫、品牌詞、設(shè)備型號(hào)等),采用UTF-8編碼,未分詞,兩個(gè)query之間使用 分割。

真值:真值可為0或1,其中1代表query-pair語(yǔ)義相匹配,0則代表不匹配,真值與query-pair之間也用 分割。

評(píng)估標(biāo)準(zhǔn)

比賽的評(píng)估標(biāo)準(zhǔn)由性能標(biāo)準(zhǔn)和效果標(biāo)準(zhǔn)兩部分組成,初賽采用效果標(biāo)準(zhǔn),AUC 指標(biāo),具體定義如下:

54a7756a-8e8f-11eb-8b86-12bb97331649.png

其中:

rank(i):表示i這個(gè)樣本的預(yù)測(cè)得分在測(cè)試集中的排序;

M:測(cè)試集中語(yǔ)義匹配的樣本的個(gè)數(shù);

N:測(cè)試集中語(yǔ)義不匹配的樣本的個(gè)數(shù)。

解決方案與技巧

在BERT橫行的時(shí)代,解決方案大同小異,直接梭哈BERT的性價(jià)比是很高的,當(dāng)所有人都會(huì)使用這套操作時(shí),你又該怎么辦呢?首先針對(duì)此類問題,分享一波煉丹小技巧。由于本賽題開賽前,將文本替換成了加密形式,有些技巧可能無法使用,但不影響學(xué)習(xí)。

數(shù)據(jù)增強(qiáng)

1. 標(biāo)簽傳遞

根據(jù)IF A=B and A =C THEN B=C 的規(guī)則,對(duì)正樣本做了擴(kuò)充增強(qiáng)。

根據(jù)IF A=B and A!=C THEN B!=C的規(guī)則,對(duì)負(fù)樣本做了擴(kuò)充增強(qiáng)。

554200b2-8e8f-11eb-8b86-12bb97331649.png

2. 隨機(jī)刪除,隨機(jī)替換, 隨機(jī)交換

Query比較短,大約有10-20個(gè)字的長(zhǎng)度,隨機(jī)刪除部分。

很多query僅僅相差一個(gè)單詞, 隨機(jī)替換部分。

多數(shù)屬于問句, 隨機(jī)交換部分。

3. 同義詞替換

建模思路

第一個(gè)Baseline我沿用了之前計(jì)算相似度的方式對(duì)問題就行了求解,也做了模型線上的第一次提交,線上0.88的水平。具體思路如下:

55c5ee86-8e8f-11eb-8b86-12bb97331649.png

1. SIF Sentence Embedding

SIF Sentence Embedding 使用預(yù)訓(xùn)練好的詞向量,使用加權(quán)平均的方法,對(duì)句子中所有詞對(duì)應(yīng)的詞向量進(jìn)行計(jì)算,得到整個(gè)句子的embedding向量。

SIF的計(jì)算分為兩步:

對(duì)句子中的每個(gè)詞向量,乘以一個(gè)獨(dú)特的權(quán)重b,權(quán)重b是一個(gè)常數(shù) a除以a與該詞頻率的和,這種做法的會(huì)對(duì)出現(xiàn)頻率高詞進(jìn)行降權(quán),也就是說出現(xiàn)頻次越高,其權(quán)重也就越??;

計(jì)算句向量矩陣的第一主成分u,讓每個(gè)Sentence Embedding減去它在u上的投影;

這里,利用該方法做召回,在驗(yàn)證集上的準(zhǔn)確性要比其他兩種方式效果好。

對(duì)句子中所有單詞求平均得到sentence embedding;

對(duì)句子中所有單詞利用IDF值加權(quán)后求平均得到sentence embedding。

2. InferSent

564378ce-8e8f-11eb-8b86-12bb97331649.png

InferSent相似度模型是Facebook提出了一種通過不同的encoder得到Sentence Embedding,然后計(jì)算兩個(gè)Sentence Embedding的差值、點(diǎn)乘得到交互向量,計(jì)算兩者之間的相似度。

這里,對(duì)原始論文方法做了兩處修改:其一是針對(duì)這個(gè)問題對(duì)3-way softmax層(entailment,contradiction,neutral)做了相應(yīng)的修改變?yōu)?-way softmax;其二是中間層去掉了u和v,只使用差值和內(nèi)積兩種特征表征方式;同時(shí)在7中編碼器:1)LSTM, 2)GRU, 3)bi-GRU, 4)bi-LSTM(mean pooling), 5)bi-LSTM(max pooling), 6)self-attention, 7)CNN 中選用了Bi-LSTM MaxPooling的方式。

開源方案

本賽題蘇劍林開源了一套方案,這套方案讓脫敏數(shù)據(jù),也能使用BERT。脫敏數(shù)據(jù)對(duì)于BERT來說,其實(shí)就是Embedding層不一樣而已,其他層還是很有價(jià)值的。所以重用BERT主要還是通過預(yù)訓(xùn)練重新對(duì)齊Embedding層。

56e80ace-8e8f-11eb-8b86-12bb97331649.png

在這個(gè)過程中,初始化很重要。首先,我們把BERT的Embedding層中的[UNK]、[CLS]、[SEP]等特殊標(biāo)記拿出來,這部分不變;然后,我們分別統(tǒng)計(jì)密文數(shù)據(jù)和明文數(shù)據(jù)的字頻,明文數(shù)據(jù)指的是任意的開源通用語(yǔ)料,不一定要密文數(shù)據(jù)對(duì)應(yīng)的明文數(shù)據(jù);接著按照頻率簡(jiǎn)單對(duì)齊明文字表和密文字表。這樣一來,我們就可以按照明文的字來取出BERT的Embedding層來作為相應(yīng)的初始化。

簡(jiǎn)單來說,就是蘇劍林用最高頻的明文字對(duì)應(yīng)的BERT Embedding,來初始化最高頻的密文字,依此類推來做一個(gè)基本的字表對(duì)齊。對(duì)比實(shí)驗(yàn)表明,這個(gè)操作可以明顯加快模型的收斂速度。

我的第2次提交是對(duì)該方案增加了FGM部分進(jìn)行了提交測(cè)試,因?yàn)镕GM帶了百一的得分收益,線上0.87+的水平,跟蘇兄開源時(shí)公布的0.86+得分相對(duì)一致。

FGM對(duì)抗訓(xùn)練

上面提到了FGM的對(duì)抗訓(xùn)練,其實(shí)也算是一個(gè)煉丹小技巧,這里做一下見到介紹。

578a9ba4-8e8f-11eb-8b86-12bb97331649.png

對(duì)抗訓(xùn)練(Adversarial Training),顧名思義,就是在訓(xùn)練過程中產(chǎn)生一些攻擊樣本,早期是FGSM和I-FGSM攻擊,目前當(dāng)前最優(yōu)的攻擊手段是PGD。對(duì)抗訓(xùn)練,相當(dāng)于是加了一層正則化,給神經(jīng)網(wǎng)絡(luò)的隨機(jī)梯度優(yōu)化限制了一個(gè)李普希茨的約束。

傳統(tǒng)上認(rèn)為,這個(gè)訓(xùn)練方式會(huì)犧牲掉一定的測(cè)試精度,因?yàn)榫矸e模型關(guān)注局部特性,會(huì)學(xué)到一些敏感于擾動(dòng)的特征,對(duì)抗訓(xùn)練是一種去偽存真的過程,這是目前像素識(shí)別的視覺算法的局限性。這里蘇建林在kexue.fm里實(shí)現(xiàn)是很簡(jiǎn)單的,詳情參看引用鏈接。

總結(jié)

最后,第3次提交將前兩次的提交的結(jié)果,做了一個(gè)簡(jiǎn)單的線性融合,線上到了當(dāng)時(shí)排行榜的首頁(yè),Ensemble的方式其實(shí)很多,由于時(shí)間的關(guān)系并沒去堆很多模型,對(duì)此感興趣的同學(xué),可以去看一下《Kaggle競(jìng)賽寶典》的系列文章。

比賽結(jié)束還有一段時(shí)間,感興趣的同學(xué)可以去嘗試一波。數(shù)據(jù)競(jìng)賽作為一種保持競(jìng)技狀態(tài)(戰(zhàn)斗狀態(tài))的一種方式,在工作中直接應(yīng)用的層面的可能很少,但是它能帶給選手的更多是一種對(duì)問題的深層次思考,一種解決問題的實(shí)戰(zhàn)訓(xùn)練能力,如果你有時(shí)間,不妨一試。這次全球人工智能技術(shù)創(chuàng)新大賽是清華大學(xué)劉強(qiáng)老師負(fù)責(zé)跟的,劉老師的負(fù)責(zé)態(tài)度和對(duì)選手的正面鼓勵(lì),我想很多接觸過的人都會(huì)印象深刻。哈哈哈,依稀的記得2017年首次參賽,劉老師送的清華大學(xué)百年紀(jì)念郵票。

工作之后,時(shí)間會(huì)過很快,考慮更多的可能是做一件事是否能有結(jié)果,考慮的事情多了,也就沒有了當(dāng)年肝肝肝的勇氣。偶爾回到賽場(chǎng)提醒一下自己,懷念一下過去....ALL in BERT,便是這份高效利用自己時(shí)間的體現(xiàn),簡(jiǎn)單、有效、奧卡姆剃刀...

原文標(biāo)題:【比賽經(jīng)驗(yàn)】ALL in BERT:一套操作沖進(jìn)排行榜首頁(yè)

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1818

    文章

    50120

    瀏覽量

    265604

原文標(biāo)題:【比賽經(jīng)驗(yàn)】ALL in BERT:一套操作沖進(jìn)排行榜首頁(yè)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    云知聲斬獲2025全國(guó)人工智能應(yīng)用場(chǎng)景典型案例

    生成系統(tǒng)》項(xiàng)目憑借前沿的技術(shù)創(chuàng)新與顯著的臨床價(jià)值,獲評(píng)“2025全國(guó)人工智能應(yīng)用場(chǎng)景典型案例”,彰顯了公司在人工智能技術(shù)與醫(yī)療場(chǎng)景深度融合領(lǐng)域的領(lǐng)先實(shí)力。
    的頭像 發(fā)表于 02-06 09:07 ?424次閱讀

    主線科技入選“人工智能+”創(chuàng)新應(yīng)用實(shí)踐案例

    日前,由新華網(wǎng)主辦的“人工智能+”創(chuàng)新應(yīng)用案例征集評(píng)選結(jié)果揭曉,主線科技“基于 AI 技術(shù)力的自動(dòng)駕駛卡車在智慧物流的創(chuàng)新應(yīng)用”案例憑借技術(shù)創(chuàng)新
    的頭像 發(fā)表于 01-12 09:23 ?397次閱讀

    成都華微出席人工智能技術(shù)創(chuàng)新能力供需對(duì)接活動(dòng)

    近日,成都華微電子科技股份有限公司受邀參加了由成都市科技局主辦,四川省人工智能行業(yè)協(xié)會(huì)、四川省人工智能研究院承辦的“科創(chuàng)天府·智匯蓉城”成都市人工智能技術(shù)創(chuàng)新能力供需對(duì)接活動(dòng)。作為西南地區(qū)集成電路
    的頭像 發(fā)表于 12-10 16:17 ?573次閱讀

    微軟與新思科技分享智能人工智能技術(shù)的行業(yè)影響

    (Agentic AI)技術(shù)的行業(yè)影響,以及未來跨界合作的前景。此次圓桌討論不僅展現(xiàn)了雙方的戰(zhàn)略協(xié)同,以及他們?cè)陂_發(fā)市場(chǎng)領(lǐng)先解決方案方面的共同努力,也勾勒出人工智能是如何驅(qū)動(dòng)工程、電信、制藥等行業(yè)變革的新藍(lán)圖。
    的頭像 發(fā)表于 11-30 09:48 ?420次閱讀

    何同學(xué)“AI尋?!庇布ぐl(fā)創(chuàng)意,2025 SparkS全球AI硬件創(chuàng)新大賽啟動(dòng)

    11月18日杭州,“2025 SparkS全球AI硬件創(chuàng)新大賽”正式啟動(dòng)。大賽是由屬地政府和杭州市人才集團(tuán)、杭創(chuàng)(人工智能)營(yíng)、涂鴉
    的頭像 發(fā)表于 11-19 18:01 ?1210次閱讀
    何同學(xué)“AI尋?!庇布ぐl(fā)創(chuàng)意,2025 SparkS<b class='flag-5'>全球</b>AI硬件<b class='flag-5'>創(chuàng)新</b><b class='flag-5'>大賽</b>啟動(dòng)

    恭賀!同星智能TSMaster項(xiàng)目榮獲2025全國(guó)顛覆性技術(shù)創(chuàng)新大賽優(yōu)勝獎(jiǎng)

    近日,同星智能憑借“軟硬件解耦、快速迭代、可不斷被軟件定義的汽車電子基礎(chǔ)工具鏈”項(xiàng)目,榮膺2025全國(guó)顛覆性技術(shù)創(chuàng)新大賽優(yōu)勝獎(jiǎng)。這是同星智能在獲得金輯獎(jiǎng)、AITX領(lǐng)航
    的頭像 發(fā)表于 11-07 20:05 ?587次閱讀
    恭賀!同星<b class='flag-5'>智能</b>TSMaster項(xiàng)目榮獲2025全國(guó)顛覆性<b class='flag-5'>技術(shù)創(chuàng)新</b><b class='flag-5'>大賽</b>優(yōu)勝獎(jiǎng)

    中軟國(guó)際攜手昇騰推動(dòng)人工智能在金融業(yè)務(wù)中的規(guī)?;涞?/a>

    ? 在“全力打造全球引領(lǐng)性金融科技中心”的政策驅(qū)動(dòng)下,《上海高質(zhì)量推進(jìn)全球金融科技中心建設(shè)行動(dòng)方案》明確提出,要聚焦人工智能等領(lǐng)域推動(dòng)金融科技底層
    的頭像 發(fā)表于 10-12 09:45 ?1440次閱讀

    中科創(chuàng)達(dá)旗下創(chuàng)通聯(lián)達(dá)即將舉辦RUBIK Pi 3端側(cè)人工智能技術(shù)巡演

    人工智能技術(shù)加速向端側(cè)滲透,驅(qū)動(dòng)產(chǎn)業(yè)智能化轉(zhuǎn)型的戰(zhàn)略機(jī)遇期,全球領(lǐng)先的智能物聯(lián)網(wǎng)產(chǎn)品和解決方案提供商Thundercomm(創(chuàng)通聯(lián)達(dá))將于
    的頭像 發(fā)表于 08-15 15:56 ?1224次閱讀

    挖到寶了!人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器

    的深度學(xué)習(xí),構(gòu)建起從基礎(chǔ)到前沿的完整知識(shí)體系,一門實(shí)驗(yàn)箱就能滿足多門課程的學(xué)習(xí)實(shí)踐需求,既節(jié)省經(jīng)費(fèi)又不占地 。 五、代碼全開源,學(xué)習(xí)底層算法 所有實(shí)驗(yàn)全部開源,這對(duì)于想要深入學(xué)習(xí)人工智能技術(shù)的人來說
    發(fā)表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器!

    的深度學(xué)習(xí),構(gòu)建起從基礎(chǔ)到前沿的完整知識(shí)體系,一門實(shí)驗(yàn)箱就能滿足多門課程的學(xué)習(xí)實(shí)踐需求,既節(jié)省經(jīng)費(fèi)又不占地 。 五、代碼全開源,學(xué)習(xí)底層算法 所有實(shí)驗(yàn)全部開源,這對(duì)于想要深入學(xué)習(xí)人工智能技術(shù)的人來說
    發(fā)表于 08-07 14:23

    中科創(chuàng)達(dá)入選2025北京市人工智能賦能行業(yè)發(fā)展典型案例

    近日,2025全球數(shù)字經(jīng)濟(jì)大會(huì)人工智能融合應(yīng)用發(fā)展論壇于北京啟幕。會(huì)上,《北京市人工智能賦能行業(yè)發(fā)展典型案例(2025)》正式發(fā)布,中科創(chuàng)達(dá)基于 “端 - 邊 - 云” 一體化技術(shù)架構(gòu)
    的頭像 發(fā)表于 07-17 17:10 ?1888次閱讀

    人工智能技術(shù)的現(xiàn)狀與未來發(fā)展趨勢(shì)

    人工智能技術(shù)的現(xiàn)狀與未來發(fā)展趨勢(shì) ? ? 近年來,人工智能(AI)技術(shù)迅猛發(fā)展,深刻影響著各行各業(yè)。從計(jì)算機(jī)視覺到自然語(yǔ)言處理,從自動(dòng)駕駛到醫(yī)療診斷,AI的應(yīng)用場(chǎng)景不斷擴(kuò)展,推動(dòng)社會(huì)向智能
    的頭像 發(fā)表于 07-16 15:01 ?1924次閱讀

    CES Asia 2025同期低空智能感知與空域管理技術(shù)論壇即將啟幕

    安全、UTM/UAM管理系統(tǒng)發(fā)展與互操作性、人工智能在空域動(dòng)態(tài)管理中的應(yīng)用等前沿議題,將匯聚全球頂尖專家、企業(yè)代表,共同探索低空領(lǐng)域的未來發(fā)展方向。 低空通信導(dǎo)航監(jiān)視技術(shù)作為低空飛行的關(guān)鍵支撐
    發(fā)表于 07-10 10:16

    中科曙光亮相2025全球人工智能技術(shù)大會(huì)

    此前,6月7日-8日,2025全球人工智能技術(shù)大會(huì)(GAITC 2025)在杭州舉辦。中科曙光攜全棧AI基礎(chǔ)設(shè)施多項(xiàng)核心成果深度參與本次大會(huì),并攜手中國(guó)人工智能學(xué)會(huì)成功舉辦“大模型時(shí)代的AI基礎(chǔ)設(shè)施”專題活動(dòng),全方位展示在
    的頭像 發(fā)表于 06-10 16:19 ?1294次閱讀

    2025英特爾人工智能創(chuàng)新應(yīng)用大賽正式啟動(dòng)

    近日,2025英特爾人工智能創(chuàng)新應(yīng)用大賽(以下簡(jiǎn)稱“大賽”)正式啟動(dòng)。本屆大賽以“‘碼’上出發(fā),‘芯’創(chuàng)未來”為主題,在賽制、規(guī)模、獎(jiǎng)項(xiàng)和賽
    的頭像 發(fā)表于 04-02 15:24 ?1125次閱讀