91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SemEval 2022: 多語(yǔ)種慣用語(yǔ)識(shí)別評(píng)測(cè)冠軍系統(tǒng)簡(jiǎn)介

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:哈工大訊飛聯(lián)合實(shí)驗(yàn)室 ? 作者:哈工大訊飛聯(lián)合實(shí) ? 2022-06-07 09:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在前不久落下帷幕的第十六屆國(guó)際語(yǔ)義評(píng)測(cè)比賽(The 16th International Workshop on Semantic Evaluation,SemEval 2022)中,哈工大社會(huì)計(jì)算與信息檢索研究中心(HIT-SCIR)與哈工大訊飛聯(lián)合實(shí)驗(yàn)室的聯(lián)合團(tuán)隊(duì)在多語(yǔ)種慣用語(yǔ)識(shí)別任務(wù)子賽道SubtaskA(one-shot)中獲得冠軍。本期我們將對(duì)這個(gè)任務(wù)的奪冠系統(tǒng)進(jìn)行簡(jiǎn)要介紹,更多具體細(xì)節(jié)請(qǐng)參考我們的論文。

論文標(biāo)題:HITat SemEval-2022 Task 2: Pre-trained Language Model for Idioms Detection

論文作者:初征,楊子清,崔一鳴,陳志剛,劉銘

論文鏈接:http://arxiv.org/abs/2204.06145

7cdad7dc-e589-11ec-ba43-dac502259ad0.png

7d177a0c-e589-11ec-ba43-dac502259ad0.png

任務(wù)介紹

Task 2 Subtask A子賽道是跨語(yǔ)言慣用語(yǔ)檢測(cè)任務(wù)。任務(wù)給出多種語(yǔ)言的含多字短語(yǔ)的語(yǔ)句,參賽隊(duì)伍需要利用模型判斷目標(biāo)句子中的多字短語(yǔ)的使用方法是慣用語(yǔ)用法 (Idiomatic)還是字面用法(Literal)。任務(wù)共覆蓋三種語(yǔ)言,包括英語(yǔ)、葡萄牙語(yǔ)和加利西亞語(yǔ)。與普通的慣用語(yǔ)檢測(cè)任務(wù)相比,該評(píng)測(cè)更加強(qiáng)調(diào)考察模型的跨語(yǔ)言遷移能力。在zero-shot設(shè)置下,不提供加利西亞語(yǔ)的訓(xùn)練數(shù)據(jù),需要模型通過英語(yǔ)和葡萄牙語(yǔ)的數(shù)據(jù)集進(jìn)行zero-shot遷移;在one-shot下提供少量加利西亞語(yǔ)的訓(xùn)練數(shù)據(jù),需要模型具備在不同語(yǔ)言之下良好的few-shot遷移能力。

圖1是任務(wù)數(shù)據(jù)示例。在第一句中,big fish為字面義,表示大魚;第二句中,big fish為隱含義(慣用語(yǔ)),表示大人物。模型需要利用訓(xùn)練數(shù)據(jù)對(duì)這兩種用法做出區(qū)分。

7d3d43ae-e589-11ec-ba43-dac502259ad0.png

圖1:SemEval-2022 Task2 SubtaskA任務(wù)數(shù)據(jù)示例

系統(tǒng)介紹

提交的系統(tǒng)使用XLM-RoBERTa作為編碼器,在預(yù)處理過程中對(duì)訓(xùn)練數(shù)據(jù)的慣用語(yǔ)短語(yǔ)(MWE)進(jìn)行特殊標(biāo)記,在訓(xùn)練過程中使用R-Drop作為輔助訓(xùn)練目標(biāo),在訓(xùn)練結(jié)束后,根據(jù)訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)信息制定了啟發(fā)式規(guī)則對(duì)模型預(yù)測(cè)結(jié)果進(jìn)行校正。此外還嘗試了數(shù)據(jù)增強(qiáng)、對(duì)比學(xué)習(xí)輔助訓(xùn)練、對(duì)抗訓(xùn)練等方法,整體結(jié)構(gòu)如圖2所示:

1. 預(yù)處理:對(duì)輸入的樣本進(jìn)行截?cái)?、?biāo)記MWE、數(shù)據(jù)增強(qiáng)等操作。

2. 模型訓(xùn)練:采用XLM-R作為基模型,以cross-entropy損失作為主要訓(xùn)練目標(biāo),以R-drop等方式優(yōu)化輔助目標(biāo)。

3. 后處理:根據(jù)訓(xùn)練數(shù)據(jù)特征對(duì)模型預(yù)測(cè)結(jié)果進(jìn)行校正。

下面將針對(duì)部分主要優(yōu)化技巧進(jìn)行簡(jiǎn)要介紹。

7d8fe2e4-e589-11ec-ba43-dac502259ad0.png

圖2:SemEval-2022 Task2 Subtask A 系統(tǒng)結(jié)構(gòu)

1、數(shù)據(jù)預(yù)處理

數(shù)據(jù)截?cái)啵簽榱吮M可能地減少截?cái)嗨a(chǎn)生的文本信息丟失,在設(shè)定句子最大長(zhǎng)度前對(duì)長(zhǎng)度信息進(jìn)行了統(tǒng)計(jì),最終確定使用128作為最大長(zhǎng)度可保證絕大多數(shù)句子不被截?cái)唷?/p>

短語(yǔ)標(biāo)記:任務(wù)的每一條數(shù)據(jù)提供了目標(biāo)句子中要被預(yù)測(cè)的慣用語(yǔ)短語(yǔ),為了能夠讓模型能夠關(guān)注到慣用語(yǔ),對(duì)句子中的慣用語(yǔ)使用特殊符號(hào)進(jìn)行標(biāo)記。例如,包含慣用語(yǔ)bigfish的文本 caught some bigfish along the way 將被標(biāo)記為caught some[SEP] big fish [SEP] along the way。由于預(yù)訓(xùn)練對(duì)于命名實(shí)體具有識(shí)別能力,而在該任務(wù)的數(shù)據(jù)中,命名實(shí)體幾乎都進(jìn)行首字母大寫變形并且標(biāo)注為非慣用語(yǔ)用法,在后續(xù)的實(shí)驗(yàn)中改善了慣用語(yǔ)標(biāo)注方法,僅標(biāo)注未經(jīng)過變形的慣用語(yǔ)短語(yǔ)。對(duì)比實(shí)驗(yàn)結(jié)果如圖3所示,I表示標(biāo)記慣用語(yǔ),C表示使用上下文文本。對(duì)比w/ I 和 w/o I的實(shí)驗(yàn),可驗(yàn)證這一改動(dòng)能夠提高性能效果。

上下文信息:此外,我們還發(fā)現(xiàn),不使用任務(wù)提供的額外上下文文本數(shù)據(jù),而僅使用包含慣用語(yǔ)的句子(w/o C),能取得更優(yōu)的效果,如圖3第三行所示。原因可能為不包含上下文文本數(shù)據(jù)的短文本能使模型更聚焦于待判別的慣用短語(yǔ)。

7deafe5e-e589-11ec-ba43-dac502259ad0.png

圖3: 上下文以及標(biāo)注慣用語(yǔ)對(duì)結(jié)果的影響

2、模型訓(xùn)練

訓(xùn)練過程使用XLM-RoBERTa作為編碼器,接池化層和softmax分類器。對(duì)不同池化方法進(jìn)行了實(shí)驗(yàn),結(jié)果表明池化方法對(duì)最終結(jié)果沒有顯著影響,為了簡(jiǎn)便,使用[SEP]作為句子向量表示。訓(xùn)練過程中嘗試了多種輔助手段,包括R-Drop、對(duì)抗訓(xùn)練、數(shù)據(jù)增強(qiáng)、對(duì)比學(xué)習(xí)輔助目標(biāo)等。實(shí)驗(yàn)結(jié)果表明,R-Drop以及對(duì)抗訓(xùn)練能夠顯著提高模型表現(xiàn),并且相較于對(duì)抗訓(xùn)練,R-Drop能夠取得更大的性能提升,結(jié)果詳見下一節(jié)。

7e1468ac-e589-11ec-ba43-dac502259ad0.png

圖4:R-Drop示意圖

3、后處理

在訓(xùn)練結(jié)束后,根據(jù)訓(xùn)練數(shù)據(jù)的分布統(tǒng)計(jì)信息制定了啟發(fā)式規(guī)則。對(duì)于在訓(xùn)練集中僅出現(xiàn)過一次的短語(yǔ),因缺乏不同標(biāo)簽對(duì)應(yīng)的訓(xùn)練數(shù)據(jù),我們采用訓(xùn)練集中僅出現(xiàn)過的標(biāo)簽作為預(yù)測(cè)標(biāo)簽,以減少訓(xùn)練集的人工標(biāo)記偏差對(duì)結(jié)果的影響。

實(shí)驗(yàn)結(jié)果

模型的最終效果及消融實(shí)驗(yàn)如圖5所示。

7e66fc70-e589-11ec-ba43-dac502259ad0.png

圖5:不同方法對(duì)結(jié)果的影響

標(biāo)記MWE(mark MWE)可以同時(shí)提升zero-shot和one-shot效果;我們還嘗試了對(duì)比學(xué)習(xí)方法,然而在zero-shot和one-shot上均沒有提升;AEDA是一個(gè)簡(jiǎn)單的操作標(biāo)點(diǎn)符號(hào)的數(shù)據(jù)增強(qiáng)策略,對(duì)zero-shot有一定幫助;在兩種提升模型穩(wěn)定性的方法(對(duì)抗訓(xùn)練和R-drop)中,R-drop有更好的表現(xiàn)。最后,后處理策略對(duì)訓(xùn)練集中出現(xiàn)的偏差做了很好的校正。顯著地提升了效果。

7e951858-e589-11ec-ba43-dac502259ad0.png

多語(yǔ)種慣用語(yǔ)識(shí)別任務(wù)子賽道Subtask A(one-shot)最終榜單:HIT-SCIR與HFL聯(lián)合團(tuán)隊(duì)排名第一

結(jié)論

基于多語(yǔ)言預(yù)訓(xùn)練模型,我們構(gòu)建了一個(gè)多語(yǔ)言慣用語(yǔ)識(shí)別系統(tǒng)。通過對(duì)輸入格式、模型訓(xùn)練方式、預(yù)測(cè)結(jié)果后處理等方面的優(yōu)化,最終系統(tǒng)整體性能較baseline有較為顯著的提升,并在one-shot賽道上取得最優(yōu)成績(jī)。在后續(xù)研究中,可嘗試探索如何讓預(yù)訓(xùn)練模型利用訓(xùn)練數(shù)據(jù)之外的語(yǔ)料,如慣用語(yǔ)詞典等,以進(jìn)一步提升預(yù)測(cè)效果,并降低對(duì)標(biāo)注數(shù)據(jù)資源的需求,發(fā)揮多語(yǔ)言模型的zero-shot能力。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3958

    瀏覽量

    142733
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7337

    瀏覽量

    94812

原文標(biāo)題:競(jìng)賽 | SemEval 2022: 多語(yǔ)種慣用語(yǔ)識(shí)別評(píng)測(cè)冠軍系統(tǒng)簡(jiǎn)介

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    京東多語(yǔ)言質(zhì)量解決方案

    一、業(yè)界多語(yǔ)言面臨的通用挑戰(zhàn)是什么 做這個(gè)事之前,我們先看看業(yè)界做了什么。 ??阿里巴巴全球化測(cè)試技術(shù)介紹? ??螞蟻全球化無(wú)線端質(zhì)量解決方案? ??談?wù)?b class='flag-5'>多語(yǔ)言測(cè)試? 總結(jié)下來(lái),需要面臨3個(gè)通用
    的頭像 發(fā)表于 01-13 16:18 ?949次閱讀
    京東<b class='flag-5'>多語(yǔ)</b>言質(zhì)量解決方案

    給智能門鎖“裝個(gè)移動(dòng)硬盤”:廣州唯創(chuàng)電子WTV語(yǔ)音芯片外置SPI Flash方案破解多語(yǔ)種語(yǔ)音存儲(chǔ)困局

    廠家,以其創(chuàng)新的WTV系列語(yǔ)音芯片外置SPIFlash方案,如同給門鎖配備了一個(gè)“海量移動(dòng)硬盤”,徹底破解了智能門鎖的多語(yǔ)種語(yǔ)音存儲(chǔ)困局。一、行業(yè)痛點(diǎn):智能門鎖的“
    的頭像 發(fā)表于 11-17 07:43 ?775次閱讀
    給智能門鎖“裝個(gè)移動(dòng)硬盤”:廣州唯創(chuàng)電子WTV語(yǔ)音芯片外置SPI Flash方案破解<b class='flag-5'>多語(yǔ)種</b>語(yǔ)音存儲(chǔ)困局

    江蘇省委書記一行到訪思必馳調(diào)研

    大模型開啟了人工智能發(fā)展的新階段。在思必馳,信長(zhǎng)星了解多語(yǔ)種語(yǔ)言大模型、人機(jī)對(duì)話技術(shù)等研發(fā)應(yīng)用,以及向汽車、家電、新能源等行業(yè)提供產(chǎn)品解決方案情況。他強(qiáng)調(diào),要推動(dòng)面向各行業(yè)各領(lǐng)域的大模型垂直應(yīng)用,促進(jìn)人工智能與實(shí)體經(jīng)濟(jì)深度融合。
    的頭像 發(fā)表于 11-11 10:37 ?781次閱讀

    AR智能眼鏡定制_ar眼鏡PCBA硬件設(shè)計(jì)與AI賦能

    千問、DeepSeek、豆包等),可以實(shí)現(xiàn)智能提詞、多語(yǔ)種實(shí)時(shí)翻譯、AI識(shí)物、導(dǎo)航、消息提醒和支付等功能,為用戶提供更加智能化的交互體驗(yàn)。
    的頭像 發(fā)表于 11-05 20:27 ?669次閱讀
    AR智能眼鏡定制_ar眼鏡PCBA硬件設(shè)計(jì)與AI賦能

    聲智科技多語(yǔ)種AI翻譯耳機(jī)亮相中美產(chǎn)業(yè)交流會(huì)

    近日,由商務(wù)部投資促進(jìn)事務(wù)局與北京市海淀區(qū)人民政府聯(lián)合主辦的“共赴新未來(lái)——中美地方產(chǎn)業(yè)交流會(huì)”在北京中關(guān)村展示中心成功舉辦。聲智科技作為人工智能與聲學(xué)融合領(lǐng)域的領(lǐng)先企業(yè),應(yīng)邀參會(huì)并展示了其面向全球市場(chǎng)的AI聲學(xué)產(chǎn)品矩陣,彰顯出中國(guó)科技企業(yè)在“出?!边^程中日益增強(qiáng)的技術(shù)話語(yǔ)權(quán)與生態(tài)整合能力。
    的頭像 發(fā)表于 10-14 09:09 ?823次閱讀

    NVIDIA推出多語(yǔ)種語(yǔ)音AI開放數(shù)據(jù)集與模型

    新發(fā)布的 Granary 數(shù)據(jù)集包含約 100 萬(wàn)小時(shí)音頻,可用于訓(xùn)練高精度、高吞吐量的 AI 音頻轉(zhuǎn)錄與翻譯模型。
    的頭像 發(fā)表于 09-23 15:34 ?975次閱讀

    云知聲多項(xiàng)業(yè)務(wù)營(yíng)收大漲

    依托山海大模型,云知聲不斷開拓陣地,開發(fā)了面向東盟等海外市場(chǎng)和國(guó)內(nèi)方言市場(chǎng)的語(yǔ)音大模型,模型顯著提升了在多語(yǔ)種、多方言環(huán)境下的語(yǔ)音識(shí)別、語(yǔ)義理解和高質(zhì)量語(yǔ)音生成能力,改善了多語(yǔ)言、語(yǔ)種
    的頭像 發(fā)表于 09-10 15:44 ?681次閱讀

    語(yǔ)種OCR標(biāo)注效率提升10+倍:PaddleOCR+ERNIE 4.5自動(dòng)標(biāo)注實(shí)戰(zhàn)解析

    與一致性校驗(yàn),實(shí)現(xiàn)高精度、低成本的小語(yǔ)種OCR訓(xùn)練數(shù)據(jù)生成。該方案將數(shù)據(jù)準(zhǔn)備周期 從數(shù)周縮短至數(shù)小時(shí) ,為小語(yǔ)種模型的快速迭代與冷啟動(dòng)提供了全新范式 一、引言:小語(yǔ)種OCR的“數(shù)據(jù)之困” 在跨境支付、
    的頭像 發(fā)表于 08-29 11:26 ?3659次閱讀
    小<b class='flag-5'>語(yǔ)種</b>OCR標(biāo)注效率提升10+倍:PaddleOCR+ERNIE 4.5自動(dòng)標(biāo)注實(shí)戰(zhàn)解析

    聲智科技出席2025年北京市多語(yǔ)種AI語(yǔ)音翻譯大賽

    8月20日,由北京市科委、中關(guān)村管委會(huì)主辦,北京語(yǔ)言大學(xué)、北京第二外國(guó)語(yǔ)學(xué)院、北京市翻譯協(xié)會(huì)、中國(guó)人工智能百人會(huì)共同承辦的“2025年北京市多語(yǔ)種AI語(yǔ)音翻譯大賽”在中關(guān)村展示中心順利啟幕。聲智作為
    的頭像 發(fā)表于 08-25 17:18 ?1251次閱讀

    傳音斬獲WMT 2025國(guó)際機(jī)器翻譯大賽四項(xiàng)冠軍

    佳績(jī),分別在阿薩姆語(yǔ)(Assamese)、曼尼普爾語(yǔ)(Manipuri)、卡西語(yǔ)(Khasi)、米佐語(yǔ)(Mizo)四個(gè)語(yǔ)種的機(jī)器評(píng)測(cè)中榮獲冠軍。
    的頭像 發(fā)表于 08-06 18:21 ?1240次閱讀

    廣和通發(fā)布自研端側(cè)語(yǔ)音識(shí)別大模型FiboASR

    、高效會(huì)議記錄、多語(yǔ)種即時(shí)翻譯等核心領(lǐng)域?qū)崿F(xiàn)重大技術(shù)突破,致力于為終端用戶帶來(lái)更自然、高效、私密的語(yǔ)音交互體驗(yàn)。
    的頭像 發(fā)表于 08-04 11:43 ?1616次閱讀

    EASY EAl Orin Nano(RK3576) whisper語(yǔ)音識(shí)別訓(xùn)練部署教程

    1Whisper簡(jiǎn)介Whisper是OpenAI開源的,識(shí)別語(yǔ)音識(shí)別能力已達(dá)到人類水準(zhǔn)自動(dòng)語(yǔ)音識(shí)別系統(tǒng)。Whisper作為一個(gè)通用的語(yǔ)音識(shí)別
    的頭像 發(fā)表于 07-25 15:21 ?862次閱讀
    EASY EAl Orin Nano(RK3576) whisper語(yǔ)音<b class='flag-5'>識(shí)別</b>訓(xùn)練部署教程

    普強(qiáng)智能語(yǔ)音技術(shù)重新定義車載交互邊界

    普強(qiáng)憑借自主研發(fā)的智能語(yǔ)音技術(shù),為某國(guó)內(nèi)頭部車企提供的語(yǔ)音前處理、喚醒詞、ASR、TTS等技術(shù)模塊,構(gòu)建覆蓋泰語(yǔ)、俄語(yǔ)、韓語(yǔ)、日語(yǔ)等多語(yǔ)種的語(yǔ)音交互解決方案,助力其海外車型實(shí)現(xiàn)無(wú)障礙人機(jī)交互,更以技術(shù)突破重新定義車載語(yǔ)音交互的邊界。
    的頭像 發(fā)表于 07-11 14:00 ?1181次閱讀

    給智能門鎖“裝個(gè)移動(dòng)硬盤”:WTV外置SPI Flash方案破解多語(yǔ)種語(yǔ)音存儲(chǔ)困局

    深夜加班回家,疲憊的你走到智能門鎖前,它用溫和的母語(yǔ)輕聲提示:“歡迎回家,電量充足。請(qǐng)驗(yàn)證指紋...”——當(dāng)冰冷的門鎖能貼心地說出你熟悉的語(yǔ)言,安全感與歸屬感是否瞬間拉滿?
    的頭像 發(fā)表于 07-08 11:03 ?432次閱讀
    給智能門鎖“裝個(gè)移動(dòng)硬盤”:WTV外置SPI Flash方案破解<b class='flag-5'>多語(yǔ)種</b>語(yǔ)音存儲(chǔ)困局

    普強(qiáng)信息入選2024語(yǔ)音識(shí)別技術(shù)公司TOP30榜單

    企業(yè)數(shù)字化升級(jí),這一榮譽(yù)不僅體現(xiàn)了普強(qiáng)在語(yǔ)音交互、語(yǔ)義理解、多語(yǔ)種識(shí)別等核心技術(shù)上的領(lǐng)先優(yōu)勢(shì),更是對(duì)普強(qiáng)自主研發(fā)的端到端語(yǔ)音識(shí)別系統(tǒng)在高噪聲環(huán)境、復(fù)雜口音等極端場(chǎng)景下仍能保持95%以上識(shí)別
    的頭像 發(fā)表于 04-18 17:25 ?1226次閱讀