91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Byte Cup 2018國(guó)際機(jī)器學(xué)習(xí)競(jìng)賽奪冠記

IEEE電氣電子工程師 ? 來源:lq ? 2019-02-14 09:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

9月份,我們兩位同學(xué)一起組隊(duì),參加Byte Cup 2018國(guó)際機(jī)器學(xué)習(xí)競(jìng)賽。本次比賽由中國(guó)人工智能學(xué)會(huì)和字節(jié)跳動(dòng)主辦,IEEE中國(guó)代表處聯(lián)合組織。比賽的任務(wù)是文章標(biāo)題自動(dòng)生成。最終,我們隊(duì)伍獲得了第一名。

1.比賽介紹

本次比賽的任務(wù)是給定文章文本內(nèi)容,自動(dòng)生成標(biāo)題。本質(zhì)上和文本摘要任務(wù)比較類似。本次比賽有100多萬篇文章的訓(xùn)練數(shù)據(jù)。

1.1數(shù)據(jù)介紹

詳細(xì)參見:https://biendata.com/competition/bytecup2018/data/。

本次競(jìng)賽使用的訓(xùn)練集包括了約130萬篇文本的信息,驗(yàn)證集1000篇文章,

測(cè)試集800篇文章。

1.2數(shù)據(jù)處理

文章去重,訓(xùn)練數(shù)據(jù)中包含一些重復(fù)數(shù)據(jù),清洗,去重;

清洗非英文文章。

1.3評(píng)價(jià)指標(biāo)

本次比賽將使用Rouge(Recall-Oriented Understudy for Gisting Evaluation)作為模型評(píng)估度量。Rough是評(píng)估自動(dòng)文摘以及機(jī)器翻譯的常見指標(biāo)。它通過將自動(dòng)生成的文本與人工生成的文本(即參考文本)進(jìn)行比較,根據(jù)相似度得出分值。

2.模型介紹

本次比賽主要嘗試了seq2seq的方法。參考的模型包括Transformer模型和pointer-generator模型。

模型如下圖:

(其實(shí)就是將pointer-generator的copy機(jī)制加到transformer模型上)。

同時(shí),嘗試了將ner-tagger和pos-tagger信息加入到模型中,如下圖所示:

3.問題分析

最開始我們嘗試了最基本的transformer模型,通過查看數(shù)據(jù),遇到以下幾類明顯錯(cuò)誤:

OOV(out of vocabulary);

數(shù)字,人名,地名預(yù)測(cè)錯(cuò)誤;

詞形預(yù)測(cè)錯(cuò)誤。

OOV問題,主要原因是數(shù)據(jù)集詞表太大,但是,模型能夠?qū)嶋H使用的詞表較??;數(shù)字,人名,地名預(yù)測(cè)錯(cuò)誤,主要原因是低頻詞embedding學(xué)習(xí)不充分;詞形預(yù)測(cè)錯(cuò)誤,主要原因是模型中沒有考慮詞的形態(tài)問題(當(dāng)然,如果訓(xùn)練數(shù)據(jù)足夠大,是能避免這個(gè)問題的)。

為了解決這些問題,我們嘗試了以下方法。

4.重要組件

4.1copy機(jī)制

對(duì)于很多低頻詞,通過生成式方法生成,其實(shí)是很不靠譜的。為此,我們借鑒Pointer-generator的方法,在生成標(biāo)題的單詞的時(shí)候,通過Attention的概率分布,從原文中拷貝詞。

4.2subword

為了避免oov問題,我們采用subword的方法,處理文本。這樣,可以將詞表大小減小到20k,同時(shí),subword會(huì)包含一些單詞詞形結(jié)構(gòu)的信息。

4.3ner-tagger和pos-tagger信息

因?yàn)閎aseline在數(shù)字,人名,地名,詞形上預(yù)測(cè)錯(cuò)誤率較高,所以我們考慮能不能將ner-tagger和pos-tagger信息加入到模型中。如上圖所示。實(shí)驗(yàn)證明通過加入這兩個(gè)序列信息能夠大大加快模型的收斂速度(訓(xùn)練收斂后,指標(biāo)上基本沒差異)。

4.4Gradient Accumulation

在實(shí)驗(yàn)過程中,我們發(fā)現(xiàn)transformer模型對(duì)batch_size非常敏感。之前,有研究者在機(jī)器翻譯任務(wù)中,通過實(shí)驗(yàn)也證明了這一觀點(diǎn)。然而,對(duì)于文章標(biāo)題生成任務(wù),因?yàn)槊總€(gè)sample的文章長(zhǎng)度較長(zhǎng),所以,并不能使用超大batch_size來訓(xùn)練模型,所以,我們用Gradient Accumulation的方法模擬超大batch_size。

4.5ensemble

采用了兩層融合。第一層,對(duì)于每一個(gè)模型,將訓(xùn)練最后保存的N個(gè)模型參數(shù)求平均值(在valid集上選擇最好的N)。第二層,通過不同隨機(jī)種子得到的兩個(gè)模型,一個(gè)作為生成候選標(biāo)題模型(選擇不同的beam_width, length_penalty), 一個(gè)作為打分模型,將候選標(biāo)題送到模型打分,選擇分?jǐn)?shù)最高的標(biāo)題。

5.失敗的方法

將copy機(jī)制加入到transformer遇到一些問題,我們直接在decoder倒數(shù)第二層加了一層Attention層作為copy機(jī)制需要的概率分布,訓(xùn)練模型非常不穩(wěn)定,并且結(jié)果比baseline還要差很多;

我們嘗試了bert,我們將bert-encoder抽出的feature拼接到我們模型的encoder的最后一層,結(jié)果并沒有得到提升;

word-embedding的選擇,我們使用glove和fasttext等預(yù)訓(xùn)練的詞向量,模型收斂速度加快,但是,結(jié)果并沒有random的方法好。

6.結(jié)束語

非常感謝主辦方舉辦本次比賽,通過本次比賽,我們探索,學(xué)習(xí)到了很多算法方法和調(diào)參技巧。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1818

    文章

    50120

    瀏覽量

    265601
  • 機(jī)器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    141

    瀏覽量

    15530
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26211

原文標(biāo)題:Byte Cup 2018國(guó)際機(jī)器學(xué)習(xí)競(jìng)賽奪冠記

文章出處:【微信號(hào):IEEE_China,微信公眾號(hào):IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    太燃了!人形機(jī)器人1500米比賽,這家奪冠!更有機(jī)器人全程自主奔跑

    人民政府、世界機(jī)器人合作組織和亞太機(jī)器人世界杯國(guó)際理事會(huì)聯(lián)合主辦,吸引了來自16個(gè)國(guó)家的280支隊(duì)伍,500余臺(tái)人形機(jī)器人齊聚一堂,共同角逐競(jìng)技賽、表演賽、場(chǎng)景賽和外圍賽四大類共26個(gè)
    的頭像 發(fā)表于 08-17 06:21 ?9727次閱讀
    太燃了!人形<b class='flag-5'>機(jī)器</b>人1500米比賽,這家<b class='flag-5'>奪冠</b>!更有<b class='flag-5'>機(jī)器</b>人全程自主奔跑

    人工智能與機(jī)器學(xué)習(xí)在這些行業(yè)的深度應(yīng)用

    自人工智能和機(jī)器學(xué)習(xí)問世以來,多個(gè)在線領(lǐng)域的數(shù)字化格局迎來了翻天覆地的變化。這些技術(shù)從誕生之初就為企業(yè)賦予了競(jìng)爭(zhēng)優(yōu)勢(shì),而在線行業(yè)正是受其影響最為顯著的領(lǐng)域。人工智能(AI)與機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 02-04 14:44 ?508次閱讀

    機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見錯(cuò)誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作一段時(shí)間,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中都存在一些我們需要時(shí)刻關(guān)注并銘記的常見錯(cuò)誤。如果對(duì)這些錯(cuò)誤置之不理,日后可能會(huì)引發(fā)諸多麻煩!只要我們密切關(guān)注數(shù)據(jù)、模型架構(gòu)
    的頭像 發(fā)表于 01-07 15:37 ?213次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個(gè)常見錯(cuò)誤與局限性

    思嵐科技亮相2025日本東京國(guó)際機(jī)器人展覽會(huì)

    12月6日,作為全球規(guī)模最大、歷史最悠久的機(jī)器人專業(yè)展會(huì)之一的第26屆日本國(guó)際機(jī)器人展(IREX 2025)在東京國(guó)際展覽中心圓滿收官。
    的頭像 發(fā)表于 12-16 11:36 ?1703次閱讀
    思嵐科技亮相2025日本東京<b class='flag-5'>國(guó)際</b><b class='flag-5'>機(jī)器</b>人展覽會(huì)

    東莞理工學(xué)院“小眼睛科技杯”第四屆集成電路設(shè)計(jì)與創(chuàng)新應(yīng)用競(jìng)賽圓滿落幕

    、教務(wù)部(招生辦公室)、科研部、研究生院、校學(xué)生會(huì)、校研究生會(huì)主辦,集成電路學(xué)院(國(guó)際微電子學(xué)院)團(tuán)委、學(xué)生會(huì)承辦,深圳市小眼睛科技有限公司冠名贊助。本屆競(jìng)賽自2025
    的頭像 發(fā)表于 12-08 08:03 ?433次閱讀
    東莞理工學(xué)院“小眼睛科技杯”第四屆集成電路設(shè)計(jì)與創(chuàng)新應(yīng)用<b class='flag-5'>競(jìng)賽</b>圓滿落幕

    思嵐科技邀您相約2025日本東京國(guó)際機(jī)器人展覽會(huì)

    第26屆日本東京國(guó)際機(jī)器人展覽會(huì)(iREX 2025)將于12月3日-6日在東京國(guó)際展覽中心(Tokyo Big Sight)盛大啟幕。作為全球最具影響力、規(guī)模最大的機(jī)器人專業(yè)展會(huì)之一
    的頭像 發(fā)表于 12-03 17:44 ?1292次閱讀

    廣和通斬獲具身智能家務(wù)機(jī)器人黑客松競(jìng)賽二等獎(jiǎng)

    近日,廣和通受邀參加由 Hugging Face、NVIDIA 與 Seeed Studio 聯(lián)合舉辦的“具身智能家務(wù)機(jī)器人黑客松”競(jìng)賽。在本次前沿賽事中,廣和通團(tuán)隊(duì)成功開發(fā)、部署并演示了“雙臂協(xié)作家務(wù)機(jī)器人系統(tǒng)”,憑借其創(chuàng)新的
    的頭像 發(fā)表于 11-08 14:51 ?1718次閱讀

    普渡樓宇配送機(jī)器人榮獲2025年IDEA國(guó)際設(shè)計(jì)卓越獎(jiǎng)

    近日,普渡樓宇配送機(jī)器人“閃電匣”憑借其卓越的產(chǎn)品設(shè)計(jì)與創(chuàng)新理念,成功斬獲美國(guó)IDEA國(guó)際設(shè)計(jì)大獎(jiǎng)(International Design Excellence Awards) !這是全球設(shè)計(jì)業(yè)內(nèi)
    的頭像 發(fā)表于 10-15 17:58 ?1222次閱讀

    舍弗勒攜手英飛凌共赴智能汽車競(jìng)賽

    此前,2025年8月18-20日,第二十屆全國(guó)大學(xué)生智能汽車競(jìng)賽(以下簡(jiǎn)稱“競(jìng)賽”)全國(guó)總決賽在杭州電子科技大學(xué)舉辦并圓滿落幕,是國(guó)內(nèi)最具影響力的大學(xué)生學(xué)科競(jìng)賽之一。在本屆競(jìng)賽中,來自
    的頭像 發(fā)表于 09-04 14:34 ?955次閱讀

    第六屆TE Connectivity AI Cup全球競(jìng)賽圓滿收官

    近日,在全球行業(yè)技術(shù)領(lǐng)先企業(yè)TE Connectivity(以下簡(jiǎn)稱“TE”)主辦的第六屆TE AI Cup全球競(jìng)賽中,中國(guó)西南財(cái)經(jīng)大學(xué)團(tuán)隊(duì)與華南理工大學(xué)團(tuán)隊(duì)?wèi){借出色表現(xiàn)雙雙奪冠。作為聚焦培養(yǎng)高校
    的頭像 發(fā)表于 08-25 14:13 ?0次閱讀

    中國(guó)兩大高校團(tuán)隊(duì)斬獲第六屆TE Connectivity AI Cup全球競(jìng)賽桂冠

    中國(guó)上海,2025年8月4日 ——近日,在全球行業(yè)技術(shù)領(lǐng)先企業(yè)TE Connectivity(以下簡(jiǎn)稱“TE”)主辦的第六屆TE AI Cup全球競(jìng)賽中,中國(guó)西南財(cái)經(jīng)大學(xué)團(tuán)隊(duì)與華南理工大學(xué)團(tuán)隊(duì)?wèi){借
    的頭像 發(fā)表于 08-05 15:03 ?1082次閱讀
    中國(guó)兩大高校團(tuán)隊(duì)斬獲第六屆TE Connectivity AI <b class='flag-5'>Cup</b>全球<b class='flag-5'>競(jìng)賽</b>桂冠

    FPGA在機(jī)器學(xué)習(xí)中的具體應(yīng)用

    隨著機(jī)器學(xué)習(xí)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模數(shù)據(jù)和復(fù)雜模型的需求。FPGA(現(xiàn)場(chǎng)可編程門陣列)作為一種靈活且高效的硬件加速平臺(tái)
    的頭像 發(fā)表于 07-16 15:34 ?2912次閱讀

    Python從入門到精通背手冊(cè)

    電子發(fā)燒友網(wǎng)站提供《Python從入門到精通背手冊(cè).pdf》資料免費(fèi)下載
    發(fā)表于 03-28 17:43 ?108次下載

    普渡機(jī)器人榮獲ISO 56005國(guó)際標(biāo)準(zhǔn)知識(shí)產(chǎn)權(quán)體系認(rèn)證

    近日,深圳市普渡科技有限公司(簡(jiǎn)稱:普渡機(jī)器人)正式通過《創(chuàng)新管理·知識(shí)產(chǎn)權(quán)管理指南(ISO 56005: 2020)》國(guó)際標(biāo)準(zhǔn)認(rèn)證,榮獲《創(chuàng)新與知識(shí)產(chǎn)權(quán)管理能力》等級(jí)證書(1級(jí))。該標(biāo)準(zhǔn)是由我
    的頭像 發(fā)表于 03-19 15:37 ?849次閱讀

    請(qǐng)問STM32部署機(jī)器學(xué)習(xí)算法硬件至少要使用哪個(gè)系列的芯片?

    STM32部署機(jī)器學(xué)習(xí)算法硬件至少要使用哪個(gè)系列的芯片?
    發(fā)表于 03-13 07:34