91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用輔助任務(wù)來(lái)提升情感分類(lèi)領(lǐng)域適應(yīng)?

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:SimpleAI ? 作者:SimpleAI ? 2021-06-16 17:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

論文標(biāo)題:Learning Sentence Embeddings with Auxiliary Tasks for Cross-Domain Sentiment Classification

會(huì)議/期刊:EMNLP-2016

團(tuán)隊(duì):Singapore Management University

主要思想: 通過(guò)構(gòu)造兩個(gè)輔助任務(wù)(auxiliary tasks)來(lái)從學(xué)習(xí)句子表示,預(yù)測(cè)一個(gè)句子是否包含有通用情感詞。這些句子表示可以增強(qiáng)原本情感分類(lèi)模型中的句子表示,從而提升模型的總體領(lǐng)域適應(yīng)能力。

論文要點(diǎn)一覽:

1. 借鑒了2006年EMNLP的Structural Correspondence Learning的思想

SCL是2016EMNLP的一篇解決領(lǐng)域適應(yīng)的論文,想法很新穎。核心想法是,不同領(lǐng)域的文本,通常會(huì)有一些通用的“指示詞”(稱(chēng)為pivot words/features),比方在詞性標(biāo)注任務(wù)中,雖然同一個(gè)詞性的詞可能在不同領(lǐng)域文本中千差萬(wàn)別,但是提示詞性的特征往往是類(lèi)似的,這些共同的特征就稱(chēng)為pivot features。然后,那些隨著領(lǐng)域變化的,但跟這些pivot features高度相關(guān)的詞,就被稱(chēng)為“聯(lián)系詞/對(duì)應(yīng)詞”(correspondences),比方在詞性標(biāo)注任務(wù)中那些關(guān)注的詞性對(duì)應(yīng)的詞。

領(lǐng)域適應(yīng)中,麻煩的就是這些隨著領(lǐng)域變化的correspondences,它們往往潛藏著類(lèi)別的信息,但是從表面上看是很領(lǐng)域性的,所以如果有辦法把這些詞中潛藏著的通用的類(lèi)別信息給提取出來(lái),或者把它們給轉(zhuǎn)化成通用的信息,那這些領(lǐng)域性的詞就變得通用了,就可以適應(yīng)不同領(lǐng)域了。

這個(gè)想法,確實(shí)很有意思,值得我們學(xué)習(xí)。所以這個(gè)SCL要解決的關(guān)鍵問(wèn)題就是,如何讓模型看到這些領(lǐng)域詞,能轉(zhuǎn)化成通用詞。比如在情感分類(lèi)中,看到評(píng)論“這個(gè)電腦運(yùn)行很快!”就能反應(yīng)出來(lái)這個(gè)就是“這個(gè)電腦好!”。SCL的方法就是,我有一個(gè)通用詞的list,把這些詞從句子中挖去,然后讓剩下的部分來(lái)預(yù)測(cè)出是否包含這個(gè)詞。構(gòu)造這樣的任務(wù),就相當(dāng)于學(xué)習(xí)一個(gè)“通用語(yǔ)言轉(zhuǎn)化器”,把個(gè)性化的語(yǔ)言,轉(zhuǎn)化成通用的語(yǔ)言。

當(dāng)然,由于是2006年的論文,所以是采用傳統(tǒng)的機(jī)器學(xué)習(xí)方法來(lái)做,得到句子表示也是通過(guò)矩陣分解這樣的方法。這個(gè)16年的新論文,則是使用的深度學(xué)習(xí)的方法進(jìn)行改良和簡(jiǎn)化,讓它變得更強(qiáng)大。

2. 跟傳統(tǒng)經(jīng)典方法的的主要不同

本文提到的主要傳統(tǒng)方法有兩個(gè),一個(gè)就是著名的06年的SCL,一個(gè)是大名鼎鼎的Bengio團(tuán)隊(duì)在11年ICML的使用auto-encoder的工作。

這兩個(gè)工作的一個(gè)共同點(diǎn)是,是分兩步進(jìn)行的,即是一個(gè)序列化的方法(learn sequentially),先得到一個(gè)特征表示,改善原來(lái)的文本特征,然后再使用經(jīng)典的模型進(jìn)行預(yù)測(cè)。

本論文提出的方法,既可以是兩步走的序列化方法,也可以是joint learning,讓輔助任務(wù)跟主任務(wù)共同學(xué)習(xí)。

另外,之前的auto-encoder的做法,在數(shù)據(jù)預(yù)處理的步驟,沒(méi)有考慮情感分類(lèi)任務(wù),也就是跟最終要做的任務(wù)無(wú)關(guān),這當(dāng)然也不夠好。

3. 本文是一個(gè)transductive方法,即訓(xùn)練的時(shí)候要利用到全局?jǐn)?shù)據(jù)

訓(xùn)練可用的數(shù)據(jù)包括:

標(biāo)簽的訓(xùn)練集(source domain)

無(wú)標(biāo)簽的測(cè)試集(target domain)

4. 輔助任務(wù)的設(shè)計(jì)&對(duì)原句子表示的加強(qiáng)

作者設(shè)計(jì)了兩個(gè)輔助任務(wù):預(yù)測(cè)一句話(huà)中是否有正/負(fù)的通用情感詞。

當(dāng)然,預(yù)測(cè)前,需要把句子中的通用情感詞給挖掉,用剩下的詞來(lái)預(yù)測(cè)。這樣設(shè)計(jì)的依據(jù)是什么呢?如果一句話(huà)中包含來(lái)通用情感詞,比如“好”,那么這句話(huà)多半就是正面的情感,那么這句話(huà)剩下的其他的部分,應(yīng)該也大概率會(huì)包含一些領(lǐng)域特定的反應(yīng)情感的詞,比如“(電腦)很快”。那么我們訓(xùn)練一個(gè)能夠使用這些領(lǐng)域特定的詞預(yù)測(cè)通用情感詞的模型,就可以得到一個(gè)“通用情感轉(zhuǎn)化器”,把各種不同領(lǐng)域的句子,轉(zhuǎn)化成通用的表示。

輔助任務(wù)的損失函數(shù)如下:

fbd05280-cab2-11eb-9e57-12bb97331649.png

就是二分類(lèi)交叉熵?fù)p失之和。

如下圖所示,左半邊就是一個(gè)傳統(tǒng)的分類(lèi)模型。右邊的就是輔助任務(wù)對(duì)應(yīng)的模型。

fbf026fa-cab2-11eb-9e57-12bb97331649.png

通過(guò)把原句子的通用情感詞替換成[UNK],然后使用輔助任務(wù)訓(xùn)練一個(gè)新的模型,就可以得到一個(gè)通用的句子表示向量,也就是圖中的藍(lán)色的向量。

最后,把這個(gè)向量,跟原句子向量拼接起來(lái),就得到來(lái)加強(qiáng)版的句子表示,最終使用這個(gè)句子表示來(lái)做情感分類(lèi)任務(wù)。

5. 聯(lián)合訓(xùn)練joint learning

上面講的方法,依然是分兩步做的,這樣會(huì)有些麻煩。其實(shí)整個(gè)框架可以同時(shí)訓(xùn)練,也就是把兩部分的損失函數(shù)合在一起進(jìn)行優(yōu)化:

fc460a5c-cab2-11eb-9e57-12bb97331649.png

注意,兩部分的loss,分別來(lái)自不同的數(shù)據(jù)集,但是在輔助模型分布,是兩部分?jǐn)?shù)據(jù)都會(huì)使用的,見(jiàn)圖中畫(huà)藍(lán)線(xiàn)的地方。

就是代碼實(shí)現(xiàn)上,我一開(kāi)始想不通如何讓兩個(gè)不同的數(shù)據(jù)集(labeled source data和unlabeled target data)放在一起同時(shí)訓(xùn)練,看了看作者的代碼也沒(méi)看明白(基于Lua的torch寫(xiě)的),直到我看到了作者readme最后寫(xiě)了一個(gè)提示:

fc7c9b30-cab2-11eb-9e57-12bb97331649.png

就是說(shuō),所謂的joint learning,并不是真正的joint,相當(dāng)于一種incremental learning(增量學(xué)習(xí))。每個(gè)epoch,先把source部分的數(shù)據(jù)給訓(xùn)練了,然后再輸入target部分來(lái)優(yōu)化auxiliary部分的模型。

6. 如何選擇pivot words

本文使用了一種叫weighted log-likelihood ratio(WLLR)的指標(biāo)來(lái)選擇最通用的情感詞作為pivot words。這個(gè)WLLR的公式如下:

fcc2855a-cab2-11eb-9e57-12bb97331649.png

公式里的y就是標(biāo)簽,而y一杠是相反的標(biāo)簽。w則代表某個(gè)詞。從公式可以看出,當(dāng)一個(gè)詞在一個(gè)標(biāo)簽的文本中經(jīng)常出現(xiàn),而在相反標(biāo)簽的文本中出現(xiàn)很少,那么這個(gè)詞的WLLR值就高。

在SCL論文中,使用的是互信息,但是作者發(fā)現(xiàn)互信息偏愛(ài)那些低頻詞,相比之下WLLR則公平一些,因此作者選擇WLLR。

7. 數(shù)據(jù)集和實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果主要表明,Joint Learning確實(shí)可以。但Sequential則效果不敢恭維。。。這一點(diǎn)是我覺(jué)得容易讓人詬病的地方,畢竟按照前文中介紹的,即使是Sequential,也因?yàn)閷W(xué)習(xí)到了很好的句子表示,應(yīng)該效果也很不錯(cuò)才對(duì)。

另外實(shí)驗(yàn)結(jié)果中,對(duì)比一下機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法可以看出,只是用離散特征,效果完全比不是深度學(xué)習(xí)使用連續(xù)特征的方法。注意,這里的NN是指CNN,使用了詞向量,而詞向量相當(dāng)于已經(jīng)擁有了很多外部知識(shí)了,所以一個(gè)單純的CNN,不進(jìn)行任何的domain adaptation的設(shè)計(jì),都比傳統(tǒng)的SCL等方法都好。

作者還做了一些“使用部分target標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練”的實(shí)驗(yàn):發(fā)現(xiàn),也有微弱的提升(0.6%實(shí)在不算多哈)。并且,隨著標(biāo)注數(shù)據(jù)量的提升,差距還在縮?。?/p>

8. Case Study

這里的case study值得學(xué)習(xí),分析的很細(xì)致,邏輯清晰,還印證了論文的理論假設(shè)。即,作者對(duì)比了單純的CNN和使用了輔助任務(wù)來(lái)訓(xùn)練的CNN,在分類(lèi)時(shí)的重要詞匯是哪些,發(fā)現(xiàn)了一些有趣的現(xiàn)象。

我們這里稱(chēng)單純的CNN為NaiveNN,使用輔助任務(wù)的序列化方法為Sequential,聯(lián)合訓(xùn)練的則為Joint。其中,Sequential和Joint又可以把模型分成兩個(gè)部分,分別為-original和-auxiliary。

總結(jié)一下:

NaiveNN抽取出來(lái)的,多半都是“通用情感詞”;

Sequential-original提取出來(lái)的跟NaiveNN類(lèi)似;

Sequential-auxiliary提取出的,多半是“領(lǐng)域詞”,包括“領(lǐng)域情感詞”和“領(lǐng)域類(lèi)型詞”,后者是該領(lǐng)域的一些特征詞,但并不是情感詞,所以是個(gè)噪音,可能會(huì)對(duì)情感模型產(chǎn)生負(fù)面影響;

Joint-auxiliary則提取出的基本都是“領(lǐng)域情感詞”,即相比于sequential少了噪音;

Joint-original則可提取出“通用情感詞”和“領(lǐng)域情感詞”,因?yàn)樗鷄ux部分共享了sentence embedding。

雖然case study一般都是精挑細(xì)選過(guò)的,但至少作者分析總結(jié)的還是很到位,也就姑且信了。

最后:

總的來(lái)說(shuō),這是一個(gè)想法較為新穎,方法較為實(shí)用,思路也make sense的工作。巧妙地借用了SCL的思想,并做了合理的簡(jiǎn)化和升級(jí),取得了還不錯(cuò)的效果。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26208
  • SCL
    SCL
    +關(guān)注

    關(guān)注

    1

    文章

    244

    瀏覽量

    18028
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    355

    瀏覽量

    23432

原文標(biāo)題:使用輔助任務(wù)來(lái)提升情感分類(lèi)領(lǐng)域適應(yīng)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    汽車(chē)駕駛輔助系統(tǒng)領(lǐng)域首個(gè)強(qiáng)制性國(guó)家標(biāo)準(zhǔn)發(fā)布

    1月28日,一則消息在中國(guó)汽車(chē)安全領(lǐng)域引發(fā)震動(dòng):我國(guó)汽車(chē)駕駛輔助系統(tǒng)領(lǐng)域的首個(gè)強(qiáng)制性國(guó)家標(biāo)準(zhǔn)《輕型汽車(chē)自動(dòng)緊急制動(dòng)系統(tǒng)技術(shù)要求及試驗(yàn)方法》(GB39901—2025)正式發(fā)布,并將于2028年1月1日起實(shí)施。
    的頭像 發(fā)表于 02-05 09:41 ?524次閱讀

    時(shí)間基準(zhǔn)的核心力量:低相噪銣原子振蕩時(shí)鐘的多領(lǐng)域應(yīng)用解析

    操作精準(zhǔn)執(zhí)行。同時(shí),其長(zhǎng)壽命設(shè)計(jì)能夠滿(mǎn)足航天任務(wù)的長(zhǎng)期運(yùn)行需求,減少設(shè)備維護(hù)頻次,提升任務(wù)可靠性。 此外,在無(wú)人機(jī)、航空測(cè)繪、機(jī)載雷達(dá)等航空領(lǐng)域,SYN010C 同樣展現(xiàn)出獨(dú)特優(yōu)勢(shì)。它能夠?yàn)樵O(shè)備提供
    發(fā)表于 01-16 10:20

    LuatOS AGPS 輔助定位開(kāi)發(fā)實(shí)戰(zhàn)教程

    為解決傳統(tǒng) GPS 定位慢、功耗高的痛點(diǎn),AGPS 技術(shù)通過(guò)輔助數(shù)據(jù)注入提升效率。本教程以 LuatOS 開(kāi)發(fā)環(huán)境為基礎(chǔ),循序漸進(jìn)地講解 AGPS 輔助定位的開(kāi)發(fā)流程,包括 AGPS 服務(wù)器對(duì)接
    的頭像 發(fā)表于 10-31 17:34 ?1196次閱讀
    LuatOS AGPS <b class='flag-5'>輔助</b>定位開(kāi)發(fā)實(shí)戰(zhàn)教程

    廣和通發(fā)布端側(cè)情感對(duì)話(huà)大模型FiboEmo-LLM

    9月,廣和通正式發(fā)布自主研發(fā)的端側(cè)情感對(duì)話(huà)大模型FiboEmo-LLM。該模型專(zhuān)注于情感計(jì)算與自然語(yǔ)言交互融合,致力于為AI玩具、智能陪伴設(shè)備等終端場(chǎng)景提供“情感理解-情感響應(yīng)”一體化
    的頭像 發(fā)表于 09-26 13:37 ?1913次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的未來(lái):提升算力還是智力

    ,使其與新知識(shí)兼容。 2、遷移學(xué)習(xí) 遷移學(xué)習(xí)只尋求利用特定領(lǐng)域的知識(shí)來(lái)幫助目標(biāo)領(lǐng)域學(xué)習(xí),利用在一個(gè)任務(wù)上訓(xùn)練好的模型,來(lái)完成另一個(gè)相關(guān)的
    發(fā)表于 09-14 14:04

    Task任務(wù):LuatOS實(shí)現(xiàn)“任務(wù)級(jí)并發(fā)”的核心引擎

    Task任務(wù)通過(guò)其強(qiáng)大的并發(fā)處理能力,使LuatOS能夠在單線(xiàn)程環(huán)境中模擬多線(xiàn)程執(zhí)行,通過(guò)協(xié)程的掛起與恢復(fù)機(jī)制,實(shí)現(xiàn)任務(wù)級(jí)的并行操作,顯著提升系統(tǒng)效能。 sys核心庫(kù)是LuatOS運(yùn)行框架庫(kù),也是
    的頭像 發(fā)表于 08-28 13:49 ?533次閱讀
    Task<b class='flag-5'>任務(wù)</b>:LuatOS實(shí)現(xiàn)“<b class='flag-5'>任務(wù)</b>級(jí)并發(fā)”的核心引擎

    用快手電商 API 實(shí)現(xiàn)快手小店商品評(píng)論情感分析

    ? 在電商運(yùn)營(yíng)中,商品評(píng)論是用戶(hù)反饋的核心來(lái)源,它能直接影響購(gòu)買(mǎi)決策和產(chǎn)品優(yōu)化。通過(guò)情感分析,商家可以自動(dòng)識(shí)別評(píng)論中的正面、負(fù)面或中性情緒,從而快速響應(yīng)問(wèn)題、提升服務(wù)質(zhì)量??焓蛛娚唐脚_(tái)提供了開(kāi)放
    的頭像 發(fā)表于 08-26 15:08 ?589次閱讀
    用快手電商 API 實(shí)現(xiàn)快手小店商品評(píng)論<b class='flag-5'>情感</b>分析

    QNX助力WeRide打造高級(jí)輔助駕駛系統(tǒng)

    QNX(黑莓子公司)正在為中國(guó)領(lǐng)先的輔助駕駛提供商WeRide 提供以操作系統(tǒng)為核心的基礎(chǔ)軟件平臺(tái)支持,助力其開(kāi)發(fā)下一代 L2++ 高級(jí)駕駛輔助系統(tǒng)(ADAS WePilot),提升系統(tǒng)的智能化、穩(wěn)定性與
    的頭像 發(fā)表于 07-31 15:59 ?1041次閱讀

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】+混合專(zhuān)家

    并非在所有任務(wù)中都被激活,而是根據(jù)輸入數(shù)據(jù)的特點(diǎn),由門(mén)控網(wǎng)絡(luò)精準(zhǔn)篩選后參與運(yùn)算。這就如同一個(gè)高效的任務(wù)分配系統(tǒng),讓每個(gè)路由專(zhuān)家專(zhuān)注于處理特定類(lèi)型的輸入或特征。調(diào)用最專(zhuān)業(yè)的“知識(shí)”來(lái)進(jìn)行分析,顯著
    發(fā)表于 07-22 22:14

    51Sim利用NVIDIA Cosmos提升輔助駕駛合成數(shù)據(jù)場(chǎng)景的泛化性

    輔助駕駛領(lǐng)域的經(jīng)驗(yàn)成功拓展到了具身智能領(lǐng)域,為端到端輔助駕駛仿真測(cè)試與具身智能機(jī)器人訓(xùn)練提供了海量高置信度的合成數(shù)據(jù),目前相關(guān)成果已在多個(gè)主機(jī)廠和智能裝備企業(yè)中實(shí)現(xiàn)落地應(yīng)用。
    的頭像 發(fā)表于 06-26 09:09 ?1404次閱讀

    利用NVIDIA Isaac Lab訓(xùn)練工業(yè)機(jī)器人齒輪裝配任務(wù)

    ,對(duì)精度和準(zhǔn)確性有極高要求。當(dāng)前的機(jī)器人裝配系統(tǒng)長(zhǎng)期受限于固定自動(dòng)化模式。這些系統(tǒng)往往為特定任務(wù)量身打造,需要大量人工工程來(lái)完成設(shè)計(jì)與部署,因而限制了其適應(yīng)性和可擴(kuò)展性。
    的頭像 發(fā)表于 06-12 16:00 ?1913次閱讀
    利用NVIDIA Isaac Lab訓(xùn)練工業(yè)機(jī)器人齒輪裝配<b class='flag-5'>任務(wù)</b>

    SMA接口在汽車(chē)電子復(fù)雜環(huán)境下的適應(yīng)性剖析

    德索SMA接口在汽車(chē)電子復(fù)雜環(huán)境下既具備一定的適應(yīng)性?xún)?yōu)勢(shì),也面臨諸多挑戰(zhàn)。通過(guò)持續(xù)的技術(shù)創(chuàng)新與工藝改進(jìn),德索有望進(jìn)一步提升SMA接口在汽車(chē)電子領(lǐng)域適應(yīng)性與可靠性,為汽車(chē)電子技術(shù)的發(fā)展
    的頭像 發(fā)表于 06-04 09:04 ?880次閱讀
    SMA接口在汽車(chē)電子復(fù)雜環(huán)境下的<b class='flag-5'>適應(yīng)</b>性剖析

    NVIDIA如何讓靈巧機(jī)器人更加適應(yīng)環(huán)境

    如今,機(jī)械臂被廣泛應(yīng)用于裝配、包裝、檢測(cè)等眾多領(lǐng)域。然而,它們?nèi)孕桀A(yù)先編程才能執(zhí)行特定且往往是重復(fù)性的任務(wù)。為了滿(mǎn)足在大多數(shù)環(huán)境中對(duì)適應(yīng)性日益增長(zhǎng)的需求,需要具備感知能力的機(jī)械臂,以便根據(jù)
    的頭像 發(fā)表于 05-09 15:01 ?1149次閱讀
    NVIDIA如何讓靈巧機(jī)器人更加<b class='flag-5'>適應(yīng)</b>環(huán)境

    DevEco Studio AI輔助開(kāi)發(fā)工具兩大升級(jí)功能 鴻蒙應(yīng)用開(kāi)發(fā)效率再提升

    HarmonyOS應(yīng)用的AI智能輔助開(kāi)發(fā)助手——CodeGenie,該AI助手深度集成在DevEco Studio中,提供鴻蒙知識(shí)智能問(wèn)答、鴻蒙ArkTS代碼補(bǔ)全/生成和萬(wàn)能卡片生成等功能,提升了開(kāi)發(fā)效率,深受廣大
    發(fā)表于 04-18 14:43