欧美成人在线成人,日韩欧美精品在线视频

引言

2020年，自然語言處理領(lǐng)域頂級的國際學(xué)術(shù)會議EMNLP（Conference on Empirical Methods in Natural Language Processing）共錄取論文751篇

開放域信息抽取是信息抽取任務(wù)的另一個分支任務(wù)，其中抽取的謂語和實體并不是特定的領(lǐng)域，也并沒有提前定義好實體類別。更一般的，開放域信息抽取的目的是抽取出所有輸入的文本中的形如《主語，謂語，賓語》的三元組。開放域信息抽取對于知識的構(gòu)建至關(guān)重要，可以減少人工標(biāo)注的成本和時間。

本次Fudan DISC實驗室將分享EMNLP2020中關(guān)于開放域信息抽取和文本知識結(jié)構(gòu)化的3篇論文，介紹最新的開放域信息抽取的研究。

文章概覽

關(guān)于開放域信息抽取神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方式的系統(tǒng)比較（Systematic Comparison of Neural Architectures and Training Approaches for Open Information Extraction）

該文將神經(jīng)網(wǎng)絡(luò)基礎(chǔ)的OpenIE框架系統(tǒng)分解為三個基本模塊：嵌入塊、編碼塊和預(yù)測模塊。在探究各種組合時，他們發(fā)現(xiàn)：pre-training的語言模型+Transformer編碼器+LSTM預(yù)測層在OpenIE2016基準(zhǔn)上有了巨大的改進(jìn)（提升200%）。此外，他們還提到，NLL損失函數(shù)可能更偏向淺層預(yù)測。

OpenIE6：開放域信息的迭代網(wǎng)格標(biāo)記抽取以及并列短語分析（OpenIE6： Iterative Grid Labeling and Coordination Analysis for Open Information Extraction）

該文將OpenIE任務(wù)的三元組抽取構(gòu)建為2-D（#extraction #words）網(wǎng)格標(biāo)記任務(wù)，使得通過迭代抽取可以將一個句子中的所有三元組都有概率被模型識別出來。該文將他們的抽取方式稱為IGL（Iterative Grid Labeling），并在計算損失函數(shù)的時候加4種入關(guān)于詞性的軟約束，并在最終的loss計算時加起來作為約束懲罰項。實驗結(jié)果表明了他們模型的有效。

DualTKB：在文本和知識庫之間進(jìn)行雙重學(xué)習(xí) （DualTKB： A Dual Learning Bridge between Text and Knowledge Base）論文地址：https://www.aclweb.org/anthology/2020.emnlp-main.694.pdf

該文建立了多個任務(wù)將某些文本（選項A）或KB中的路徑三元組（選項B）作為輸入，然后兩個解碼器分別生成文本（A）或另一個三元組（B）。也就是說，你可以有多種路線，例如A-B（從文本中提取三元組）或B-B（知識圖譜補(bǔ)全）等。重復(fù)這個過程，你可以從文本中迭代提取更多三元組，或者對知識圖譜反向解碼為文本。

論文細(xì)節(jié)

任務(wù)定義

現(xiàn)有的OpenIE的任務(wù)定義主要分為兩種：1）序列標(biāo)注、2）子序列提取

其中序列標(biāo)注框架最為常見，下圖為用序列標(biāo)注任務(wù)設(shè)定的開放域信息抽取。例子中一共有7類標(biāo)簽

子序列通過模型生成大量的可能的子序列三元組組合，模型負(fù)責(zé)給這些候選組合進(jìn)行打分，并選出概率最高的幾個三元組作為抽取結(jié)果。

作者通過比較這兩種任務(wù)設(shè)定，總結(jié)出統(tǒng)一的OpenIE的任務(wù)設(shè)定：OpenIE任務(wù)將每一個問題定義為一個元組《X，Y》，其中將一個句子表示成有很多個詞語的序列，定義了一個合法的抽取結(jié)果集合。如果是建模為序列標(biāo)注問題，則是BIO標(biāo)簽；如果看作子序列提取問題，則是子序列集合。

方法

模型結(jié)構(gòu)：文中對神經(jīng)網(wǎng)絡(luò)OpenIE的方法進(jìn)行全方位的總結(jié)，作者將目前的框架分為了三個模塊：1）Embedding Module；2）Encoding Module；3）Prediction Module；各模塊的種類如下圖。

作者針對以上三個模塊進(jìn)行了不同組合，做了很多實驗進(jìn)行比較哪種組合方式是最好的。

訓(xùn)練方法：在進(jìn)行訓(xùn)練的時候會遇到標(biāo)簽分類負(fù)樣本標(biāo)簽的數(shù)量遠(yuǎn)遠(yuǎn)大于其他標(biāo)簽數(shù)量的情況，作者對這個問題提出了三種解決方案。如下圖所示，第一種解決方案是在計算損失函數(shù)時不計算預(yù)測出標(biāo)簽的數(shù)據(jù)；第二種是計算預(yù)測出標(biāo)簽和非標(biāo)簽的邊緣部分的損失函數(shù)；第三種是只計算邊緣部分的非部分的損失函數(shù)值。

數(shù)據(jù)集和評價指標(biāo)數(shù)據(jù)集來自于OIE16的benchmark 數(shù)據(jù)集，評價指標(biāo)采用F1值和AUC-PR。

實驗結(jié)果

從主實驗可以看出最優(yōu)的組合是 ALBERT+Transformer+LSTM，并且用最后一種訓(xùn)練方式訓(xùn)練的模型。

作者對每個模塊和訓(xùn)練方式還進(jìn)行了消融實驗如下。

該實驗說明，embedding層使用Transformer效果最好。

該實驗說明，預(yù)測層使用LSTM效果最好。

該實驗說明，使用最后一種訓(xùn)練方式的效果是最好的。

論文動機(jī)

文中介紹了目前OpenIE最主流的兩種框架：1）生成類的系統(tǒng)（通過迭代多次編碼輸入的文本，以進(jìn)行多次抽?。?）序列標(biāo)注系統(tǒng)。這兩種框架都存在弊端：1）生成系統(tǒng)多次重復(fù)encoding輸入的文本，會造成抽取速度慢，并不能很好的適應(yīng)大數(shù)據(jù)時代的大量網(wǎng)頁抽取場景；2）而序列標(biāo)注系統(tǒng)，對于每個抽取都是獨(dú)立的，并不能獲取其他抽取內(nèi)容的信息。

任務(wù)定義

給定一句話作為輸入，然后抽取出一個集合作為抽取的結(jié)果，其中每個是一個的三元組。由于一句話中可能含有多個可抽取的三元組，如下圖。

作者將這個任務(wù)建模為一個在2-D網(wǎng)格上進(jìn)行迭代抽取的任務(wù)，網(wǎng)格的大小為，橫坐標(biāo)為句子分詞，縱坐標(biāo)為抽取出的結(jié)果。例如，坐標(biāo)為的網(wǎng)格代表第n個詞的第m次的預(yù)測標(biāo)簽，如下圖。

方法

模型（Iterative Grid Labeling）

作者提出了一個迭代網(wǎng)格抽取方法，去完成這個網(wǎng)格抽取任務(wù)，其實就是利用迭代抽取，然后將上一節(jié)定義的的網(wǎng)格填滿預(yù)測標(biāo)簽，模型圖如下：

該結(jié)構(gòu)一共迭代M次，每一次詞向量都需要經(jīng)過一個相同結(jié)構(gòu)的模塊如上圖，模塊中包含一個transformer 編碼器的self-att層、一個又多層感知機(jī)組成的標(biāo)簽分類器和一個標(biāo)簽嵌入層。每次迭代后詞向量編碼器的輸出會加入下一次的輸入中去，以達(dá)到迭代信息傳遞的作用。文中作者將該方法稱做IGL-OIE，訓(xùn)練得到的損失函數(shù)為。

網(wǎng)格約束

在進(jìn)行抽取的時候，作者提出了四種軟約束來限制抽取的結(jié)果，一共有四種：1）POS Coverage（POSC）；2）Head Verb Coverage（HVC）；3）Head Verb Exclusivitu（HVE）；4）Extraction Count（EC）。POSC約束了句子中的每個名詞、動詞、形容詞和副詞至少有一個要出現(xiàn)在抽取結(jié)果中；HVC約束了句中每一個頭動詞（有意義的動詞）至少出現(xiàn)在其中一個抽取結(jié)果的關(guān)系中；HVE約束了每個抽取結(jié)果的關(guān)系只能有一個動詞；EC約束了所有抽取結(jié)果的數(shù)量要少于句中所有頭動詞的數(shù)量。作者根據(jù)以上定義的約束，制定了以下四種損失函數(shù)懲罰項：

，

。

將以上約束和抽取訓(xùn)練的loss加起來得到總的損失：

并列連詞檢測

作者利用網(wǎng)格抽取和前人的并列連詞抽取工具，設(shè)計了并列連詞檢測的方法稱做IGL-CA，如下圖

真正訓(xùn)練的時候先用IGL-CA將長句根據(jù)并列連詞位置拆成簡單句，再進(jìn)行IGL-OIE進(jìn)行抽取。

數(shù)據(jù)集和實驗準(zhǔn)備

訓(xùn)練數(shù)據(jù)集來自于Open-IE4，同時也是用來訓(xùn)練IMoJIE的數(shù)據(jù)集。用于比較的模型有IMoJIE、RnnOIE、SenceOIE、SpanOIE、MinIE、ClasusIE、OpenIE4和OpenIE5。實驗評價在CaRB、CaRB（1-1）、OIE6-C和Wire57-C上，并以F1和AUC作為評價指標(biāo)。

實驗結(jié)果

從實驗結(jié)果看出本文提出的OpenIE6在三個評價數(shù)據(jù)集上都取得了最好的成績，而且當(dāng)加入了軟約束后速度加快了5倍，該模型在準(zhǔn)確率不降的基礎(chǔ)上，加快了推理速度。

作者還分析了各約束間的關(guān)系，發(fā)現(xiàn)最有用的是POSC約束。

動機(jī)和貢獻(xiàn)

構(gòu)建知識圖譜是一項很費(fèi)人力的事情，這項工作提出了一種知識的轉(zhuǎn)換器，用于轉(zhuǎn)換純文本和知識圖。換句話說，如果給模型很多句子，模型就可以把這些句子變成一個圖存儲成知識圖譜。反過來，給模型一個圖，可以利用圖中節(jié)點(diǎn)和邊的關(guān)系，將圖還原成帶有知識的句子。

任務(wù)定義

任務(wù)1（文本路徑）：

給定一句話，然后生成一個具有格式正確的實體和關(guān)系的路徑，該路徑和實體可以屬于已經(jīng)構(gòu)造的KB，也可以以一種實際有意義的方式對其進(jìn)行擴(kuò)展。此條件生成被構(gòu)造為稱為的翻譯任務(wù)，其中。

任務(wù)2（路徑文本）：

給定KB路徑，則生成描述性句子，將路徑中的實體和關(guān)系連貫地合并。此條件生成是稱為的翻譯任務(wù)，其中。

下圖給定了一些標(biāo)記符號：

方法

由于缺少KB和文本對應(yīng)的數(shù)據(jù)集，所以作者首先想到了采用自編嗎器的方式設(shè)計了四個無監(jiān)督的任務(wù)：（1）文本到文本（AA）（2）圖到圖（BB）（3）文本到圖到文本（ABA）（4）圖到文本到圖（BAB）。這四個任務(wù)分別對應(yīng)上圖的、、和。計算公式如下：

由于作者采用的數(shù)據(jù)集是ConceptNet，然后作者找到了構(gòu)建ConceptNet的語料集合，然后作者采用實體和關(guān)系在文本中進(jìn)行模糊匹配的方式對齊了一些圖路徑和文本的訓(xùn)練對，由于這個轉(zhuǎn)換是不準(zhǔn)確的所以只能是弱監(jiān)督學(xué)習(xí)，在模型圖中對應(yīng)的任務(wù)是（1）圖到文本（BA）和（2）文本到圖（AB），損失函數(shù)如下：

實驗設(shè)計

本文的實驗選取了常識領(lǐng)域的文本數(shù)據(jù)OMCS，和常識知識圖譜ConceptNet（CN600K）。因為CN600K中的部分三元組是從OMCS中抽取得來，所以部分文本和路徑所表達(dá)的知識是相同的。對于弱監(jiān)督數(shù)據(jù)，文中使用Fuzzy Matching的方式對齊文本和路徑。需要注意的是，因為對齊的數(shù)據(jù)是基于路徑和文本之間的相似度進(jìn)行選擇的，所以對齊的數(shù)據(jù)是有噪聲的。

文中涉及文本生成任務(wù)和知識圖譜補(bǔ)全任務(wù)，所以評價指標(biāo)根據(jù)任務(wù)的不同有著變化?？傮w來說，生成任務(wù)包括BLEU2、BLEU3、Rougel和F1；知識圖譜補(bǔ)全任務(wù)采用了常用的MRR和HITS@N指標(biāo)。由于作者還設(shè)計了一個通過一堆句子生成新圖的任務(wù)，所以需要一個指標(biāo)來評價新圖和原來的圖有多少不同，因此引入了圖編輯距離（GED）來評價這個任務(wù)。

實驗結(jié)果

文本路徑互轉(zhuǎn)的性能

從文本到文本的效果很好，但是如果通過中間圖轉(zhuǎn)化的話效果就會差很多，說明跨模態(tài)的知識遷移能力需要提高。

如果直接用路徑生成文本，效果就更差了，但是本文提出了一種新穎的思想。

知識圖譜補(bǔ)全任務(wù)

在知識圖譜補(bǔ)全任務(wù)上，本文提出的模型優(yōu)于前人的baseline，值得注意的是，代表了弱監(jiān)督的比例，從實驗結(jié)果來看，并不是弱監(jiān)督越多越好，因為帶有很多噪音。因此作者還對應(yīng)該加入多少弱監(jiān)督進(jìn)行了探索，實驗結(jié)果如下：

發(fā)現(xiàn)大致是加入0.5比例的監(jiān)督效果是在最好的模型上表現(xiàn)提升較多。
編輯：lyn

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4838

瀏覽量
107852
LSTM

LSTM

+關(guān)注

關(guān)注
0

文章
63

瀏覽量
4390

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

開放域信息抽取和文本知識結(jié)構(gòu)化的3篇論文詳細(xì)解析

評論