91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

細解讀關系抽取SOTA論文

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:廠妹 ? 2021-02-10 17:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文主要詳細解讀關系抽取SOTA論文Two are Better than One:Joint Entity and Relation Extraction with Table-Sequence Encoders[1], 順帶簡要介紹關系抽取的背景,方便完全不了解童鞋。

信息抽取

我們說的信息抽取一般是指從文本數(shù)據(jù)中抽取特定數(shù)據(jù)結構信息的一種手段。對于不同結構形式的數(shù)據(jù)如結構化文本,半結構化文本,自由文本,有各自對應的方案,其中從自由文本中抽取難度最大??傊?,我們的目的是希望在海量文本中,快速抽出我們關注的事實。

了解信息抽取必須要知道關系抽取。

關系抽取

大部分情況下,我們喜歡用三元組的數(shù)據(jù)結構來描述抽取到的信息

三元組

三元組的表達能力非常豐富,幾乎所有事情都可以自然或者強行的表達成三元組,比如隨便一句”今天天氣真冷“ 表達為天氣-狀態(tài)-冷。

三元組與后續(xù)的知識圖譜工作非常適配,如Neo4j等圖數(shù)據(jù)庫就是以三元組為存儲單位,圖譜的查詢推斷等工具使用三元組比普通的關系型數(shù)據(jù)庫來的方便的多。

三元組千千萬,我應該怎么抽?

Schema

當我們拿到一個信息抽取的任務,需要明確我們抽取的是什么,”今天天氣真冷“,我們要抽的天氣的狀態(tài)天氣-狀態(tài)-冷,而非今天-氣候-冷(雖然也可以這樣抽),因此一般會首先定義好我們要抽取的數(shù)據(jù)結構模式shcema, 會確定謂詞以及主語并與的類型

一個三元組schema的例子,其中Subject_type代表主語類型,Predicate是謂詞,Object_type指賓語類型:

Subject_type:人物 Predicate:出生地 Object_type:地點

確定了schema,我們一般如何抽取呢?

常規(guī)RE方案

目前主流關系抽取一般兩種解決方法

pipline兩步走:將關系抽取分解為NER任務和分類任務,NER任務標注主語或賓語,分類主要針對定義的schema中的有限個謂詞進行分類。根據(jù)具體任務不同,有些可能是兩步走或者三步走,pipline任務的順序先分類還是先標注也會有差異

Pipline優(yōu)勢:每一步分別針對各個任務進行,表征是task-specific, 相對來說精度較高

Pipline缺陷:- 任務有順序會存在誤差傳遞問題,即在預測時下一步任務會受上一步誤差影響,而在訓練階段沒有這種誤差,因此存在訓練和預測階段的gap- 分開的任務在一句話中多個實體關系時,比較難解決實體和關系的對應問題,以及重疊關系

joint learning:joint learing可以理解為采用多任務的方式,同時進行NER和關系分類任務, 在眾多joint learning中最出眾的是采用tabel filled 方式,即任務的輸出是filled一張有text-sequence構成的表,在表中的位置表達除了詞與詞的連接,該位置的標注則標出了謂語(如下圖)

abb062f2-603d-11eb-8b86-12bb97331649.jpg

優(yōu)勢:1. 兩個任務的表征有交互作用可能輔助任務的學習2. 不用訓練多個模型,一個模型解決問題,不存在訓練與預測時的gap

缺陷:1. 兩個任務的表征可能沖突,影響任務效果2. 解決了主謂賓之間的對應關系,無法解決重疊問題3. Fill table本質仍然是轉成sequence來fill,未能充分利用table結構信息(下文會解釋)

下面重點解讀table fill方式的一篇SOTA,解決了joint learning的多任務表征沖突以及為利用table結構信息

RE with Table Sequence

終于來到本篇的主題啦,為了解決一般filled table的問題, 作者提出table-sequence encoder的方法,分別對table和sequence做表征,本文的最大貢獻在于

分別對table和sequence做表征(encoder),并設計了一個Table-Guided Attention來對table和sequence進行交互,這樣即不會完全共享表征導致對不同的任務表征沖突,也不會丟失表征的相互指導作用

在table encoder中采用多維GRU來捕獲更多的句子結構信息

在架構上table encoder和 sequence encoder多層交互

ac3efaee-603d-11eb-8b86-12bb97331649.jpg

下面仔細介紹各個部分,看看它是如何神奇做到SOTA的

Text Embedder

在上圖的結構圖中,Text Embedder采用類似FLAT分別做了基于lstm的char()和word(),以及基于bert的word ()作為預訓練的embedding ,并拼接起來

圖中

Table Encoder

整個Table Encoder部分由多個Table Encoding的單元組成,每個Encoding單元的輸入分別是起始輸入,對應senquence結構的輸入,以及上一個Tabel Encoding單元的輸出,Table Encoding 采用MDRNN結構提取輸入的特征信息,作者在這選擇MDGRU(多維度GRU),tabel結構本身有2維,加上前后層實際有4維,但是層的維度信息單向流動,實際上是只用到了3個方向()

aca0965a-603d-11eb-8b86-12bb97331649.jpg

如圖所示,是來自sequence的輸入,作者分別測了使用所有方向和分別使用幾個方向,發(fā)現(xiàn)上圖中a,c效果類似,這種多維GRU全面的考慮了整個table的結構信息,即一個詞的狀態(tài)跟其他所有詞的狀態(tài)相關,并且受其他詞的不同程度的影響,這種影響程度由GRU門控機制控制

Sequence Encoder

sequence Encoder 也由多個sequence encoding夠成,sequence encoding結構直接采用transformer中的encoder

acd7cc4c-603d-11eb-8b86-12bb97331649.jpg

只不過將其中的self attention替換為table-guide attention,這種attention的改造非常巧妙,能更好捕捉word-word之間的關系

ad42628c-603d-11eb-8b86-12bb97331649.jpg

正常的dot attention如上圖

Table-Guided attention具體來說:

為參數(shù)矩陣

采用加性

是table encoder中的table的隱藏節(jié)點,該節(jié)點由多個方向的經過GRU編碼得到,不管是哪個方向它的來源始終是由構造而來,理論上是可以由擬合而來,因此這里直接由 來代替 ,也就是這個attention,其實是計算了table 結構中各個位置對該的權重,是一個四面八方attention

剩下就是transform中正常的LayerNorm 和殘差結構了

輸出和loss

輸出比較常規(guī),loss采用常規(guī)

輸出:

loss:

實驗 and 效果

作者在各個數(shù)據(jù)集上進行實驗,對比各個目前SOTA分別有一定的提高,且時效果最佳,模型參數(shù)量不到5M,要什么自行車,附上開源地址[2],作者的代碼與論文在attention計算有一丟丟不一致,但是并不影響效果

ad840d72-603d-11eb-8b86-12bb97331649.jpg

責任編輯:xj

原文標題:關系抽取一步到位!

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5599

    瀏覽量

    124411
  • 自然語言
    +關注

    關注

    1

    文章

    292

    瀏覽量

    13991
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23282

原文標題:關系抽取一步到位!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Hirose間距高速線纜與線束設計實踐與選型指南

    Hirose Electric Co Ltd(日本廣瀨電機)在間距高速連接解決方案上具有長達80余年的研發(fā)與制造積累,尤其在間距線纜與板對線(Wire-to-Board
    的頭像 發(fā)表于 03-09 17:18 ?306次閱讀

    I-PEX 同軸線纜應用指南:高速攝像與高速接口的理想方案

    I-PEX 的同軸線纜是一類專為高速信號傳輸設計的極同軸互連線纜,通過與 CABLINE? 系列連接器配合使用,可以實現(xiàn)內部高速數(shù)據(jù)通道的高效傳輸。
    的頭像 發(fā)表于 12-17 14:24 ?364次閱讀
    I-PEX <b class='flag-5'>細</b>同軸線纜應用指南:高速攝像與高速接口的理想方案

    產品在工程打樣階段極同軸線束的標準型號選型指南

    在工程打樣階段,極同軸線束的標準型號選型,不僅關系到高速信號完整性,還影響項目推進效率。掌握阻抗、線徑、帶寬與端接方式等核心指標,合理利用標準型號資源,可以讓研發(fā)團隊更快從驗證走向量產。
    的頭像 發(fā)表于 10-03 16:55 ?1288次閱讀
    產品在工程打樣階段極<b class='flag-5'>細</b>同軸線束的標準型號選型指南

    USB3.1傳輸能用極同軸線嗎?要注意哪些選型誤區(qū)?

    同軸線束確實能夠用于 USB3.1 的高速傳輸,但前提是做好完整的設計與驗證工作。若能避開“線越越好”這樣的誤區(qū),合理平衡電氣性能、機械性能與工藝可行性,才能真正發(fā)揮極同軸線束在小型化、高速化產品中的優(yōu)勢。
    的頭像 發(fā)表于 09-26 14:28 ?1707次閱讀
    USB3.1傳輸能用極<b class='flag-5'>細</b>同軸線嗎?要注意哪些選型誤區(qū)?

    同軸線與傳統(tǒng)射頻同軸線區(qū)別有哪些?

    同軸線束與傳統(tǒng)射頻同軸線的差別,主要體現(xiàn)在尺寸、傳輸信號類型、應用場景和加工難度上。前者更多服務于高速數(shù)字信號傳輸,強調小型化與高速性;后者則立足于射頻通信,強調穩(wěn)定性與低損耗。兩者并非簡單的替代關系,而是在不同應用需求下各有優(yōu)勢。
    的頭像 發(fā)表于 09-18 15:52 ?1967次閱讀
    極<b class='flag-5'>細</b>同軸線與傳統(tǒng)射頻同軸線區(qū)別有哪些?

    同軸線束能做到多?揭秘高速互連中的極限工藝

    同軸線束不僅可以做到“極”,而且在這種微型化設計中,還能保持高速信號的完整性與傳輸穩(wěn)定性。它已經成為現(xiàn)代電子產品小型化和高性能化的幕后功臣。隨著材料與工藝的不斷提升,未來的極同軸線束必將突破更小的直徑極限,并在更多前沿應
    的頭像 發(fā)表于 09-08 15:02 ?1625次閱讀
    極<b class='flag-5'>細</b>同軸線束能做到多<b class='flag-5'>細</b>?揭秘高速互連中的極限工藝

    同軸線束和柔性電纜(FPC/FFC)的區(qū)別

    同軸線束和柔性電纜并不是相互替代的關系,而是針對不同應用需求的兩種解決方案:前者在高速、抗干擾、可靠性方面表現(xiàn)突出;后者則在柔性布線和低成本方面具有優(yōu)勢。工程師在設計時,應根據(jù)系統(tǒng)的速率需求、空間布局和成本預算做出合理選擇。
    的頭像 發(fā)表于 09-06 15:45 ?1442次閱讀
    極<b class='flag-5'>細</b>同軸線束和柔性電纜(FPC/FFC)的區(qū)別

    HarmonyOSAI編程智能代碼解讀

    CodeGenie > Explain Code,開始解讀當前代碼內容。 說明 最多支持解讀20000字符以內的代碼片段。 使用該功能需先完成CodeGenie登錄授權。 本文主要從參考引用自HarmonyOS官方文檔
    發(fā)表于 09-02 16:29

    同軸線束能否傳輸電源?設計中的應用邊界解析

    同軸線束用于高速信號通道,電源與地則通過其他更合適的線材來實現(xiàn),從而保證系統(tǒng)的整體性能和可靠性;極同軸線束并非不能傳輸電源,而是受限于線芯尺寸和散熱條件,不適合承載大電流。
    的頭像 發(fā)表于 08-24 15:26 ?1413次閱讀
    極<b class='flag-5'>細</b>同軸線束能否傳輸電源?設計中的應用邊界解析

    同軸線束(micro coaxial cable)常見的使用場景有哪些?

    無論是消費電子、醫(yī)療檢測,還是工業(yè)機器人、航空航天或測試測量,極同軸線束都以其出色的電氣性能和柔性布線能力成為核心互連方案。在未來更高速、更小型化的產品趨勢中,極同軸線束的重要性只會愈加突出。
    的頭像 發(fā)表于 08-23 13:40 ?1636次閱讀
    極<b class='flag-5'>細</b>同軸線束(micro coaxial cable)常見的使用場景有哪些?

    AURIX tc367通過 MCU SOTA 更新邏輯 IC 閃存是否可行?

    你好專家:我的用例是 MCU 通過 SPI 連接到邏輯 IC,邏輯 IC 連接到 8MB 閃存,但 MCU PFLASH 大小為 2MB,通過 MCU SOTA 更新邏輯 IC 閃存是否可行?
    發(fā)表于 08-11 06:36

    求助,關于TC387使能以及配置SOTA 中一些問題求解

    你好, 之前我拿到貴司給一個demo,里面有一些使能以及配置SWAP的代碼, 這里有些疑問 問題1. 判斷SOTA功能是否生效,demo中使用的是 SCU_STMEM1中的bit位, 代碼如下
    發(fā)表于 08-08 07:31

    HarmonyOS AI輔助編程工具(CodeGenie)代碼智能解讀

    。 選中.ets文件或者.cpp文件中需要被解釋的代碼行或代碼片段,右鍵選擇CodeGenie > Explain Code,開始解讀當前代碼內容。 說明 ?最多支持解讀20000字符以內
    發(fā)表于 07-17 17:02

    SPI協(xié)議,寄存器解讀

    最近在學習SPI協(xié)議,對寄存器操作不是特別熟練。發(fā)帖希望有大佬能從寄存器角度提供幫助,幫忙指導根據(jù)手冊去解讀協(xié)議。有償。
    發(fā)表于 05-22 20:08

    老板必修課:如何用NotebookLM 在上下班路上吃透一篇科技論文?

    常必要的,這有助于我們理解技術邊界,更好地定義產品并做出更精準的投資決策。 一,使用NotebookLM,隨身解讀科技論文 我經常使用的解讀科技論文的工具是Notebook,只需要把科
    的頭像 發(fā)表于 05-07 16:13 ?711次閱讀
    老板必修課:如何用NotebookLM 在上下班路上吃透一篇科技<b class='flag-5'>論文</b>?