91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自然語言處理中的事件抽取綜述

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:lucy ? 2021-01-07 15:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本系列文章主要總結(jié)近年來事件抽取方法總結(jié),包括中文事件抽取、開放域事件抽取、事件數(shù)據(jù)生成、跨語言事件抽取、小樣本事件抽取、零樣本事件抽取等。主要包括以下幾大部分:

定義(Define)

綜述(Survey)

模型(Models)

數(shù)據(jù)集(Datasets)

挑戰(zhàn)與展望(Future Research Challenges)

Github地址:https://github.com/xiaoqian19940510/Event-Extraction

任務(wù)定義

Closed-domain

Closed-domain事件抽取使用預(yù)定義的事件模式從文本中發(fā)現(xiàn)和提取所需的特定類型的事件。事件模式包含多個事件類型及其相應(yīng)的事件結(jié)構(gòu)。D.Ahn首先提出將ACE事件抽取任務(wù)分成四個子任務(wù):觸發(fā)詞檢測、事件/觸發(fā)詞類型識別、事件論元檢測和參數(shù)角色識別。我們使用ACE術(shù)語來介紹如下事件結(jié)構(gòu):

「事件提及」:描述事件的短語或句子,包括觸發(fā)詞和幾個參數(shù)。

「事件觸發(fā)詞」:最清楚地表達(dá)事件發(fā)生的主要詞,一般指動詞或名詞。

「事件論元」:一個實(shí)體,時間表達(dá)式,作為參與者的值和在事件中具有特定角色的屬性。

「論元角色」:論元與它所參與的事件之間的關(guān)系

Open domain

在沒有預(yù)定義的事件模式的情況下,開放域事件抽取的目的是從文本中檢測事件,在大多數(shù)情況下,還可以通過提取的事件關(guān)鍵詞聚類相似的事件。事件關(guān)鍵詞指的是那些主要描述事件的詞/短語,有時關(guān)鍵詞還進(jìn)一步分為觸發(fā)器和參數(shù)。

「故事分割」:從新聞中檢測故事的邊界。

「第一個故事檢測」:檢測新聞流中討論新話題的故事。

「話題檢測」:根據(jù)討論的主題將故事分組。

「話題追蹤」:檢測討論先前已知話題的故事。

「故事鏈檢測」:決定兩個故事是否討論同一個主題。

前兩個任務(wù)主要關(guān)注事件檢測;其余三個任務(wù)用于事件集群。雖然這五項(xiàng)任務(wù)之間的關(guān)系很明顯,但每一項(xiàng)任務(wù)都需要一個不同的評價(jià)過程,并鼓勵采用不同的方法來解決特定問題。

綜述

元事件抽取研究綜述, 2019[1]

事件抽取是信息抽取領(lǐng)域的一個重要研究方向,在情報(bào)收集、知識提取、文檔摘要、知識問答等領(lǐng)域有著廣泛應(yīng)用。寫了一篇對當(dāng)前事件抽取領(lǐng)域研究得較多的元事件抽取任務(wù)的綜述。

首先,簡要介紹了元事件和元事件抽取的基本概念,以及元事件抽取的主要實(shí)現(xiàn)方法。然后,重點(diǎn)闡述了元事件抽取的主要任務(wù),詳細(xì)介紹了元事件檢測過程,并對其他相關(guān)任務(wù)進(jìn)行了概述。最后,總結(jié)了元事件抽取面臨的問題,在此基礎(chǔ)上展望了元事件抽取的發(fā)展趨勢。

An Overview of Event Extraction from Text, 2019[2]

文本挖掘的一個常見應(yīng)用是事件抽取,它包括推導(dǎo)出與事件相關(guān)的特定知識,這些知識重新映射到文本中。事件抽取可處理各種類型的文本,如(在線)新聞消息、博客和手稿。本文獻(xiàn)回顧了用于各種事件抽取目的的文本挖掘技術(shù)。它提供了關(guān)于如何根據(jù)用戶、可用內(nèi)容和使用場景選擇特定事件抽取技術(shù)的一般指南。

A Survey of Event Extraction from Text, 2019[3]

事件抽取的任務(wù)定義、數(shù)據(jù)源和性能評估,還為其解決方案方法提供了分類。在每個解決方案組中,提供了最具代表性的方法的詳細(xì)分析,特別是它們的起源、基礎(chǔ)、優(yōu)勢和弱點(diǎn)。最后,對未來的研究方向進(jìn)行了展望。

A Survey of Textual Event Extraction from Social Networks, 2017[4]

過去的十年中,在社交網(wǎng)絡(luò)上挖掘文本內(nèi)容以抽取相關(guān)數(shù)據(jù)和有用的知識已成為無所不在的任務(wù)。文本挖掘的一種常見應(yīng)用是事件抽取,它被認(rèn)為是一個復(fù)雜的任務(wù),分為不同難度的多個子任務(wù)。

在本文中,對現(xiàn)有的主要文本挖掘技術(shù)進(jìn)行了概述,這些技術(shù)可用于許多不同的事件抽取目標(biāo)。首先,介紹基于統(tǒng)計(jì)模型將數(shù)據(jù)轉(zhuǎn)換為知識的主要數(shù)據(jù)驅(qū)動方法。其次,介紹了基于專家知識的知識驅(qū)動方法,通常通過基于模式的方法來抽取知識。然后,介紹結(jié)合了數(shù)據(jù)驅(qū)動和知識驅(qū)動方法的主要現(xiàn)有混合方法。最后,比較社交網(wǎng)絡(luò)事件抽取研究,概括了每種提出的方法的主要特征。

A Survey of event extraction methods from text for decision support systems, 2016[5]

事件抽取是一種可以追溯到20世紀(jì)80年代的專門的信息抽取流程,由于大數(shù)據(jù)的出現(xiàn)以及文本挖掘和自然語言處理等相關(guān)領(lǐng)域的發(fā)展,事件抽取技術(shù)得到了極大的普及。然而,到目前為止,對這一特殊領(lǐng)域的概述仍然是難以捉摸的。

因此,總結(jié)了文本數(shù)據(jù)的事件抽取技術(shù),劃分成數(shù)據(jù)驅(qū)動、知識驅(qū)動和混合方法三類,并對這些方法進(jìn)行了定性評價(jià)。此外,還討論了從文本語料庫中抽取事件的常見決策支持應(yīng)用。最后,對事件抽取系統(tǒng)的評價(jià)進(jìn)行了闡述,并指出了當(dāng)前的研究問題。

數(shù)據(jù)集

英文數(shù)據(jù)集

ACE2005 English Corpus[6]

ACE 2005多語種訓(xùn)練語料庫包含了用于2005年自動內(nèi)容抽取(ACE)技術(shù)評價(jià)的完整的英語、阿拉伯語和漢語訓(xùn)練數(shù)據(jù)集。語料庫由語言數(shù)據(jù)聯(lián)盟(LDC)為實(shí)體、關(guān)系和事件注釋的各種類型的數(shù)據(jù)組成,該聯(lián)盟得到了ACE計(jì)劃的支持和LDC的額外幫助。

Rich ERE[7]

Rich ERE擴(kuò)展了實(shí)體、關(guān)系和事件本體,并擴(kuò)展了什么是taggable的概念。Rich ERE還引入了事件跳躍的概念,以解決普遍存在的事件共引用的挑戰(zhàn),特別是關(guān)于在文檔內(nèi)和文檔之間的事件提及和事件參數(shù)粒度變化,從而為創(chuàng)建(分層的或嵌套的)跨文檔的事件表示鋪平了道路。

TAC2015[8]

TAC KBP事件跟蹤的目標(biāo)是提取關(guān)于事件的信息,以便這些信息適合作為知識庫的輸入。軌跡包括用于檢測和鏈接事件的事件塊任務(wù),以及用于提取屬于同一事件的事件參數(shù)和鏈接參數(shù)的事件參數(shù)(EA)任務(wù)。2015年TAC KBP賽事軌跡分為5個子任務(wù)

KBP2017[9]

TAC知識庫填充(KBP)的目標(biāo)是開發(fā)和評估從非結(jié)構(gòu)化文本中填充知識庫的技術(shù)。KBP包括為KBP開發(fā)特定組件和功能的組件跟蹤,以及稱為“冷啟動”的端到端KB構(gòu)建任務(wù),該任務(wù)通過在技術(shù)成熟時集成選定的組件從頭開始構(gòu)建KB。與在冷啟動KB任務(wù)中執(zhí)行的功能相比,組件跟蹤中所需的功能可以“更多”,也可以“更少”。組件軌道比冷啟動“更多”,因?yàn)槊總€軌道可能探索未立即集成到冷啟動任務(wù)中的試點(diǎn)任務(wù); 他們是“少”,將組件集成到一個KB需要額外協(xié)調(diào)與和解各個組件之間的不匹配,這樣KB符合知識庫模式(例如,知識庫不能斷言一個實(shí)體是一個事件的“地方”如果它還斷言,實(shí)體是一個“人”)。

其他的還有,Genia2011 dataset, Spainish ERE Corpus, Wikipedia article, BioNLP Cancer Genetics (CG) Shared Task 2013 等等

中文數(shù)據(jù)集

ACE2005 Chinese Corpus[10]

ACE 2005多語種訓(xùn)練語料庫包含了用于2005年自動內(nèi)容抽取(ACE)技術(shù)評價(jià)的完整的英語、阿拉伯語和漢語訓(xùn)練數(shù)據(jù)集。語料庫由語言數(shù)據(jù)聯(lián)盟(LDC)為實(shí)體、關(guān)系和事件注釋的各種類型的數(shù)據(jù)組成,該聯(lián)盟得到了ACE計(jì)劃的支持和LDC的額外幫助。

未來展望與挑戰(zhàn)

數(shù)據(jù)層面

領(lǐng)域數(shù)據(jù)難構(gòu)造,標(biāo)注成本大

生成標(biāo)注數(shù)據(jù) or 無標(biāo)注式事件抽取論元

模型層面

pipeline方式存在錯誤信息的傳遞,如何減小錯誤信息傳遞

論元之間的關(guān)聯(lián)關(guān)系的有效利用

性能評估層面

無標(biāo)注數(shù)據(jù)的評價(jià)指標(biāo)設(shè)計(jì)

責(zé)任編輯:xj

原文標(biāo)題:超全必讀!事件抽取綜述(上)

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7337

    瀏覽量

    94817
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    630

    瀏覽量

    14674

原文標(biāo)題:超全必讀!事件抽取綜述(上)

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    MediaTek Genio平臺推動端側(cè)AI在零售場景規(guī)模化落地

    從智能貨架和預(yù)測式補(bǔ)貨,到自適應(yīng)數(shù)字標(biāo)牌和基于自然語言的客戶互動,端側(cè) AI 正在推動零售從被動響應(yīng)走向主動預(yù)測。在實(shí)體門店,如果沒有智能自動化,庫存準(zhǔn)確率明顯降低,導(dǎo)致銷售機(jī)會流失和低效的補(bǔ)貨流程。端側(cè) AI 通過在信息生成的瞬間完成
    的頭像 發(fā)表于 02-10 15:23 ?434次閱讀

    解鎖谷歌FunctionGemma模型的無限潛力

    在智能體 AI 領(lǐng)域,工具調(diào)用能力是將自然語言轉(zhuǎn)化為可執(zhí)行軟件操作的關(guān)鍵。此前,我們發(fā)布了專門針對函數(shù)調(diào)用而特別優(yōu)化的 Gemma 3 270M 模型版本 FunctionGemma。該模型旨在協(xié)助開發(fā)者構(gòu)建響應(yīng)快速且具高性價(jià)比的智能體,以將自然語言轉(zhuǎn)化為可執(zhí)行的 API
    的頭像 發(fā)表于 02-04 11:30 ?345次閱讀
    解鎖谷歌FunctionGemma模型的無限潛力

    自然語言處理NLP的概念和工作原理

    自然語言處理 (NLP) 是人工智能 (AI) 的一個分支,它會教計(jì)算機(jī)如何理解口頭和書面形式的人類語言自然語言處理將計(jì)算
    的頭像 發(fā)表于 01-29 14:01 ?416次閱讀
    <b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>NLP的概念和工作原理

    ALVA透過CES 2026揭秘下一代工業(yè)智造落地路徑

    在 CES 2026 現(xiàn)場,一臺機(jī)器人流暢地理解了這句自然語言指令,它在雜亂的工具精準(zhǔn)識別出目標(biāo),平穩(wěn)遞出。
    的頭像 發(fā)表于 01-26 16:07 ?481次閱讀

    云知聲論文入選自然語言處理頂會EMNLP 2025

    近日,自然語言處理(NLP)領(lǐng)域國際權(quán)威會議 ——2025 年計(jì)算語言學(xué)與自然語言處理國際會議(EMNLP 2025)公布論文錄用結(jié)果,云知
    的頭像 發(fā)表于 11-10 17:30 ?819次閱讀
    云知聲論文入選<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>頂會EMNLP 2025

    HarmonyOSAI編程自然語言代碼生成

    安裝CodeGenie后,在下方對話框內(nèi),輸入代碼需求描述,將根據(jù)描述智能生成代碼,生成內(nèi)容可一鍵復(fù)制或一鍵插入至編輯區(qū)當(dāng)前光標(biāo)位置。 提問示例 使用ArkTs語言寫一段代碼,在頁面中間部分
    發(fā)表于 09-05 16:58

    北斗生態(tài)環(huán)境監(jiān)測站:讀懂自然的 “語言

    北斗生態(tài)環(huán)境監(jiān)測站:讀懂自然的 “語言”柏峰【BF-BDQX】當(dāng)生態(tài)監(jiān)測遇上北斗技術(shù),一場關(guān)于 “精準(zhǔn)守護(hù)自然” 的變革正悄然發(fā)生 ——北斗生態(tài)環(huán)境監(jiān)測站以北斗定位導(dǎo)航系統(tǒng)為核心
    的頭像 發(fā)表于 09-04 10:59 ?534次閱讀
    北斗生態(tài)環(huán)境監(jiān)測站:讀懂<b class='flag-5'>自然</b>的 “<b class='flag-5'>語言</b>”

    【HZ-T536開發(fā)板免費(fèi)體驗(yàn)】5- 無需死記 Linux 命令!用 CangjieMagic 在 HZ-T536 開發(fā)板上搭建 MCP 服務(wù)器,自然語言輕松控板

    引言:為什么需要 “自然語言控板”? 痛點(diǎn)引入 :嵌入式開發(fā),開發(fā)者常需通過 SSH 等工具登錄開發(fā)板,手動輸入復(fù)雜的 Linux 命令(如ls -l、gpio readall、ifconfig等
    發(fā)表于 08-23 13:10

    人工智能浪潮下,制造企業(yè)如何借力DeepSeek實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型?

    DeepSeek,憑借其強(qiáng)大的深度學(xué)習(xí)和自然語言處理能力,能夠理解復(fù)雜問題并提供精準(zhǔn)解決方案。它不僅能夠作為學(xué)習(xí)、工作、生活的助手,滿足用戶在不同場景下的需求,更能在制造業(yè)中發(fā)揮重要作用。通過自然語言交互,用戶無需學(xué)習(xí)復(fù)雜的操作
    的頭像 發(fā)表于 05-29 16:17 ?669次閱讀

    云知聲四篇論文入選自然語言處理頂會ACL 2025

    近日,第63屆國際計(jì)算語言學(xué)年會ACL 2025(Annual Meeting of the Association for Computational Linguistics,簡稱ACL)論文接收
    的頭像 發(fā)表于 05-26 14:15 ?1331次閱讀
    云知聲四篇論文入選<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>頂會ACL 2025

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語言模型

    在當(dāng)今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1321次閱讀
    小白學(xué)大模型:從零實(shí)現(xiàn) LLM<b class='flag-5'>語言</b>模型

    自然語言處理的發(fā)展歷程和應(yīng)用場景

    你是否曾經(jīng)對著手機(jī)說:“嘿,Siri,今天天氣怎么樣?”或者在出國旅行時,打開翻譯軟件,對著菜單說:“請把這道菜翻譯成英文”。
    的頭像 發(fā)表于 04-17 11:40 ?1339次閱讀

    東芝硬盤如何優(yōu)化存儲

    當(dāng)自然語言處理、推薦系統(tǒng)和圖像識別同時開跑,每個任務(wù)的訓(xùn)練速度呈指數(shù)級下降,大量時間浪費(fèi)在等待數(shù)據(jù)加載上。像極了早高峰擠地鐵——誰都別想快!
    的頭像 發(fā)表于 04-11 11:17 ?1003次閱讀

    自然語言提示原型在英特爾Vision大會上首次亮相

    在英特爾Vision大會上,Network Optix首次展示了自然語言提示原型,該方案將重新定義視頻管理,為各行各業(yè)由AI驅(qū)動的洞察和效率提速。
    的頭像 發(fā)表于 04-09 09:30 ?982次閱讀

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺內(nèi)容相關(guān)的自然語言。以下
    的頭像 發(fā)表于 03-17 15:32 ?8926次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b>模型)?詳細(xì)解析