91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)之殤?我們究竟需要怎樣的數(shù)據(jù)?

深度學(xué)習(xí)自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:Severus ? 2021-07-04 11:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

小編注:前段時間,小屋介紹了吳恩達(dá)老師近期發(fā)起的以數(shù)據(jù)為中心AI 競賽。吳恩達(dá)老師認(rèn)為:工業(yè)界已經(jīng)具備較為成熟的算法和代碼體系,現(xiàn)在更加缺少的是一套成熟的構(gòu)建工業(yè)化數(shù)據(jù)集的方法論。然而,正如圖靈獎得主 Judea Pearl 教授所質(zhì)疑的那樣:“在不知道什么是質(zhì)量更好的數(shù)據(jù)的基礎(chǔ)上提升數(shù)據(jù)質(zhì)量是不太現(xiàn)實的”。對于這個問題,本文作者由關(guān)系抽取任務(wù)說起,探討了一些可能的答案——我們究竟需要怎樣的數(shù)據(jù)?

前段時間,我的項目正在準(zhǔn)備開源發(fā)布,補充項目在一些任務(wù)上的表現(xiàn),以作為開源之后可以宣傳的點。我們項目的一大特點是十分擅長應(yīng)對挖掘任務(wù),因而我們自然也就想蹭波熱度,在某關(guān)系抽取評測任務(wù)上試了一下效果。

在此之前,我們的項目在一些其他挖掘任務(wù)上的表現(xiàn)一直是可以的,但是在那個關(guān)系抽取數(shù)據(jù)上,我們就翻車了,無論是我們的 baseline 還是增強模型,都無法打出來差異化的分?jǐn)?shù)。其實簡單來講,就是:單純使用標(biāo)注方法,怎么樣都無法提升了。

數(shù)據(jù)之殤

實際上,對于幾乎所有的公開評測任務(wù),我都會本能地懷疑它的數(shù)據(jù)是什么樣子的,尤其在我看到了榜單之后。例如細(xì)粒度實體識別任務(wù) CLUENER。它的 baseline 評測在某些類別上,連 BiLSTM+CRF 的結(jié)果都已經(jīng)超過了人類(甚至可以說是遠(yuǎn)超)。當(dāng)我看到了這個榜單,自然就會本能地懷疑這個數(shù)據(jù)是有問題的。CLUENER 數(shù)據(jù)集暫且按下不表,我們繼續(xù)說關(guān)系抽取數(shù)據(jù)集。

對于讓我的項目遭遇了滑鐵盧的那個關(guān)系抽取數(shù)據(jù)集,它的主要的問題則是:無論我在模型上做什么樣的改變,效果的差異都是不穩(wěn)定的(更換了隨機(jī)種子之后,不同模型結(jié)構(gòu)的rank也會改變)。那我自然也要去看一看數(shù)據(jù)有什么問題了。

隨機(jī)抽取了 train 和 dev 評估之后,果然印證了我的思想。在 train 和 dev 上,在單條數(shù)據(jù)粒度上,分別存在 42% 和 37% 的數(shù)據(jù)錯誤,其錯誤包括關(guān)系錯誤、關(guān)系不全,以及句子中不存在的關(guān)系被標(biāo)注成了答案。而我無論怎么更換模型結(jié)構(gòu),方法也都是簡簡單單的標(biāo)注算法,就必然會存在標(biāo)簽上的沖突。對于模型來講,尤其是“學(xué)習(xí)了一些知識”的預(yù)訓(xùn)練語言模型來講,自然就 confuse 了。

當(dāng)然我也理解這種數(shù)據(jù)會出現(xiàn),因為關(guān)系抽取數(shù)據(jù)在構(gòu)造的時候,基本都是用已有的圖譜 SPO 數(shù)據(jù)去反查文本,通常 S 和 O 在某一個句子里面共現(xiàn)了,就認(rèn)為該句中存在這種關(guān)系了。

注:SPO 指 三元組,是知識圖譜用于描述一條知識的基本形式。

這種數(shù)據(jù)構(gòu)造方法當(dāng)然一定是有問題的。這個數(shù)據(jù)的質(zhì)量一看也自然是未經(jīng)review的。甚至說,在學(xué)界,大家在打榜的絕大多數(shù)公開數(shù)據(jù),可能都或多或少存在著不可忽視的噪音問題,例如最近在比的某領(lǐng)域比賽的某一個數(shù)據(jù)之中,就存在這種東西。這讓我不禁有了一個疑問:當(dāng)數(shù)據(jù)有不可忽視的噪音問題的時候,榜單上的高分導(dǎo)向的就是更好的模型嗎?如果答案是否定的,那這些比賽的意義在哪里呢?只是在消耗多余的算力,擠占業(yè)務(wù)的用卡時間嗎?

我們需要什么樣的數(shù)據(jù)

關(guān)系抽取數(shù)據(jù)中存在這樣一個例子:

汪涵曾多次在天天向上中展示自己高超的廚藝。

這句話,數(shù)據(jù)中標(biāo)出來的答案是S:天天向上,P:主持人,O:汪涵。乍一看好像沒有問題。但是我們仔細(xì)想一想:如果排除掉所有的背景知識,我們看這個句子會得到怎樣的理解?是否真能推斷出“主持人”這一關(guān)系?

排除背景知識,只看句子本身:汪涵貌似是一個人,天天向上似乎是一個節(jié)目——汪涵可能參加過天天向上。這個是我們通過中文的常識知識和句式知識能夠推斷出來的信息。

更進(jìn)一步,即使我們給出一些特化信息,即“汪涵是著名主持人”,天天向上是綜藝節(jié)目”。在帶有這樣的先驗下,我們又能推斷出來什么信息呢?汪涵是一個主持人,但主持人參加綜藝節(jié)目未必就是主持綜藝節(jié)目。比如主持人馬東參加過脫口秀大會,但他只是嘉賓。所以,對于“汪涵”和“天天向上”這兩個個體,我們從這句話中還是只能推斷出參加關(guān)系。

那模型怎樣才能知道這個關(guān)系?看上去只有通過這個訓(xùn)練樣本,讓模型自己強行記住這個關(guān)系了。(當(dāng)然還有一種可能是:模型從別的句子里面學(xué)到了“汪涵主持天天向上”的知識,然后在這個句子里面應(yīng)用到了。但如果是這樣,那這個訓(xùn)練樣本的用處是什么呢?)

或許有的朋友會反駁說:在訓(xùn)練關(guān)系抽取任務(wù)的時候,就是想讓模型去過擬合一些東西的。也就是說,直接將汪涵和天天向上兩個實體完全綁定起來,形成主持關(guān)系,這樣在榜單上就可以打高分了。然而,如果以這樣的方式去擬合S和O的名字,就要保證測試集和真實使用場景中一定會出現(xiàn)類似的情況。

如果過擬合這個句式里面出現(xiàn)的S和O一定是主持,一定會在其他場景中遇到問題。比如下面這個例子:

張杰也多次在快樂大本營上表現(xiàn)了對謝娜的愛意。

這句話和“汪涵曾多次在天天向上中展示自己高超的廚藝”的句式十分相像。那張杰和快樂大本營又是什么關(guān)系呢?實際上,數(shù)據(jù)中甚至可能會標(biāo)注出張杰和謝娜的夫妻關(guān)系,以及謝娜是快樂大本營的主持人。但這兩條關(guān)系在這句話中都沒有直接的體現(xiàn)。

我們再看CLUENER中的一個例子:

去年我們憑借《現(xiàn)代戰(zhàn)爭1》大獲成功,其輝煌業(yè)績讓眾多業(yè)界老手大跌眼鏡。

其中,現(xiàn)代戰(zhàn)爭1被標(biāo)注成為了游戲。

這個例子,我想我沒有必要做過多的解釋了。人沒打過這游戲的,確實標(biāo)不出來。同理,沒了解過賽博朋克2077的人,可能也不太會知道波蘭蠢驢這個名字。

(實際上這個問題也有提到issue里面,但是權(quán)威大佬們也沒有理會我......)

另外,還有在研究中文分詞的時候經(jīng)常會舉的一個所謂疑難雜癥般的例子:

南京市長江大橋

實際上,這句話兩種切分方式都是合理的,都符合我們的常識認(rèn)知,只不過可能有一個不是事實。那么其實我認(rèn)為,對于模型來講,就不必過分糾結(jié)于這條數(shù)據(jù)會被切分成哪一個。

模型真正要去區(qū)分的,其實是下面兩個句子:

南京長江大橋位于南京市鼓樓區(qū)下關(guān)浦口區(qū)北之間

南京市長江大橋因嚴(yán)重違紀(jì)違法問題被立案檢查

舉了那么多例子,其實是想說:我們在衡量一個數(shù)據(jù)好壞時,似乎應(yīng)該遵循這樣一個邏輯——如果僅利用任務(wù)規(guī)則中允許我們用到的知識,人類能否有能力得到該樣本中給出的答案?如果能,則這條數(shù)據(jù)是一個好的數(shù)據(jù);如果不能,則一定會對模型形成誤導(dǎo)。所以在判定一條數(shù)據(jù)的時候,我們應(yīng)該去回顧這幾乎本能做出判斷背后的思考過程。如果我們不知道答案,通過思考也得不到這個答案,為什么要讓模型去得到這個答案呢?

我們在用數(shù)據(jù)和任務(wù)的形式去建模這個世界,并基于此去指導(dǎo)模型去學(xué)習(xí)。這一過程其實與我們教育人類幼崽的方式、或者我們自己去理解新知識的方式,是類似的。畢竟,我們現(xiàn)在還不具備憑空描述知識的能力,只能把人類一直在經(jīng)歷的學(xué)習(xí)過程加諸到模型身上。

在預(yù)訓(xùn)練的階段,我們貌似讓模型學(xué)到了部分語法知識,以及通過大量的事實知識讓模型部分學(xué)到了常識知識,但遠(yuǎn)遠(yuǎn)沒做到讓模型去記憶事實,實際上也記憶不過來,又怎么指望模型在任務(wù)中直接就能搞定那些僅僅包含事實的判定呢?

題外話,由于我是做解析的,所以實際上我是沒有那么支持領(lǐng)域預(yù)訓(xùn)練的。因為具體領(lǐng)域和所謂通用域的區(qū)別,更多是在于專名(命名實體、術(shù)語等)的區(qū)別,但表達(dá)是相對固定的。還是類比人類,哪怕一個人不是醫(yī)生,他看到自己的病歷的時候,除了可能看不懂疾病、臨床表現(xiàn)、藥物,醫(yī)療程序等等的專業(yè)術(shù)語,也能大概能看懂這個病歷的一些意思。無論領(lǐng)域?qū)I(yè)性多強,它也是“人話”。在做解析挖掘的時候,我們也應(yīng)讓模型著重去看懂人話的部分,而不是依賴那些專業(yè)的部分。是否不需要讓模型見過那些專業(yè)的東西,也能做到效果不錯?當(dāng)然這個思路比單純?nèi)プ瞿P头爆嵉枚?,產(chǎn)出也慢得多。

任務(wù)回歸應(yīng)用

回歸到更本源的問題,關(guān)系抽取任務(wù)是為了做什么的?

其實最初關(guān)系抽取任務(wù)是為了輔助構(gòu)造結(jié)構(gòu)化知識。隨著知識圖譜越來越多,關(guān)系抽取模型已然可以基于已有數(shù)據(jù)知道一些知識了。此時,我們的需求可能就變成了“通過新的事實描述文本去挖掘補充新的知識”。更準(zhǔn)確地說,我們希望:模型能夠基于已有知識圖譜中的信息,從新的文本中挖掘出新的關(guān)系,從而與時俱進(jìn)地補充和更新現(xiàn)有知識圖譜。

當(dāng)然這種“新的關(guān)系”不是類似于“爸爸的爸爸是爺爺”的關(guān)系。工業(yè)應(yīng)用已經(jīng)證明了,這種關(guān)系寫規(guī)則更香。需要補充的是真正的新關(guān)系,比如新婚,比如新參演電影,比如新主持節(jié)目等。

所以其實在定義任務(wù)的時候,應(yīng)該詢問這樣幾個問題:

這個任務(wù)想要導(dǎo)向什么樣的模型?

這個任務(wù)做好了之后能干什么?

這個任務(wù)能不能做?

而不是直接拍腦門想出來了這么個任務(wù),然后就隨手弄一波數(shù)據(jù)發(fā)出來了。這樣只會讓學(xué)界與工業(yè)界越來越剝離,只會讓研究越來越?jīng)]有用,只會讓頂會做的這種種事情越來越變成消耗多余的電力。

同時在數(shù)據(jù)上,也應(yīng)該有上面所提到的思考。給出的數(shù)據(jù),也應(yīng)該符合實際會應(yīng)用到的需求。現(xiàn)在看來,部分領(lǐng)域任務(wù)或許能做到這個。

否則,最終也只會導(dǎo)向越來越無意義的卷。

所幸,或許,業(yè)界有去重新思考數(shù)據(jù)的趨勢,例如Ng老師的新比賽。但,前路茫茫,不知這束光,是否長久。

責(zé)任編輯:lq6

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7337

    瀏覽量

    94814
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3757

    瀏覽量

    52130

原文標(biāo)題:在錯誤的數(shù)據(jù)上,刷到 SOTA 又有什么意義?

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    深度解析DS90CR217:高速數(shù)據(jù)傳輸?shù)睦硐?b class='flag-5'>之選

    深度解析DS90CR217:高速數(shù)據(jù)傳輸?shù)睦硐?b class='flag-5'>之選 在當(dāng)今的電子設(shè)備設(shè)計中,高速數(shù)據(jù)傳輸一直是一個關(guān)鍵的挑戰(zhàn)。如何在保證數(shù)據(jù)傳輸速率的同時,降低電磁干擾(EMI)和成本,成為電子工程師
    的頭像 發(fā)表于 01-04 14:15 ?256次閱讀

    請問CW32 UART用于數(shù)據(jù)收發(fā)的具體過程是怎樣的?

    CW32 UART用于數(shù)據(jù)收發(fā)的具體過程是怎樣的?
    發(fā)表于 12-24 07:42

    不間斷電源(UPS)應(yīng)用全場景解析:您的企業(yè)究竟需要在哪部署?

    ?當(dāng)手術(shù)室的無影燈在電網(wǎng)波動下保持恒定亮度,當(dāng)數(shù)據(jù)中心服務(wù)器在雷雨天氣中持續(xù)穩(wěn)定運行,當(dāng)半導(dǎo)體生產(chǎn)線在電壓暫降時零中斷生產(chǎn)——這些場景背后,都有一個共同的關(guān)鍵設(shè)備在默默守護(hù)。導(dǎo)言:理解UPS的核心
    的頭像 發(fā)表于 12-23 08:31 ?430次閱讀
    不間斷電源(UPS)應(yīng)用全場景解析:您的企業(yè)<b class='flag-5'>究竟需要</b>在哪部署?

    從“報表堆砌”到“問題洞察”:構(gòu)建數(shù)據(jù)驅(qū)動的巡店管理新思路

    在連鎖經(jīng)營領(lǐng)域,數(shù)據(jù)的重要性已不言而喻。然而,對于許多總部管理者而言,一個普遍的困境是:我們并不缺少數(shù)據(jù),而是缺少對數(shù)據(jù)的洞察。每日面對海量的巡店報表,三個核心的管理盲區(qū)始終難以突破:
    的頭像 發(fā)表于 11-28 17:33 ?1242次閱讀
    從“報表堆砌”到“問題洞察”:構(gòu)建<b class='flag-5'>數(shù)據(jù)</b>驅(qū)動的巡店管理新思路

    維護(hù)更少,數(shù)據(jù)更真:鋰電車間露點監(jiān)測的終極答案

    聚合物實為耗材,導(dǎo)致傳感器在使用壽命、抗干擾能力和長期穩(wěn)定性等方面面臨嚴(yán)峻挑戰(zhàn)(詳見鋰電池車間的"濕度偵探":露點控制背后的科學(xué))。 - 那么,一款優(yōu)質(zhì)的露點傳感器,究竟需要達(dá)到怎樣的標(biāo)準(zhǔn)? - 答案是: 精準(zhǔn)、長效 。 ?
    的頭像 發(fā)表于 11-21 11:34 ?289次閱讀

    32位究竟指什么呢?

    當(dāng)我們說“32位單片機(jī)”時,這里的“32位”主要指的是單片機(jī)的字長(Word Length)或數(shù)據(jù)寬度。具體來說,32位有以下幾個含義:   1. 數(shù)據(jù)處理能力   32位單片機(jī)能夠一次性處理
    發(fā)表于 11-21 06:32

    未來的數(shù)據(jù)中心需要怎樣的布線方案

    隨著數(shù)字時代的發(fā)展,數(shù)據(jù)中心對能源效率和環(huán)境可持續(xù)性的需求日益迫切。為了滿足這些日益增長的需求,數(shù)據(jù)中心必須變得更加環(huán)保和可持續(xù)。光纖布線已成為實現(xiàn)可持續(xù)數(shù)據(jù)中心目標(biāo)的關(guān)鍵技術(shù)。本文探討了光纖布線
    的頭像 發(fā)表于 11-20 10:13 ?271次閱讀

    蜂鳥E203怎樣外部的攝像頭進(jìn)行數(shù)據(jù)傳輸?

    蜂鳥E203怎樣外部的攝像頭進(jìn)行數(shù)據(jù)傳輸
    發(fā)表于 11-05 06:58

    耦合,軟件設(shè)計中的隱疾

    01 引 言 數(shù)據(jù)耦合和控制耦合是復(fù)雜軟件設(shè)計中常見的一種情況。DO-178C要求高安全等級軟件( DAL A/ B /C) 的測試覆蓋分析,必須要確認(rèn)基于需求的測試執(zhí)行了代碼組件之間的數(shù)據(jù)耦合
    的頭像 發(fā)表于 08-28 15:54 ?1049次閱讀
    耦合<b class='flag-5'>之</b><b class='flag-5'>殤</b>,軟件設(shè)計中的隱疾

    單向光閘:用光束筑起數(shù)據(jù)安全的“光墻”

    ”。 三、應(yīng)用場景:誰需要這道“光墻”? 單向光閘的高安全性與物理隔離特性,使其成為以下領(lǐng)域的剛需: 政府與軍工: 保護(hù)涉密網(wǎng)絡(luò)數(shù)據(jù)導(dǎo)出,如潛艇指揮系統(tǒng)向水面艦艇傳輸偵察信息時,避免反向入侵。 金融系統(tǒng)
    發(fā)表于 07-18 11:06

    PLC數(shù)據(jù)采集全自動薄膜橫切機(jī)物聯(lián)網(wǎng)解決方案

    PLC數(shù)據(jù)采集全自動薄膜橫切機(jī)物聯(lián)網(wǎng)解決方案
    的頭像 發(fā)表于 06-20 14:25 ?725次閱讀
    PLC<b class='flag-5'>數(shù)據(jù)</b>采集<b class='flag-5'>之</b>全自動薄膜橫切機(jī)物聯(lián)網(wǎng)解決方案

    AI時代企業(yè)需要怎樣數(shù)據(jù)存儲

    的不確定性進(jìn)一步加劇企業(yè)的“算力焦慮”,如何盤活現(xiàn)有計算資源、打通內(nèi)部數(shù)據(jù)已經(jīng)成為 CIO、CTO 們的當(dāng)務(wù)之急。
    的頭像 發(fā)表于 05-07 14:41 ?1310次閱讀
    AI時代企業(yè)<b class='flag-5'>需要</b><b class='flag-5'>怎樣</b>的<b class='flag-5'>數(shù)據(jù)</b>存儲

    AD7768與STM32F407進(jìn)行數(shù)據(jù)通信,SPI1讀取到的數(shù)據(jù)不完整,整體數(shù)據(jù)在字節(jié)上出現(xiàn)偏移,怎么解決?

    我再做一個任務(wù),需要使用STM32F407對AD7768的數(shù)據(jù)進(jìn)行讀取,當(dāng)然我們的AD采集速率要求不高,只需要2K。 我使用GPIO來模擬SPI對AD7768的寄存器進(jìn)行配置讀取,使用
    發(fā)表于 04-24 06:40

    #### KEPServerEX 數(shù)據(jù)存儲插件\\-2

    上次我們介紹了Datalogger插件的前三式,展示了一些常見的觸發(fā)器設(shè)置,例如數(shù)據(jù)變化存儲,定時存儲等等,接下來我們繼續(xù)講解后三式。 一、 現(xiàn)在有一個需求是通過邏輯判斷有條件的進(jìn)行存儲,如當(dāng)某一個
    發(fā)表于 04-09 16:09

    MES系統(tǒng)為什么需要數(shù)據(jù)采集網(wǎng)關(guān)

    MES系統(tǒng)需要數(shù)據(jù)采集網(wǎng)關(guān),主要出于實現(xiàn)設(shè)備連接、數(shù)據(jù)預(yù)處理、協(xié)議轉(zhuǎn)換等功能需求,以下是具體介紹: 實現(xiàn)設(shè)備連接與數(shù)據(jù)采集 連接多種設(shè)備:制造車間中有大量不同類型、不同品牌的生產(chǎn)設(shè)備和
    的頭像 發(fā)表于 03-12 09:33 ?1020次閱讀