91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

一些中文NLP領域,構建語料的經(jīng)驗和技巧

lviY_AI_shequ ? 來源:數(shù)據(jù)科學雜談 ? 2020-05-12 09:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

記得寫畢業(yè)論文那會兒,經(jīng)常為語料發(fā)愁。由于大多數(shù) NLP 問題都是有監(jiān)督問題,很多時候我們往往缺的不是算法,而是標注好的語料。這在中文語料上更是明顯。今天就和大家分享一些中文 NLP 領域,構建語料的經(jīng)驗和技巧,雖然未必看了此文就能徹底解決語料的問題,但是或多或少會有些啟發(fā)。

首先分享幾個常見的語料獲取渠道

國內(nèi)外NLP領域的會議評測數(shù)據(jù)

相關研究機構、實驗室、論文公開的數(shù)據(jù)集

國內(nèi)外數(shù)據(jù)科學競賽平臺,kaggle,天池,科賽,CCF等

互聯(lián)網(wǎng)企業(yè)自己舉辦的比賽,如百度,搜狐,知乎,騰訊這些企業(yè)都是土豪,通常會花費巨額的資金標注語料

Github 很多模型里面會自帶部分語料

雖然通過這些途徑,能夠搜集到不少的NLP語料,但這些“現(xiàn)成”的語料往往與我們需要解決的 NLP 問題不太一致,因此我們還得想辦法去變一些語料出來。

通過API或開源模型標注語料

比如我們需要訓練一個命名實體識別模型,就可以借助 bosonnlp 或者 hanlp、foolnltk 上去標注一些語料。這些API和模型有的時候只提供了模型的預測結果,沒有提供訓練的語料,但是我們可以拿這些別人訓練好的模型去構造語料。

知識蒸餾

我們可以將別人訓練的模型看做是Teacher, 然后用API標注的語料自己訓練的模型看做是Student, 雖然結果不能達到和原來模型一致的效果,但是也不至于差太多,這種方式在初期能夠幫助我們快速的推進項目,看到項目的效果后,后期再想辦法優(yōu)化迭代

通過搜索引擎收集標注數(shù)據(jù)

假設我們需要做一個NER模型,其中一類實體是人名,可能我們想到的是從網(wǎng)上下載一批新聞,然后標出其中的人名,但是,這樣做有一個問題,一篇幾千字的新聞往往只有幾個人名,而我們只需要出現(xiàn)了人名的那部分句子,并不需要其他部分。如果直接在整篇文本上標注效率十分低。其實,我們可以轉換一下思路,找一份中文人名詞庫,然后放到百度中搜索,百度摘要返回的大部分結果基本是我們想要的語料,通過爬蟲把摘要爬下來,自己再過濾下就好啦。這樣的做法相當于,借助于一些過濾和排序算法,幫助我們快速找到待標注的語料。

二次加工已有語料

有的時候,一些語料和我們的需要解決的任務相似,但又完全不一樣,這時候我們可以嘗試利用其他任務的語料來構建出想要的語料。就拿百度2019信息抽取比賽來說吧,該比賽的任務是從

"text": "《逐風行》是百度文學旗下縱橫中文網(wǎng)簽約作家清水秋風創(chuàng)作的一部東方玄幻小說,小說已于2014-04-28正式發(fā)布"

這樣的句子中抽出實體和關系三元組

"spo_list": [{"predicate": "連載網(wǎng)站", "object_type": "網(wǎng)站", "subject_type": "網(wǎng)絡小說", "object": "縱橫中文網(wǎng)", "subject": "逐風行"}, {"predicate": "作者", "object_type": "人物", "subject_type": "圖書作品", "object": "清水秋風", "subject": "逐風行"}]screenshot-lic2019-ccf-org-cn-kg-1574584084691

百度總共提供了大概17萬的標注數(shù)據(jù),而且數(shù)據(jù)標注質(zhì)量頗高。訓練數(shù)據(jù)被標注為以下格式:

{"text": "《逐風行》是百度文學旗下縱橫中文網(wǎng)簽約作家清水秋風創(chuàng)作的一部東方玄幻小說,小說已于2014-04-28正式發(fā)布", "spo_list": [{"predicate": "連載網(wǎng)站", "object_type": "網(wǎng)站", "subject_type": "網(wǎng)絡小說", "object": "縱橫中文網(wǎng)", "subject": "逐風行"}, {"predicate": "作者", "object_type": "人物", "subject_type": "圖書作品", "object": "清水秋風", "subject": "逐風行"}]

由該數(shù)據(jù)我們可以構造什么數(shù)據(jù)呢?

命名實體識別語料

由于語料中的每個實體都標注了實體類別,所以可以通過實體類別,構造出命名實體識別任務的語料,這17萬數(shù)據(jù)集,提供了國家、城市、影視作品、人物、地點、企業(yè)、圖書等10幾個類別的實體,這些語料加上人名日報、msra、bosonnlp 公開的NER語料,我們就可以擴充一個更大的NER語料集;

開放關系抽取語料

雖然該數(shù)據(jù)集是面向封閉域關系抽取的數(shù)據(jù)集,其實改造一下,也能用于句子級別的開放域關系抽取任務中,比如我們可以構建一個基于序列標注的關系和實體聯(lián)合抽取模型,簡單的說就是給定(S,P,O)三元組和text,從中抽取一個代表關系的動賓短語或名詞性短語來。比如從《逐風行》是百度文學旗下縱橫中文網(wǎng)簽約作家清水秋風創(chuàng)作的一部東方玄幻小說,小說已于2014-04-28正式發(fā)這句話抽?。ㄇ逅镲L,創(chuàng)作,《逐風行》)這樣的關系三元組。當然,要改造成適合開放關系抽取的語料,還有一些工作需要做。比如原來語料中的S和O是我們要抽取的內(nèi)容,而P卻不是,因此,我們可能需要進行二次標注或者再構建一個模型去預測出P。

很多公開的語料都可以采用類似的做法,這里就拋磚引玉一下,不一一介紹了。

標注工具

工欲善其事,必先利其器 ,標注工具能夠大大提高標注效率,標注工具通過提供方便的快捷鍵和交互方式,讓我們在相同時間,標注更多的數(shù)據(jù)。同時,還可以在標注工具中嵌入一些AI輔助標注的能力,實現(xiàn)機器自動標注,而我們只需要修改和刪除小部分的錯誤標注樣本,進一步提高效率。

主動學習標注

機器學習任務中,由于數(shù)據(jù)標注代價高昂,如果能夠從任務出發(fā),通過對任務的理解來制定標準,挑選最重要的樣本,使其最有助于模型的學習過程,將大大減少標注的成本, 主動學習就是解決這個問題的。關于主動學習背后的理論細節(jié),感興趣可以自行谷歌,這里舉一個通俗易懂的例子簡要解釋一下。

可以

還記得支持向量機中的“支持向量”嗎?當我們在分類的時候,并不是所有的點對于分割線的位置都是起決定性作用的。在離超平面特別遠的區(qū)域,哪怕你增加10000個樣本點,對于分割線的位置,也是沒有作用的,因為分割線是由幾個關鍵點決定的(圖上三個),這幾個關鍵點支撐起了一個分割超平面,所以這些關鍵點,就是支持向量。借鑒大數(shù)據(jù)標注任務上,如果能夠準確的標出那些“重要”的樣本,就有可能實現(xiàn)“事半功倍”的效果。

隨機標注的結果可能是上圖中的b, 準確率大約為70%。而右圖就是主動學習方法找到的標注點,因為這些點幾乎構成了完美分界線的邊界,所以使用與中圖同樣的樣本數(shù),但它能夠取得90%左右的準確率!

弱監(jiān)督的數(shù)據(jù)標注

監(jiān)督學習就是我們有一批高置信的標注數(shù)據(jù),通過model來擬合效果。弱監(jiān)督學習,就是我們很難獲取足夠量的高置信的標注數(shù)據(jù),所以弱監(jiān)督學習就是來解決這個問題。

這里為大家介紹一個斯坦福的研究者開源的弱監(jiān)督學習通用框架 Snorkel ,由這種方法生成的標簽可用于訓練任意模型。已經(jīng)有人將Snorkel用于處理圖像數(shù)據(jù)、自然語言監(jiān)督、處理半結構化數(shù)據(jù)、自動生成訓練集等具體用途。

Snorkel 集成了多種知識來源作為弱監(jiān)督,我們只需要在基于MapReduce模板的pipeline中編寫標記函數(shù),每個標記函數(shù)都接受一個數(shù)據(jù)點生成的概率標簽,并選擇返回None(無標簽)或輸出標簽。在編寫標記函數(shù)的時候,我們可以利用一切可以利用知識來標記我們的數(shù)據(jù),這些知識可能包括,人工規(guī)則、知識圖譜、已有的模型、統(tǒng)計信息、網(wǎng)頁等。

如上圖所示,假設我們在做NER任務,需要標注人名,可以用來構建標記函數(shù)的知識有:

文本是否在人名詞庫中

jieba、hanlp等NLP工具包給出的pos tag

文本是否是知識圖譜中的人物實體

基于以上知識,我們就可以寫出多個標記函數(shù)了。當然,通過 Snorkel 標注的數(shù)據(jù)是有噪聲的,甚至很多標記函數(shù)給出的結果互相沖突。這些我們完全不用擔心,因為Snorkel已經(jīng)提供了解決這些問題的方法。

拿出項目的效果,向公司申請資源

最后的最后,我們可以想好算法的落地場景和價值,講好故事,向公司和老板的爭取資源!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8554

    瀏覽量

    136996
  • GitHub
    +關注

    關注

    3

    文章

    488

    瀏覽量

    18692
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23282

原文標題:一文詳解NLP語料構建技巧

文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區(qū)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    電子工程師設計要點與經(jīng)驗分享

    電子工程師設計要點與經(jīng)驗分享 作為名資深電子工程師,在硬件設計開發(fā)領域摸爬滾打多年,積累了不少寶貴的經(jīng)驗和見解。今天就和大家分享一些電子工
    的頭像 發(fā)表于 02-03 11:10 ?196次閱讀

    爬壁機器人磁鐵的一些常見問題

    爬壁機器人近幾年比較火,它是類能夠在垂直墻面、天花板、傾斜表面上移動和作業(yè)的特種機器人,今天我們不聊其它,只聊下關于磁吸附應用中的磁鐵,以下是小編整理的關于爬壁機器人中磁鐵的一些常見問題。
    的頭像 發(fā)表于 01-09 10:06 ?279次閱讀
    爬壁機器人磁鐵的<b class='flag-5'>一些</b>常見問題

    關于六類網(wǎng)線一些問題的解答

    今天我們就圍繞網(wǎng)友一些常見的關于六類網(wǎng)線的問題進行下匯總式解答: 問 六類網(wǎng)線可以當電源用嗎? 答 六類網(wǎng)線并不是設計用于傳輸電力的電纜,因此般不建議將其用于電源傳輸。 盡管六類網(wǎng)線的線芯可以
    的頭像 發(fā)表于 12-09 11:13 ?589次閱讀

    貼片電容精度J±5%的一些詳細知識

    貼片電容精度J±5%表示電容的實際值與標稱值之間的偏差范圍在±5%以內(nèi) ,以下是關于貼片電容精度J±5%的一些詳細知識: 、精度等級含義 J±5% :字母“J”在貼片電容的標識中通常表示標稱精度
    的頭像 發(fā)表于 11-20 14:38 ?665次閱讀
    貼片電容精度J±5%的<b class='flag-5'>一些</b>詳細知識

    蜂鳥E203的浮點指令集F的一些實現(xiàn)細節(jié)

    蜂鳥E203的浮點指令集F的一些實現(xiàn)細節(jié) 既然E203不是多發(fā)射,且為了節(jié)省面積,一些指令使用FPU內(nèi)的同個子模塊來執(zhí)行,即FPU同時只能進行種計算,我們只在FPU內(nèi)部署了11個
    發(fā)表于 10-24 08:57

    在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型的一些經(jīng)驗

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型的一些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓練框架,目標是訓練個手寫數(shù)字識別的神經(jīng)網(wǎng)絡
    發(fā)表于 10-22 07:03

    基于rtt的scons構建的keil工程如何增加project_targets?

    對新的project_targets的一些設置不變更 目前來看 有人說在template.uvprojx中增加個 New-Target 中間省略 但是治標不治本 scons構建完以后只是增加了新的target許多配置并
    發(fā)表于 10-10 06:10

    分享一些工業(yè)用水監(jiān)測物聯(lián)網(wǎng)系統(tǒng)方案的實施經(jīng)驗

    在工業(yè)用水監(jiān)測物聯(lián)網(wǎng)系統(tǒng)方案的實施中,可借鑒以下關鍵經(jīng)驗,涵蓋技術選型、系統(tǒng)架構、功能實現(xiàn)及實際案例應用: 、技術選型與系統(tǒng)架構 網(wǎng)關與通信協(xié)議選擇 多協(xié)議適配 :優(yōu)先選擇支持Modbus、OPC
    的頭像 發(fā)表于 06-30 15:40 ?497次閱讀

    Debian和Ubuntu哪個好一些?

    兼容性對比Debian和Ubuntu哪個好一些,并為您揭示如何通過RAKsmart服務器釋放Linux系統(tǒng)的最大潛能。
    的頭像 發(fā)表于 05-07 10:58 ?1167次閱讀

    2025慕展:功率半導體廠商和產(chǎn)品的一些觀察

    上不少廠商在數(shù)據(jù)中心電源上發(fā)力,光伏儲能、OBC等領域,多家碳化硅廠商已經(jīng)大規(guī)模導入產(chǎn)品。當然,近期火熱的人形機器人,也有部分廠商展示出一些基于GaN的方案。 那么下面就來看看本次慕展上,功率半導體領域有哪些值得關注的新品和
    的頭像 發(fā)表于 04-25 09:08 ?2033次閱讀
    2025慕展:功率半導體廠商和產(chǎn)品的<b class='flag-5'>一些</b>觀察

    簡述電源設計經(jīng)驗技巧

    在電源設計領域中,經(jīng)驗的積累往往決定了產(chǎn)品的穩(wěn)定性和可靠性。若是電子新人了解到一些實用的設計技巧,電源設計將事半功倍。下面將總結大佬的14條電源設計經(jīng)驗,以此提供參考和指導。
    的頭像 發(fā)表于 04-23 09:26 ?920次閱讀

    工業(yè)控制PCBA抗震設計要點:經(jīng)驗分享與技術探討

    。本文將結合實際經(jīng)驗,分享一些關于工業(yè)控制PCBA抗震設計的要點和技巧。 首先,合理的布局是提升PCBA抗震性能的基礎。在布局時,應充分考慮元器件的重量、尺寸以及安裝方式,將重的元器件放置在PCB的中心位置或靠近支撐點,以降低重心,減少振動帶
    的頭像 發(fā)表于 04-14 17:51 ?4134次閱讀

    如何使用flex-builder構建aruco庫?

    我正在嘗試構建 libopencv-aruco,它通常附帶新版本的 OpenCV。當我運行 bld -c opencv 時,我沒有看到正在構建此庫。 誰能提供一些關于如何使用 flex-builder
    發(fā)表于 03-31 06:13

    樹莓派在自動化控制項目中的一些潛在應用

    自動化控制項目中的一些潛在應用。之前,我們已經(jīng)為Arduino平臺探討了相同的話題。我們確定Arduino是個出色的教育工具,但由于一些限制,它無法在工業(yè)環(huán)境中完全
    的頭像 發(fā)表于 03-25 09:45 ?631次閱讀
    樹莓派在自動化控制項目中的<b class='flag-5'>一些</b>潛在應用

    收藏的一些庫存,直流無刷技術+源碼+論文(建議打包)

    這也是我網(wǎng)絡上淘過來收藏的一些資料,免費跟大家起分享下,建議下載哦,收藏不易
    發(fā)表于 03-17 20:17