91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP:序列標(biāo)注

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:CS的陋室 ? 2021-01-13 09:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

0 小系列初衷

自己接觸的項(xiàng)目大都是初創(chuàng),沒(méi)開(kāi)始多久的項(xiàng)目,從0到1的不少,2020年快結(jié)束,感覺(jué)這個(gè)具有一定個(gè)人特色的技術(shù)經(jīng)驗(yàn)可以在和大家分享一下。

計(jì)劃篇章:

(已完成)文本分類(lèi)篇。針對(duì)NLP文本分類(lèi)任務(wù)。

序列標(biāo)注(NER)篇。針對(duì)命名實(shí)體識(shí)別、序列標(biāo)注任務(wù)。

文本匹配篇。針對(duì)語(yǔ)義相似度計(jì)算、向量匹配等問(wèn)題。

人工特征學(xué)習(xí)篇。針對(duì)多特征的機(jī)器、深度學(xué)習(xí)方案。

1 序列標(biāo)注的場(chǎng)景

文本分類(lèi)是對(duì)整個(gè)句子的把握,而NER就是深入到句子內(nèi)部,對(duì)句子的局部進(jìn)行深入分析,這個(gè)粒度的分析往往更為精準(zhǔn)詳盡,當(dāng)然難度也會(huì)更高,下面列舉幾個(gè)比較常見(jiàn)的場(chǎng)景:

搜索、對(duì)話的實(shí)體、關(guān)系抽取。

搜索的關(guān)鍵詞抽取,詞權(quán)重問(wèn)題。

糾錯(cuò)的錯(cuò)誤檢測(cè)。

總而言之,只要是抽取局部信息,那其實(shí)就可以抽象為序列標(biāo)注了。

嚴(yán)謹(jǐn)起見(jiàn),來(lái)個(gè)專(zhuān)業(yè)點(diǎn)的定義吧:

給定一個(gè)序列(含特征),預(yù)測(cè)一組和序列一一對(duì)應(yīng)的結(jié)果,這種預(yù)測(cè)就是序列標(biāo)注。

2 方案選型——通用方法

之所以把序列標(biāo)注放一起,是因?yàn)閱?wèn)題類(lèi)似,既然問(wèn)題類(lèi)似,那其實(shí)就可以找到通式通法來(lái)解決,所以先給大家說(shuō)一些比較通用的方法。大家也把序列標(biāo)注問(wèn)題帶入來(lái)分析計(jì)算,其實(shí)很多的解法很類(lèi)似。

2.1 非模型操作

常見(jiàn)的兩個(gè)非模型操作,直接通過(guò)規(guī)則或者詞典的模式:

通過(guò)配置句式,用正則表達(dá)式的方式來(lái)抽取。

運(yùn)用詞典,用最大逆向匹配來(lái)完成。之前寫(xiě)過(guò)文章:NLP.TM[29] | ner自動(dòng)化打標(biāo)方法

當(dāng)然了這種非模型操作的優(yōu)缺點(diǎn)點(diǎn)也是很明顯,之前也聊過(guò)不少了:

優(yōu)點(diǎn):

高準(zhǔn)確。

方便快捷。

缺點(diǎn):

召回低,泛化能力弱。

2.2 模型操作

模型往往是泛化能力較強(qiáng)的,規(guī)則和模板無(wú)法滿足召回的情況下,我們就需要模型來(lái)處理了。序列標(biāo)注需要對(duì)序列依賴(lài)要求很高,所以比較推薦大家用抽取序列特征的模型來(lái)處理。

HMM、CRF。序列標(biāo)注的經(jīng)典操作,有關(guān)CRF,我之前還寫(xiě)過(guò)長(zhǎng)文討論過(guò):NLP.TM[19] | 條件隨機(jī)場(chǎng)知識(shí)整理(超長(zhǎng)文!)。

BiLSTM-CRF,之前也提到過(guò),能上深度的情況下,這個(gè)的基線效果還是比較強(qiáng)的。NLP.TM | 命名實(shí)體識(shí)別基線 BiLSTM+CRF(上),NLP.TM | 命名實(shí)體識(shí)別基線 BiLSTM+CRF(下)

Bert-CRF。超級(jí)大的模型,整體效果是還不錯(cuò)的。

和上次一樣,也是介紹3個(gè),只要數(shù)據(jù)質(zhì)量足夠好,準(zhǔn)招七八十是沒(méi)什么大問(wèn)題的,如果效果不好,往往是因?yàn)閿?shù)據(jù)之類(lèi)的原因?qū)е碌?,此時(shí)我們?cè)撟龅木褪蔷珶挃?shù)據(jù)集,只有足夠數(shù)量和質(zhì)量的數(shù)據(jù),模型的效果才會(huì)好。

而相比文本分類(lèi)任務(wù),NER的樣本往往更加難得,但是小樣本還是可以通過(guò)人工標(biāo)注、挖掘等方式獲取,然后通過(guò)數(shù)據(jù)增強(qiáng)的方式來(lái)拓展出更多有代表性的query。

當(dāng)然了,序列標(biāo)注是一個(gè)很廣義的問(wèn)題,有一些特異的任務(wù)需要有特異的方法。

2.3 關(guān)鍵詞抽取

有關(guān)關(guān)鍵詞抽取,其實(shí)我在原來(lái)的文章就講過(guò),文章在這里:NLP.TM[20] | 詞權(quán)重問(wèn)題,這里可以考慮這幾個(gè)方案:

預(yù)訓(xùn)練的IDF詞典,例如jieba的。

很多關(guān)鍵詞抽取的任務(wù)都有場(chǎng)景特色,jieba那種通用的不適合,根據(jù)自己的數(shù)據(jù)自己訓(xùn)一個(gè),可能是最簡(jiǎn)單的,自己手寫(xiě)也不太累的模型訓(xùn)練了。

如果數(shù)據(jù)和特征夠多,學(xué)美團(tuán)的方案(前沿重器[2] | 美團(tuán)搜索理解和召回)自己訓(xùn)一個(gè)機(jī)器學(xué)習(xí)模型或者用深度學(xué)習(xí)整一個(gè)關(guān)鍵詞抽取的序列標(biāo)注模型。

2.4 糾錯(cuò)的錯(cuò)誤檢測(cè)

在現(xiàn)在比較前沿的技術(shù)里,糾錯(cuò)其實(shí)已經(jīng)是一整個(gè)完整的模塊,被拆分為錯(cuò)誤檢測(cè)、候選召回、召回排序三步,其中的錯(cuò)誤檢測(cè)就是為了找到句子中可能出錯(cuò)的部分,這里其實(shí)就可以抽象為序列標(biāo)注問(wèn)題,當(dāng)然用模型的方式來(lái)處理肯定是可以的,不過(guò)這同樣需要大量的標(biāo)注數(shù)據(jù)才能解決,相比之下,獲取一批正常的語(yǔ)料還是很簡(jiǎn)單的,這些預(yù)料可以訓(xùn)練語(yǔ)言模型,通過(guò)語(yǔ)言模型來(lái)判斷句子中是否存在通順程度異常的位點(diǎn),這塊詳情大家可以看看我之前的文章,尤其是第一篇。

NLP.TM[33] | 糾錯(cuò):pycorrector的錯(cuò)誤檢測(cè)

NLP.TM[34] | 糾錯(cuò):pycorrector的候選召回

NLP.TM[35] | 糾錯(cuò):pycorrector的候選排序

NLP.TM[37] | 深入討論糾錯(cuò)系統(tǒng)

3 效果調(diào)優(yōu)

有關(guān)效果調(diào)優(yōu),上面其實(shí)多多少少聊了很多,這里簡(jiǎn)單總結(jié)一下吧。

無(wú)監(jiān)督方案還是要多用,畢竟有監(jiān)督方法需要足量,無(wú)論是數(shù)量還是質(zhì)量,的數(shù)據(jù)。

如果實(shí)在需要有監(jiān)督模型,但受限于數(shù)據(jù),可以通過(guò)數(shù)據(jù)增強(qiáng)的方式挖掘到一批質(zhì)量還行的數(shù)據(jù)。NLP.TM[32] | 淺談文本增強(qiáng)技術(shù)

從關(guān)鍵詞抽取和糾錯(cuò)的錯(cuò)誤檢測(cè)中其實(shí)可以看到,解決序列標(biāo)注的思路還是很豐富的,大家要注意多積累。

4 其他想說(shuō)的

在這次總結(jié)里,一方面是仍然強(qiáng)烈感受到對(duì)方案和數(shù)據(jù)把控的重要性,尤其在序列標(biāo)注這個(gè)問(wèn)題下,足量的標(biāo)注數(shù)據(jù)是模型使用的先決條件,因此對(duì)數(shù)據(jù)的管理和優(yōu)化非常重要。另外,序列標(biāo)注需要對(duì)句子中的每個(gè)字/詞都要標(biāo)注,這個(gè)標(biāo)注數(shù)據(jù)是真的不好拿,因此需要我們對(duì)無(wú)監(jiān)督、非模型的方法也有足夠的了解,如果排期足夠,這種無(wú)監(jiān)督非模型的方案是可以作為有監(jiān)督模型數(shù)據(jù)的標(biāo)注的,沒(méi)有時(shí)間,無(wú)監(jiān)督非模型的方法也可以作為基線直接上線,這個(gè)也很好。最后一點(diǎn)事,我感覺(jué)我對(duì)前沿方案的把控還需要提升,這一輪輸出完成后,我可能要開(kāi)始對(duì)前沿方案重新調(diào)研升級(jí),從而升級(jí)自己的武器庫(kù)。

責(zé)任編輯:xj

原文標(biāo)題:任務(wù)方案思考:序列標(biāo)注(NER)篇

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 序列
    +關(guān)注

    關(guān)注

    0

    文章

    70

    瀏覽量

    20219
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    630

    瀏覽量

    14674
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23285

原文標(biāo)題:任務(wù)方案思考:序列標(biāo)注(NER)篇

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    大模型時(shí)代自動(dòng)駕駛標(biāo)注有什么特殊要求?

    在自動(dòng)駕駛的發(fā)展歷程中,數(shù)據(jù)標(biāo)注一直被視為算法進(jìn)化的基石。然而,隨著大模型時(shí)代的到來(lái),這一領(lǐng)域正經(jīng)歷著重構(gòu)。 過(guò)去,標(biāo)注員的任務(wù)是簡(jiǎn)單地在二維照片上畫(huà)框,標(biāo)記出車(chē)輛和行人的位置。但現(xiàn)在,為了支撐復(fù)雜
    的頭像 發(fā)表于 03-01 09:09 ?2791次閱讀
    大模型時(shí)代自動(dòng)駕駛<b class='flag-5'>標(biāo)注</b>有什么特殊要求?

    自動(dòng)駕駛數(shù)據(jù)標(biāo)注是所有信息都要標(biāo)注嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]數(shù)據(jù)標(biāo)注對(duì)于自動(dòng)駕駛來(lái)說(shuō),就像是老師教小朋友知識(shí),數(shù)據(jù)標(biāo)注可以讓車(chē)輛學(xué)習(xí)辨別道路交通信息的能力。攝像頭、雷達(dá)、激光雷達(dá)(LiDAR)拍下來(lái)的只是一堆原始信號(hào),這些信號(hào)
    的頭像 發(fā)表于 12-04 09:05 ?894次閱讀
    自動(dòng)駕駛數(shù)據(jù)<b class='flag-5'>標(biāo)注</b>是所有信息都要<b class='flag-5'>標(biāo)注</b>嗎?

    算法工程師不愿做標(biāo)注工作,怎么辦?

    對(duì)于算法而言,圖像標(biāo)注是一項(xiàng)關(guān)鍵性工作,越是大量的新數(shù)據(jù)集標(biāo)注,對(duì)于算法的性能提升越有幫助。但是圖像標(biāo)注是一項(xiàng)極其費(fèi)時(shí)費(fèi)力的工作,特別是遇到稍微復(fù)雜的場(chǎng)景時(shí),長(zhǎng)時(shí)間的重復(fù)工作,會(huì)讓標(biāo)注
    的頭像 發(fā)表于 12-02 17:56 ?555次閱讀
    算法工程師不愿做<b class='flag-5'>標(biāo)注</b>工作,怎么辦?

    淺析多模態(tài)標(biāo)注對(duì)大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例

    ”的關(guān)鍵工序——多模態(tài)標(biāo)注重要性日益凸顯。 一、什么是多模態(tài)標(biāo)注? 多模態(tài)標(biāo)注是指對(duì)文本、圖像、語(yǔ)音、視頻、點(diǎn)云等異構(gòu)數(shù)據(jù)進(jìn)行跨模態(tài)語(yǔ)義關(guān)聯(lián)的標(biāo)注過(guò)程,通過(guò)建立數(shù)據(jù)間的時(shí)空一致性和語(yǔ)義
    的頭像 發(fā)表于 09-05 13:49 ?2357次閱讀

    小語(yǔ)種OCR標(biāo)注效率提升10+倍:PaddleOCR+ERNIE 4.5自動(dòng)標(biāo)注實(shí)戰(zhàn)解析

    摘要 :小語(yǔ)種OCR研發(fā)的核心瓶頸在于高質(zhì)量標(biāo)注數(shù)據(jù)的稀缺與高昂成本。本文介紹一種創(chuàng)新的自動(dòng)化標(biāo)注方案,利用 PaddleOCR 進(jìn)行文本檢測(cè)與裁剪,并調(diào)用 ERNIE 4.5 大模型進(jìn)行雙重預(yù)測(cè)
    的頭像 發(fā)表于 08-29 11:26 ?3662次閱讀
    小語(yǔ)種OCR<b class='flag-5'>標(biāo)注</b>效率提升10+倍:PaddleOCR+ERNIE 4.5自動(dòng)<b class='flag-5'>標(biāo)注</b>實(shí)戰(zhàn)解析

    自動(dòng)駕駛數(shù)據(jù)標(biāo)注主要是標(biāo)注什么?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛系統(tǒng)的研發(fā)過(guò)程中,數(shù)據(jù)標(biāo)注是實(shí)現(xiàn)高性能感知模型的基礎(chǔ)環(huán)節(jié),其核心目標(biāo)是將車(chē)輛從環(huán)境中采集到的原始感知數(shù)據(jù)(主要包括圖像、點(diǎn)云、視頻序列等)轉(zhuǎn)化為具有語(yǔ)義信息
    的頭像 發(fā)表于 07-30 11:54 ?1363次閱讀
    自動(dòng)駕駛數(shù)據(jù)<b class='flag-5'>標(biāo)注</b>主要是<b class='flag-5'>標(biāo)注</b>什么?

    什么是自動(dòng)駕駛數(shù)據(jù)標(biāo)注?如何好做數(shù)據(jù)標(biāo)注?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛系統(tǒng)的開(kāi)發(fā)過(guò)程中,數(shù)據(jù)標(biāo)注是一項(xiàng)至關(guān)重要的工作。它不僅決定了模型訓(xùn)練的質(zhì)量,也直接影響了車(chē)輛感知、決策與控制的性能表現(xiàn)。隨著傳感器種類(lèi)和數(shù)據(jù)量的劇增,有效
    的頭像 發(fā)表于 07-09 09:19 ?1399次閱讀
    什么是自動(dòng)駕駛數(shù)據(jù)<b class='flag-5'>標(biāo)注</b>?如何好做數(shù)據(jù)<b class='flag-5'>標(biāo)注</b>?

    數(shù)據(jù)標(biāo)注與大模型的雙向賦能:效率與性能的躍升

    ??在人工智能蓬勃發(fā)展的時(shí)代,大模型憑借其強(qiáng)大的學(xué)習(xí)與泛化能力,已成為眾多領(lǐng)域創(chuàng)新變革的核心驅(qū)動(dòng)力。而數(shù)據(jù)標(biāo)注作為大模型訓(xùn)練的基石,為大模型性能提升注入關(guān)鍵動(dòng)力,是模型不可或缺的“養(yǎng)料。大模型則憑借
    的頭像 發(fā)表于 06-04 17:15 ?2013次閱讀
    數(shù)據(jù)<b class='flag-5'>標(biāo)注</b>與大模型的雙向賦能:效率與性能的躍升

    AI時(shí)代 圖像標(biāo)注不要沒(méi)苦硬吃

    識(shí)別算法的性能提升依靠大量的圖像標(biāo)注,傳統(tǒng)模式下,需要人工對(duì)同類(lèi)型數(shù)據(jù)集進(jìn)行一步步手動(dòng)拉框,這個(gè)過(guò)程的痛苦只有做過(guò)的人才知道。越多素材的數(shù)據(jù)集對(duì)于算法的提升越有幫助,常規(guī)情況下,一個(gè)20秒時(shí)長(zhǎng)30幀
    的頭像 發(fā)表于 05-20 17:54 ?565次閱讀
    AI時(shí)代   圖像<b class='flag-5'>標(biāo)注</b>不要沒(méi)苦硬吃

    東軟集團(tuán)入選國(guó)家數(shù)據(jù)局?jǐn)?shù)據(jù)標(biāo)注優(yōu)秀案例

    近日,東軟飛標(biāo)醫(yī)學(xué)影像標(biāo)注平臺(tái)在國(guó)家數(shù)據(jù)局發(fā)布數(shù)據(jù)標(biāo)注優(yōu)秀案例集名單中排名第一(案例名稱(chēng)“多模態(tài)醫(yī)學(xué)影像智能數(shù)據(jù)標(biāo)注平臺(tái)”)。評(píng)選專(zhuān)家認(rèn)為東軟案例取得了顯著成效,一方面,搶占了自主可控的數(shù)據(jù)標(biāo)
    的頭像 發(fā)表于 05-09 14:37 ?1256次閱讀

    標(biāo)貝科技“4D-BEV上億點(diǎn)云標(biāo)注系統(tǒng)”入選國(guó)家數(shù)據(jù)局首批數(shù)據(jù)標(biāo)注優(yōu)秀案例

    4月29日,作為第八屆數(shù)字中國(guó)建設(shè)峰會(huì)的重要組成部分,由國(guó)家數(shù)據(jù)局主辦的高質(zhì)量數(shù)據(jù)集和數(shù)據(jù)標(biāo)注主題交流活動(dòng)在福州市數(shù)字中國(guó)會(huì)展中心舉行。會(huì)議交流活動(dòng)聚焦“推動(dòng)高質(zhì)量數(shù)據(jù)集建設(shè),加快賦能人工智能發(fā)展
    的頭像 發(fā)表于 04-30 14:38 ?738次閱讀
    標(biāo)貝科技“4D-BEV上億點(diǎn)云<b class='flag-5'>標(biāo)注</b>系統(tǒng)”入選國(guó)家數(shù)據(jù)局首批數(shù)據(jù)<b class='flag-5'>標(biāo)注</b>優(yōu)秀案例

    數(shù)據(jù)標(biāo)注服務(wù)—奠定大模型訓(xùn)練的數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過(guò)程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,數(shù)據(jù)標(biāo)注承擔(dān)著將原始數(shù)據(jù)轉(zhuǎn)化為機(jī)器可理解、可學(xué)習(xí)的信息的關(guān)鍵任務(wù)。這一過(guò)程不僅決定了模型學(xué)習(xí)的起點(diǎn),也
    的頭像 發(fā)表于 03-21 10:30 ?3364次閱讀

    標(biāo)貝數(shù)據(jù)標(biāo)注服務(wù):奠定大模型訓(xùn)練的數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過(guò)程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,數(shù)據(jù)標(biāo)注承擔(dān)著將原始數(shù)據(jù)轉(zhuǎn)化為機(jī)器可理解、可學(xué)習(xí)的信息的關(guān)鍵任務(wù)。這一過(guò)程不僅決定了模型學(xué)習(xí)的起點(diǎn),也
    的頭像 發(fā)表于 03-21 10:27 ?1127次閱讀
    標(biāo)貝數(shù)據(jù)<b class='flag-5'>標(biāo)注</b>服務(wù):奠定大模型訓(xùn)練的數(shù)據(jù)基石

    自動(dòng)化標(biāo)注技術(shù)推動(dòng)AI數(shù)據(jù)訓(xùn)練革新

    標(biāo)貝自動(dòng)化數(shù)據(jù)標(biāo)注平臺(tái)在全棧數(shù)據(jù)標(biāo)注場(chǎng)景式中搭載了大模型預(yù)標(biāo)注和自動(dòng)化標(biāo)注能力,并應(yīng)用于3D點(diǎn)云、2D圖像、音頻、文本等數(shù)據(jù)場(chǎng)景的大規(guī)模、復(fù)雜任務(wù)和常規(guī)任務(wù)的
    的頭像 發(fā)表于 03-14 16:46 ?1384次閱讀

    標(biāo)貝自動(dòng)化數(shù)據(jù)標(biāo)注平臺(tái)推動(dòng)AI數(shù)據(jù)訓(xùn)練革新

    標(biāo)貝自動(dòng)化數(shù)據(jù)標(biāo)注平臺(tái)在全棧數(shù)據(jù)標(biāo)注場(chǎng)景式中搭載了大模型預(yù)標(biāo)注和自動(dòng)化標(biāo)注能力,并應(yīng)用于3D點(diǎn)云、2D圖像、音頻、文本等數(shù)據(jù)場(chǎng)景的大規(guī)模、復(fù)雜任務(wù)和常規(guī)任務(wù)的
    的頭像 發(fā)表于 03-14 16:42 ?1680次閱讀
    標(biāo)貝自動(dòng)化數(shù)據(jù)<b class='flag-5'>標(biāo)注</b>平臺(tái)推動(dòng)AI數(shù)據(jù)訓(xùn)練革新