91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于亂序語言模型的預(yù)訓(xùn)練模型-PERT

深度學(xué)習(xí)自然語言處理 ? 來源:NLP工作站 ? 作者:劉聰NLP ? 2022-05-10 15:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寫在前面

今天分享給大家一篇哈工大訊飛聯(lián)合實驗室的論文,一種基于亂序語言模型的預(yù)訓(xùn)練模型-PERT,全名《PERT: PRE-TRAINING BERT WITH PERMUTED LANGUAGE MODEL》。該篇論文的核心是,將MLM語言模型的掩碼詞預(yù)測任務(wù),替換成詞序預(yù)測任務(wù),也就是在不引入掩碼標記[MASK]的情況下自監(jiān)督地學(xué)習(xí)文本語義信息,隨機將一段文本的部分詞序打亂,然后預(yù)測被打亂詞語的原始位置。

PERT模型的Github以及對應(yīng)的開源模型其實年前就出來了,只是論文沒有放出。今天一瞬間想起來去看一眼,這不,論文在3月14號的時候掛到了axirv上,今天分享給大家。

paper:https://arxiv.org/pdf/2203.06906.pdf
github:https://github.com/ymcui/PERT

介紹

預(yù)訓(xùn)練語言模型(PLMs)目前在各種自然語言處理任務(wù)中均取得了優(yōu)異的效果。預(yù)訓(xùn)練語言模型主要分為自編碼和自回歸兩種。自編碼PLMs的預(yù)訓(xùn)練任務(wù)通常是掩碼語言模型任務(wù),即在預(yù)訓(xùn)練階段,使用[MASK]標記替換原始輸入文本中的一些token,并在詞匯表中恢復(fù)這些被[MASK]的token。

常用預(yù)訓(xùn)練語言模型總結(jié):https://zhuanlan.zhihu.com/p/406512290

那么,自編碼PLMs只能使用掩碼語言模型任務(wù)作為預(yù)訓(xùn)練任務(wù)嗎?我們發(fā)現(xiàn)一個有趣的現(xiàn)象“在一段文本中隨機打亂幾個字并不會影響我們對這一段文本的理解”,如下圖所示,乍一看,可能沒有注意到句子中存在一些亂序詞語,并且可以抓住句子的中心意思。該論文探究了是否可以通過打亂句子中的字詞來學(xué)習(xí)上下文的文本表征,并提出了一個新的預(yù)訓(xùn)練任務(wù),即亂序語言模型(PerLM)。e8d52ce8-cf96-11ec-bce3-dac502259ad0.png

模型

PERT模型結(jié)構(gòu)如上圖所示。PERT模型結(jié)構(gòu)與BERT模型結(jié)構(gòu)相同,僅在模型輸入以及預(yù)訓(xùn)練目標上略有不同。

PERT模型的細節(jié)如下:

  • 采用亂序語言模型作為預(yù)訓(xùn)練任務(wù),預(yù)測目標為原始字詞的位置;
  • 預(yù)測空間大小取決于輸入序列長度,而不是整個詞表的大?。ㄑ诖a語言模型預(yù)測空間為詞表);
  • 不采用NSP任務(wù);
  • 通過全詞屏蔽和N-gram屏蔽策略來選擇亂序的候選標記;
  • 亂序的候選標記的概率為15%,并且真正打亂順序僅占90%,剩余10%保持不變。

由于亂序語言模型不使用[MASK]標記,減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap,并由于預(yù)測空間大小為輸入序列長度,使得計算效率高于掩碼語言模型。PERT模型結(jié)構(gòu)與BERT模型一致,因此在下游預(yù)訓(xùn)練時,不需要修改原始BERT模型的任何代碼與腳本。注意,與預(yù)訓(xùn)練階段不同,在微調(diào)階段使用正常的輸入序列,而不是打亂順序的序列。

中文實驗結(jié)果與分析

預(yù)訓(xùn)練參數(shù)

  • 數(shù)據(jù):由中文維基百科、百科全書、社區(qū)問答、新聞文章等組成,共5.4B字,大約20G。
  • 訓(xùn)練參數(shù):詞表大小為21128,最大序列長度為512,batch大小為416(base版模型)和128(large版模型),初始學(xué)習(xí)率為1e-4,使用 warmup動態(tài)調(diào)節(jié)學(xué)習(xí)率,總訓(xùn)練步數(shù)為2M,采用ADAM優(yōu)化器。
  • 訓(xùn)練設(shè)備:一臺TPU,128G。

機器閱讀理解MRC任務(wù)

在CMRC2018和DRCD兩個數(shù)據(jù)集上對機器閱讀理解任務(wù)進行評測,結(jié)果如下表所示。e8e7ca9c-cf96-11ec-bce3-dac502259ad0.png
PERT模型相比于MacBERT模型有部分的提高,并且始終優(yōu)于其他模型。

文本分類TC任務(wù)

在XNLI、LCQMC、BQ Corpus、ChnSentiCorp、TNEWS和OCNLI 6個數(shù)據(jù)集上對文本分類任務(wù)進行評測,結(jié)果如下表所示。e901a50c-cf96-11ec-bce3-dac502259ad0.png

在文本分類任務(wù)上,PERT模型表現(xiàn)不佳。推測與MRC任務(wù)相比,預(yù)訓(xùn)練中的亂序文本給理解短文本帶來了困難。

命名實體識別NER任務(wù)

在MSRA-NER和People’s Daily兩個數(shù)據(jù)集上對命名實體識別任務(wù)進行評測,結(jié)果如下表所示。e922c94e-cf96-11ec-bce3-dac502259ad0.png

PERT模型相比于其他模型均取得最優(yōu)的效果,表明預(yù)訓(xùn)練中的亂序文在序列標記任務(wù)中的良好能力。

對比機器閱讀理解、文本分類和命名實體識別三個任務(wù),可以發(fā)現(xiàn),PERT模型在MRC和NER任務(wù)上表現(xiàn)較好,但在TC任務(wù)上表現(xiàn)不佳,這意味著TC任務(wù)對詞語順序更加敏感,由于TC任務(wù)的輸入文本相對較短,有些詞語順序的改變會給輸入文本帶來完全的意義變化。然而,MRC任務(wù)的輸入文本通常很長,幾個單詞的排列可能不會改變整個文章的敘述流程;并且對于NER任務(wù),由于命名實體在整個輸入文本中只占很小的比例,因此詞語順序改變可能不會影響NER進程。

語法檢查任務(wù)

在Wikipedia、Formal Doc、Customs和Legal 4個數(shù)據(jù)集上對文本分類任務(wù)進行評測語法檢查任務(wù)進行評測,結(jié)果如下表所示。e938f854-cf96-11ec-bce3-dac502259ad0.png

PERT模型相比于其他模型均取得最優(yōu)的效果,這是由于下游任務(wù)與預(yù)訓(xùn)練任務(wù)非常相似導(dǎo)致的。

預(yù)訓(xùn)練的訓(xùn)練步數(shù)對PERT模型的影響

不同的下游任務(wù)的最佳效果可能出現(xiàn)在不同的預(yù)訓(xùn)練步驟上,如下圖所示。e98c68c2-cf96-11ec-bce3-dac502259ad0.png

我們發(fā)現(xiàn)對于MRC和NER任務(wù),隨著預(yù)訓(xùn)練步數(shù)的增加,下游任務(wù)也會隨之提高。然而,對于TC任務(wù),不同數(shù)據(jù)的指標在不同的步數(shù)上取得最優(yōu)。如果考慮到特定任務(wù)的效果,有必要在早期訓(xùn)練中保存部分模型。

不同的打亂粒度對PERT模型的影響

不同粒度間的打亂,可以使使輸入文本更具可讀性。通過在不同粒度內(nèi)亂序輸入文本來比較性能,如下表所示。e9a25be6-cf96-11ec-bce3-dac502259ad0.png

我們發(fā)現(xiàn),在各種打亂粒度中,無限制亂序的PERT模型在所有任務(wù)中都取得了最優(yōu)的效果;而選擇最小粒度(詞語之間)的模型,效果最差??赡茉蚴?,雖然使用更小的粒度的亂序可以使輸入文本更具可讀性,但是對預(yù)訓(xùn)練任務(wù)的挑戰(zhàn)性較小,使模型不能學(xué)習(xí)到更好地語義信息。

不同預(yù)測空間對PERT模型的影響

將PERT模型使用詞表空間作為預(yù)測目標是否有效?如下表所示。

e9b7dda4-cf96-11ec-bce3-dac502259ad0.png

實驗結(jié)果表明,PERT模型不需要在詞表空間中進行預(yù)測,其表現(xiàn)明顯差于在輸入序列上的預(yù)測;并且將兩者結(jié)合的效果也不盡如人意。

預(yù)測部分序列和預(yù)測全部序列對PERT模型的影響

ELECTRA模型的實驗發(fā)現(xiàn)預(yù)測完全序列的效果比部分序列的更好,因此ELECTRA模型采用RTD任務(wù)對判別器采用完全序列預(yù)測。但通過本論文實驗發(fā)現(xiàn),預(yù)測完全序列在PERT模型中并沒有產(chǎn)生更好的效果。表明在預(yù)訓(xùn)練任務(wù)中使用預(yù)測全部序列并不總是有效的,需要根據(jù)所設(shè)計的預(yù)訓(xùn)練任務(wù)進行調(diào)整。e9db0a7c-cf96-11ec-bce3-dac502259ad0.png

總結(jié)

PERT模型的預(yù)訓(xùn)練思路還是挺有意思的,并在MRC、NER和WOR任務(wù)上均取得了不錯的效果。并且由于結(jié)構(gòu)與BERT模型一致,因此在下游任務(wù)使用時,僅修改預(yù)訓(xùn)練模型加載路徑就實現(xiàn)了模型替換,也比較方便。當打比賽或者做業(yè)務(wù)時候,可以不妨試一試,說不定有奇效。(ps:我在我們自己的MRC數(shù)據(jù)集上做過實驗,效果不錯呦!?。?/p>


審核編輯 :李倩



聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    572

    瀏覽量

    11323
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    630

    瀏覽量

    14674

原文標題:PERT:一種基于亂序語言模型的預(yù)訓(xùn)練模型

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁、文章等)進行
    的頭像 發(fā)表于 02-02 16:36 ?931次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    摩爾線程新代大語言模型對齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領(lǐng)域取得重要突破,其提出的新代大語言模型對齊框架——URPO統(tǒng)獎勵與策略優(yōu)化,相關(guān)研究論文已被人工智能領(lǐng)域的國際頂級學(xué)術(shù)會議AAAI 2026收錄。這
    的頭像 發(fā)表于 11-17 16:03 ?504次閱讀
    摩爾線程新<b class='flag-5'>一</b>代大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>對齊框架URPO入選AAAI 2026

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標是
    發(fā)表于 10-22 07:03

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來,機器人操作領(lǐng)域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導(dǎo)致統(tǒng)訓(xùn)練困難;現(xiàn)
    的頭像 發(fā)表于 08-21 09:56 ?1110次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    如何進行YOLO模型轉(zhuǎn)換?

    我目前使用的轉(zhuǎn)模型代碼如下 from ultralytics import YOLOimport cv2import timeimport nncaseimport# 加載預(yù)訓(xùn)練的YOLO模型
    發(fā)表于 08-14 06:03

    利用自壓縮實現(xiàn)大型語言模型高效縮減

    隨著語言模型規(guī)模日益龐大,設(shè)備端推理變得越來越緩慢且耗能巨大。個直接且效果出人意料的解決方案是剪除那些對任務(wù)貢獻甚微的完整通道(channel)。我們早期的研究提出了一種
    的頭像 發(fā)表于 07-28 09:36 ?569次閱讀
    利用自壓縮實現(xiàn)大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>高效縮減

    龍芯中科與文心系列模型開展深度技術(shù)合作

    ”解決方案。 強強聯(lián)合!自主架構(gòu)賦能大模型訓(xùn)練 文心大模型 文心4.5系列模型均使用飛槳深度學(xué)習(xí)框架進行高效訓(xùn)練、推理和部署。在大
    的頭像 發(fā)表于 07-02 16:53 ?1364次閱讀

    運行kmodel模型驗證直報錯怎么解決?

    我這運行kmodel模型驗證直報錯,所以沒法做kmodel模型好壞驗證,不知道怎么解決這個問題,重新訓(xùn)練個kmodel
    發(fā)表于 06-10 08:02

    小白學(xué)大模型:從零實現(xiàn) LLM語言模型

    在當今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為個熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任
    的頭像 發(fā)表于 04-30 18:34 ?1321次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實現(xiàn) LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    模型時代的深度學(xué)習(xí)框架

    量是約為 25.63M,在ImageNet1K數(shù)據(jù)集上,使用單張消費類顯卡 RTX-4090只需大約35~40個小時 ,即可完成ResNet50模型預(yù)訓(xùn)練。在 大模型時代 ,由于大
    的頭像 發(fā)表于 04-25 11:43 ?856次閱讀
    大<b class='flag-5'>模型</b>時代的深度學(xué)習(xí)框架

    請問如何在imx8mplus上部署和運行YOLOv5訓(xùn)練模型?

    我正在從事 imx8mplus yocto 項目。我已經(jīng)在自定義數(shù)據(jù)集上的 YOLOv5 上訓(xùn)練了對象檢測模型。它在 ubuntu 電腦上運行良好?,F(xiàn)在我想在我的 imx8mplus 板上運行該模型
    發(fā)表于 03-25 07:23

    用PaddleNLP為GPT-2模型制作FineWeb二進制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進步講解更多的技術(shù)細節(jié)。本文主要針對大
    的頭像 發(fā)表于 03-21 18:24 ?4336次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    數(shù)據(jù)標注服務(wù)—奠定大模型訓(xùn)練的數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓(xùn)練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,數(shù)據(jù)標注承擔著將原始數(shù)據(jù)轉(zhuǎn)化為機器可理解、可學(xué)
    的頭像 發(fā)表于 03-21 10:30 ?3362次閱讀

    標貝數(shù)據(jù)標注服務(wù):奠定大模型訓(xùn)練的數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓(xùn)練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,數(shù)據(jù)標注承擔著將原始數(shù)據(jù)轉(zhuǎn)化為機器可理解、可學(xué)
    的頭像 發(fā)表于 03-21 10:27 ?1127次閱讀
    標貝數(shù)據(jù)標注服務(wù):奠定大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>的數(shù)據(jù)基石

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,
    的頭像 發(fā)表于 03-17 15:32 ?8926次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析