91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Multilingual多語言預(yù)訓(xùn)練語言模型的套路

深度學(xué)習(xí)自然語言處理 ? 來源:圓圓的算法筆記 ? 作者:圓圓的算法筆記 ? 2022-05-05 15:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Multilingual是NLP中的研究熱點(diǎn)之一,其中的一個(gè)研究方向是如何構(gòu)建多語言預(yù)訓(xùn)練語言模型,實(shí)現(xiàn)不同語言的在隱空間的對(duì)齊,一個(gè)模型支持多語種的NLP任務(wù),同時(shí)利用數(shù)據(jù)豐富的語言提升數(shù)據(jù)較少的語言效果。這篇文章就為大家整理了Multilingual多語言預(yù)訓(xùn)練語言模型的套路,包括XLM、XLM-R、ERNIE-M、Unicoder、ALM等5個(gè)經(jīng)典模型,以及這些模型之間的演進(jìn)關(guān)系。

1XLM:多語言預(yù)訓(xùn)練的起點(diǎn)

隨著BERT、GPT預(yù)訓(xùn)練語言模型的興起,這些方法也被自然而然的用在了多語言預(yù)訓(xùn)練任務(wù)上。通過在BERT、GPT等成熟的NLP模型結(jié)構(gòu)上同時(shí)學(xué)習(xí)多個(gè)語言的語料,并設(shè)計(jì)多語言對(duì)齊任務(wù),實(shí)現(xiàn)了Multilingual預(yù)訓(xùn)練語言模型,應(yīng)用到下游各種語言的任務(wù)中。

Facebook在Crosslingual language model pretraining(NIPS 2019)一文中提出XLM預(yù)訓(xùn)練多語言模型,整體思路基于BERT,并提出了針對(duì)多語言預(yù)訓(xùn)練的3個(gè)優(yōu)化任務(wù)。后續(xù)很多多語言預(yù)訓(xùn)練工作都建立在XLM的基礎(chǔ)上,我們來詳細(xì)看看XLM的整體訓(xùn)練過程。

首先,需要構(gòu)造一個(gè)多語言的vocabulary list。XLM讓所有語言共用同一個(gè)詞表,利用Byte Pair Encoding (BPE)的方法從所有語言中采樣文本構(gòu)造詞典。為了提升low-resource語言采樣比例,緩解預(yù)訓(xùn)練模型偏向high-resource語言,在采樣過程中會(huì)對(duì)各個(gè)語言采樣比例做一定的矯正。通過多種語言共用一個(gè)BPE詞表的方法,便于不同語言的token embedding在隱空間對(duì)齊,也能提取到不同語言共用的token。

模型預(yù)訓(xùn)練主要包括兩個(gè)任務(wù),分別是MLM和TLM。其中MLM和BERT中采用的方式類似,mask部分token進(jìn)行預(yù)測(cè)。TLM是Translation Language Model,這個(gè)任務(wù)為了引入多語言的對(duì)齊關(guān)系,將兩種語言的文本拼接到一起采用mask token的方式預(yù)測(cè)。這樣在預(yù)測(cè)過程中,既可以根據(jù)本語言的信息預(yù)測(cè),也可以根據(jù)另一種語言的信息預(yù)測(cè)。此外,XLM引入了language embedding,用來標(biāo)明每個(gè)位置上的token屬于哪個(gè)語言。XLM的兩個(gè)預(yù)訓(xùn)練任務(wù)如下圖所示。

04e82eea-cbbd-11ec-bce3-dac502259ad0.png

2XLM-R:更細(xì)致的XLM

Unsupervised cross-lingual representation learning at scale(ACL 2019)在XLM的基礎(chǔ)上進(jìn)一步分析了影響多語言預(yù)訓(xùn)練模型效果的因素,提出在100多種語言上預(yù)訓(xùn)練得到的XLM-R模型。下面列舉了本文中的核心實(shí)驗(yàn)結(jié)論,揭示了不同的多語言訓(xùn)練方式對(duì)效果的影響。

圖2顯示了隨著預(yù)訓(xùn)練過程引入語言種類的變化,low resource語言的效果先上升后下降。這是因?yàn)樵谀P蚦apacity一定的情況下,引入多種語言一方面會(huì)讓low resource語言獲得可遷移的知識(shí),另一方面過多的語言也稀釋了模型的capacity,每種語言能夠使用的capacity減少,導(dǎo)致效果下降。而high resource語言的效果隨著引入語言數(shù)量的增加是持續(xù)下降的。圖4顯示,增加模型尺寸可以緩解多語言稀釋capacity的問題(7種語言和30種語言效果對(duì)比),但是引入100種語言后即使增加模型尺寸效果仍然不佳。

圖5展示了不同語言采樣權(quán)重變化的效果影響,low resource和high resource語言之間存在一定的矛盾性,因此隨著采樣偏向于high resource語言,low resource語言的效果越來越差。圖6則展示了詞典尺寸大小對(duì)效果的影響,詞典尺寸增大,對(duì)應(yīng)embedding層尺寸增加,可以比較明顯的提升多語言預(yù)訓(xùn)練模型效果。

051388ba-cbbd-11ec-bce3-dac502259ad0.png

基于以上這些實(shí)驗(yàn)的分析,作者提出了基于RoBerta的XLM-R,在100余種語言、2.5T的數(shù)據(jù)上預(yù)訓(xùn)練,取得了在XNLI數(shù)據(jù)集上相比基礎(chǔ)版XLM模型15%的效果提升。相比于XLM,XLM-R最大的區(qū)別之一是沒有使用TLM這個(gè)預(yù)訓(xùn)練任務(wù),所有預(yù)訓(xùn)練數(shù)據(jù)都是單語言的,不包括兩個(gè)語言對(duì)齊的數(shù)據(jù)。

3ERINE-M:回譯的引入

ERNIE-M: Enhanced multilingual representation by aligning cross-lingual semantics with monolingual corpora(EMNLP 2019)基于XLM-R提出了ERNIE-M模型,主要是在MMLM、TLM兩個(gè)任務(wù)以外,新引入了CAMLM(Cross-attention Masked Language Modeling)和BTMLM(Back-translation Masked Language Modeling)兩個(gè)額外的任務(wù)。其中CAMLM任務(wù)和TLM任務(wù)類似,都是用翻譯文本對(duì)作為輸入,預(yù)測(cè)被mask的token,區(qū)別在于TLM在預(yù)測(cè)一個(gè)mask token時(shí)可以同時(shí)參考兩種語言的所有信息,而CAMLM在預(yù)測(cè)source句子中被mask的token時(shí),只能使用target句子的信息;在預(yù)測(cè)target句子中被mask的token時(shí),只能使用source句子的信息。實(shí)現(xiàn)上做了一個(gè)mask的操作,強(qiáng)制讓模型只能用另一種語言的context預(yù)測(cè)本語言的mask token,提升模型的多語言對(duì)齊能力。CAMLM和MMLM、TLM等任務(wù)的區(qū)別如下圖所示。

0537bff0-cbbd-11ec-bce3-dac502259ad0.png

0551fa5a-cbbd-11ec-bce3-dac502259ad0.png

不論是TLM還是CAMLM,都需要使用parallel的句子,如果可用的parallel數(shù)據(jù)較少,就會(huì)影響對(duì)齊效果。因此,文中提出了第二個(gè)任務(wù)BTMLM,利用CAMLM學(xué)到的多語言之間的對(duì)齊關(guān)系,將回譯任務(wù)融入到預(yù)訓(xùn)練中。核心思路是,使用CAMLM預(yù)訓(xùn)練好的模型,根據(jù)單語言語料生成另一種語言的偽數(shù)據(jù),利用這個(gè)偽數(shù)據(jù)作為輸入,構(gòu)造parallel句子作為輸入。BTMLM的示意圖如下。第一步將單語言輸入后面接mask,利用CAMLM預(yù)訓(xùn)練多語言模型生成mask部分的token,得到偽樣本(即隱空間中當(dāng)前樣本在另一種樣本下的翻譯)。接下來,將偽樣本作為輸入,以MLM為目標(biāo),同時(shí)使用源句子和偽樣本預(yù)測(cè)被mask掉的token。這種方式相當(dāng)于一種數(shù)據(jù)增強(qiáng)手段,通過模型自動(dòng)生成parallel數(shù)據(jù),緩解了parallel數(shù)據(jù)不足的問題。

0580b502-cbbd-11ec-bce3-dac502259ad0.png

4Unicoder:多語言對(duì)齊任務(wù)的優(yōu)化

Unicoder: A Universal Language Encoder by Pre-training with Multiple Crosslingual Tasks(ACL 2019)提出了多語言預(yù)訓(xùn)練模型Unicoder。在XLM中,模型的訓(xùn)練任務(wù)主要是單語言的,Unicoder提出了3種新的多語言對(duì)齊任務(wù)來提升預(yù)訓(xùn)練多語言模型效果。

第一個(gè)任務(wù)是Cross-lingual Word Recovery,輸入是兩種語言的語句pair對(duì)(X,Y),然后利用attention的方法將X用Y表示,再利用這些表示還原X。這其實(shí)類似于一個(gè)基于attention的翻譯任務(wù),實(shí)現(xiàn)了不同語言之間的word alignment。

第二個(gè)任務(wù)是Cross-lingual Paraphrase Classification,是一個(gè)分類任務(wù)。輸入同樣是兩個(gè)語言的句子對(duì),預(yù)測(cè)這兩個(gè)句子是否表達(dá)的是同一個(gè)含義。數(shù)據(jù)集的構(gòu)造方法上,正樣本采用機(jī)器翻譯數(shù)據(jù)集的數(shù)據(jù)構(gòu)造正樣本。為了構(gòu)造hard負(fù)樣本,即語義在一定程度上相似但不是互為翻譯的文本對(duì),作者采用了Effective Parallel Corpus Mining using Bilingual Sentence Embeddings(2018)提出的hard negatives構(gòu)造方法。先使用隨機(jī)采樣的負(fù)樣本構(gòu)造簡(jiǎn)單負(fù)樣本訓(xùn)練一個(gè)baseline模型,再利用這個(gè)模型計(jì)算當(dāng)前樣本和所有負(fù)樣本相似度,取相似度最高且又不是正樣本的負(fù)樣本,作為hard negatives。

第三個(gè)任務(wù)是Cross-lingual Masked Language Model,將一些文檔級(jí)別翻譯較好的數(shù)據(jù)集的兩種語言進(jìn)行重組,得到多語言document,在這種多語言document上以Mask Language Model為優(yōu)化目標(biāo)訓(xùn)練。三種不同的預(yù)訓(xùn)練任務(wù)如下圖所示。

05ae38ba-cbbd-11ec-bce3-dac502259ad0.png

5ALM:樣本構(gòu)造上的創(chuàng)新

Alternating Language Modeling for Cross-Lingual Pre-Training(AAAI 2020)提出一種新的多語言模型預(yù)訓(xùn)練方式。之前的做法如XLM都是將多語言文本對(duì)拼接到一起,而本文提出的ALM方法通過將源語言中的部分短語替換成另一種語言,生成了多語言交替的樣本作為訓(xùn)練樣本,以Transformer為基礎(chǔ)在這種樣本上進(jìn)行Mask Language Model的學(xué)習(xí)。這種方法強(qiáng)制讓每次預(yù)測(cè)被mask掉的單詞時(shí),都要參考其他語言的信息,進(jìn)一步縮小了不同語言在隱空間的距離。

05ed04b4-cbbd-11ec-bce3-dac502259ad0.png

6總結(jié)

以上就是多語言預(yù)訓(xùn)練中5個(gè)經(jīng)典模型的介紹。除了本文介紹的預(yù)訓(xùn)練語言模型外,對(duì)比學(xué)習(xí)、meta-learning等方法在Multilingual中也有很多應(yīng)用。多語言任務(wù)還是非常重要的,尤其當(dāng)今很多企業(yè)都展開國(guó)際化戰(zhàn)略,拓展海外市場(chǎng),多語言建模技術(shù)更成為不可缺少的能力。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    571

    瀏覽量

    11322
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26205
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23282

原文標(biāo)題:Multilingual預(yù)訓(xùn)練的那些套路

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁、文章等)進(jìn)行預(yù)
    的頭像 發(fā)表于 02-02 16:36 ?925次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    京東多語言質(zhì)量解決方案

    一、業(yè)界多語言面臨的通用挑戰(zhàn)是什么 做這個(gè)事之前,我們先看看業(yè)界做了什么。 ??阿里巴巴全球化測(cè)試技術(shù)介紹? ??螞蟻全球化無線端質(zhì)量解決方案? ??談?wù)?b class='flag-5'>多語言測(cè)試? 總結(jié)下來,需要面臨3個(gè)通用
    的頭像 發(fā)表于 01-13 16:18 ?946次閱讀
    京東<b class='flag-5'>多語言</b>質(zhì)量解決方案

    摩爾線程新一代大語言模型對(duì)齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領(lǐng)域取得重要突破,其提出的新一代大語言模型對(duì)齊框架——URPO統(tǒng)一獎(jiǎng)勵(lì)與策略優(yōu)化,相關(guān)研究論文已被人工智能領(lǐng)域的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議AAAI 2026收錄。這一成果標(biāo)志著摩爾線程在大模型基礎(chǔ)技術(shù)探索上邁出
    的頭像 發(fā)表于 11-17 16:03 ?501次閱讀
    摩爾線程新一代大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>對(duì)齊框架URPO入選AAAI 2026

    阿里巴巴國(guó)際站關(guān)鍵字搜索 API 實(shí)戰(zhàn):3 步搞定多語言適配 + 限流破局,詢盤量提升 40%

    跨境電商API開發(fā)常陷合規(guī)、多語言、限流等坑。本文詳解從國(guó)際合規(guī)(GDPR/CCPA)到參數(shù)優(yōu)化、數(shù)據(jù)結(jié)構(gòu)化及區(qū)域化搜索的全鏈路方案,附Python代碼模板與緩存重試架構(gòu),助力提升調(diào)用成功率至99%+,精準(zhǔn)詢盤增長(zhǎng)42%。
    的頭像 發(fā)表于 10-20 14:44 ?1738次閱讀

    速賣通全球運(yùn)營(yíng)利器:商品詳情接口多語言 + 合規(guī) + 物流適配技術(shù)全解析

    速賣通全球化適配是跨境成功關(guān)鍵!本文詳解2025最新接口方案,涵蓋多語言智能翻譯、合規(guī)自動(dòng)校驗(yàn)、物流精準(zhǔn)推薦與性能優(yōu)化四大模塊,助力商家提升轉(zhuǎn)化率30%+,降低風(fēng)險(xiǎn),提效80%。附實(shí)操代碼與新手三步走策略,適合所有想出海的賣家。
    的頭像 發(fā)表于 10-16 09:30 ?567次閱讀
    速賣通全球運(yùn)營(yíng)利器:商品詳情接口<b class='flag-5'>多語言</b> + 合規(guī) + 物流適配技術(shù)全解析

    3萬字長(zhǎng)文!深度解析大語言模型LLM原理

    我們正在參加全球電子成就獎(jiǎng)的評(píng)選,歡迎大家?guī)臀覀兺镀薄x謝支持本文轉(zhuǎn)自:騰訊技術(shù)工程作者:royceshao大語言模型LLM的精妙之處在于很好地利用數(shù)學(xué)解決了工業(yè)場(chǎng)景的問題,筆者基于過往工程經(jīng)驗(yàn)
    的頭像 發(fā)表于 09-02 13:34 ?3466次閱讀
    3萬字長(zhǎng)文!深度解析大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>LLM原理

    利用自壓縮實(shí)現(xiàn)大型語言模型高效縮減

    隨著語言模型規(guī)模日益龐大,設(shè)備端推理變得越來越緩慢且耗能巨大。一個(gè)直接且效果出人意料的解決方案是剪除那些對(duì)任務(wù)貢獻(xiàn)甚微的完整通道(channel)。我們?cè)缙诘难芯刻岢隽艘环N訓(xùn)練階段的方法——自壓
    的頭像 發(fā)表于 07-28 09:36 ?565次閱讀
    利用自壓縮實(shí)現(xiàn)大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>高效縮減

    EASY EAl Orin Nano(RK3576) whisper語音識(shí)別訓(xùn)練部署教程

    1Whisper簡(jiǎn)介Whisper是OpenAI開源的,識(shí)別語音識(shí)別能力已達(dá)到人類水準(zhǔn)自動(dòng)語音識(shí)別系統(tǒng)。Whisper作為一個(gè)通用的語音識(shí)別模型,它使用了大量的多語言和多任務(wù)的監(jiān)督數(shù)據(jù)來訓(xùn)練,能夠在
    的頭像 發(fā)表于 07-25 15:21 ?861次閱讀
    EASY EAl Orin Nano(RK3576) whisper語音識(shí)別<b class='flag-5'>訓(xùn)練</b>部署教程

    EASY EAl Orin Nano(RK3576) whisper語音識(shí)別訓(xùn)練部署教程

    Whisper是OpenAI開源的,識(shí)別語音識(shí)別能力已達(dá)到人類水準(zhǔn)自動(dòng)語音識(shí)別系統(tǒng)。Whisper作為一個(gè)通用的語音識(shí)別模型,它使用了大量的多語言和多任務(wù)的監(jiān)督數(shù)據(jù)來訓(xùn)練,能夠在英語語音識(shí)別上達(dá)到接近人類水平的魯棒性和準(zhǔn)確性。
    的頭像 發(fā)表于 07-17 14:55 ?1781次閱讀
    EASY EAl Orin Nano(RK3576) whisper語音識(shí)別<b class='flag-5'>訓(xùn)練</b>部署教程

    歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語言模型

    NVIDIA 正攜手歐洲和中東的模型構(gòu)建商與云提供商,共同優(yōu)化主權(quán)大語言模型 (LLM),加速該地區(qū)各行業(yè)采用企業(yè)級(jí) AI。
    的頭像 發(fā)表于 06-12 15:42 ?1195次閱讀

    中科曙光DeepAI深算智能引擎全面支持Qwen3

    日前,Qwen3正式發(fā)布并全部開源8款混合推理模型。作為Qwen系列中的最新一代大型語言模型,Qwen3在推理、指令遵循、工具調(diào)用、多語言能力等方面實(shí)現(xiàn)全面增強(qiáng)。
    的頭像 發(fā)表于 05-06 15:17 ?1168次閱讀

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語言模型

    在當(dāng)今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個(gè)熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1319次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    RAKsmart高性能服務(wù)器集群:驅(qū)動(dòng)AI大語言模型開發(fā)的算力引擎

    RAKsmart高性能服務(wù)器集群憑借其創(chuàng)新的硬件架構(gòu)與全棧優(yōu)化能力,成為支撐大語言模型開發(fā)的核心算力引擎。下面,AI部落小編帶您了解RAKsmart如何為AI開發(fā)者提供從模型訓(xùn)練到落地
    的頭像 發(fā)表于 04-15 09:40 ?708次閱讀

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)一步講解更多的技術(shù)細(xì)節(jié)。本文主要針對(duì)大語言
    的頭像 發(fā)表于 03-21 18:24 ?4331次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺內(nèi)容相關(guān)的自然
    的頭像 發(fā)表于 03-17 15:32 ?8891次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細(xì)解析