91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CMU、谷歌大腦的研究者最新提出萬用NLP模型Transformer的升級版

DPVg_AI_era ? 來源:lq ? 2019-01-14 09:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

CMU、谷歌大腦的研究者最新提出萬用NLP模型Transformer的升級版——Transformer-XL。這個新架構(gòu)在5個數(shù)據(jù)集上都獲得了強(qiáng)大的結(jié)果,在評估中甚至比原始Transformer快1800+倍。研究人員公開了代碼、預(yù)訓(xùn)練模型和超參數(shù)。

Transformer是谷歌在2017年提出的一個革新性的NLP框架,相信大家對那篇經(jīng)典論文吸睛的標(biāo)題仍印象深刻:Attention Is All You Need。

自那以來,業(yè)內(nèi)人士表示,在機(jī)器翻譯領(lǐng)域,Transformer 已經(jīng)幾乎全面取代 RNN??傊?Transformer 確實是一個非常有效且應(yīng)用廣泛的結(jié)構(gòu),應(yīng)該可以算是自 seq2seq 之后又一次 “革命”。

最近,CMU的Zihang Dai,Yiming Yang,Jaime Carbonell,Ruslan Salakhutdinov,以及谷歌的Zhilin Yang(楊值麟),William W. Cohen和Quoc V. Le等人提出了Transformer的升級版——Transformer-XL。這篇論文最初投給ICLR 2019,最新放在arXiv的版本更新了更好的結(jié)果,并公開了代碼、預(yù)訓(xùn)練模型和超參數(shù)。

論文地址:

https://arxiv.org/pdf/1901.02860.pdf

Transformer網(wǎng)絡(luò)具有學(xué)習(xí)較長期依賴關(guān)系的潛力,但是在語言建模的設(shè)置中受到固定長度上下文(fixed-length context)的限制。

作為一種解決方案,這篇論文提出一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——Transformer-XL,它使Transformer能夠在不破壞時間一致性的情況下學(xué)習(xí)固定長度以外的依賴性。

具體來說,Transformer-XL由一個segment-level的遞歸機(jī)制和一種新的位置編碼方案組成。這一方法不僅能夠捕獲長期依賴關(guān)系,而且解決了上下文碎片的問題。

實驗結(jié)果表明, Transformer-XL學(xué)習(xí)的依賴關(guān)系比RNN長80%,比vanilla Transformer長450%,在短序列和長序列上都獲得了更好的性能,并且在評估中比vanilla Transformer快1800+倍。

此外,Transformer-XL在5個數(shù)據(jù)集上都獲得了強(qiáng)大的結(jié)果。研究人員在enwiki8上將bpc/perplexity的最新 state-of-the-art(SoTA)結(jié)果從1.06提高到0.99,在text8上從1.13提高到1.08,在WikiText-103上從20.5提高到18.3,在One Billion Word, 上從23.7提高到21.8,在Penn Treebank上從55.3提高到54.5。

他們公布了代碼、預(yù)訓(xùn)練模型和超參數(shù),在Tensorflow和PyTorch中都可用。

Transformer-XL模型架構(gòu)

為了解決前面提到的固定長度上下文的限制,Transformer-XL這個新架構(gòu)(其中XL表示extra long)將遞歸(recurrence)的概念引入到self-attention網(wǎng)絡(luò)中。

具體來說,我們不再從頭開始計算每個新的段(segment)的隱藏狀態(tài),而是重用(reuse)在前一段中獲得的隱藏狀態(tài)。被重用的隱藏狀態(tài)用作當(dāng)前段的memory,這就在段之間建立一個循環(huán)連接。

因此,建模非常長期的依賴關(guān)系成為可能,因為信息可以通過循環(huán)連接傳播。同時,從上一段傳遞信息也可以解決上下文碎片(context fragmentation)的問題。

更重要的是,我們展示了使用相對位置編碼而不是絕對位置編碼的必要性,以便在不造成時間混亂的情況下實現(xiàn)狀態(tài)重用。因此,我們提出了一個簡單但更有效的相對位置編碼公式,該公式可以推廣到比訓(xùn)練中觀察到的更長的attention lengths。

原始Transformer模型

為了將Transformer或self-attention應(yīng)用到語言建模中,核心問題是如何訓(xùn)練Transformer有效地將任意長的上下文編碼為固定大小的表示。給定無限內(nèi)存和計算,一個簡單的解決方案是使用無條件Transformer解碼器處理整個上下文序列,類似于前饋神經(jīng)網(wǎng)絡(luò)。然而,在實踐中,由于資源有限,這通常是不可行的。

圖1:一個segment長度為4的vanilla model的圖示

一種可行但比較粗略的近似方法是將整個語料庫分割成可管理大小的更短的片段,只在每個片段中訓(xùn)練模型,忽略來自前一段的所有上下文信息。這是Al-Rfou et al(2018)提出的想法,我們稱之為原始模型(vanilla model),它的圖示如圖1a。

在評估過程中,vanilla 模型在每個步驟都消耗與訓(xùn)練期間相同長度的一個segment,但是在最后一個位置只是進(jìn)行一次預(yù)測。然后,在下一步中,這個segment只向右移動一個位置,新的segment必須從頭開始處理。

如圖1b所示,該過程保證了每個預(yù)測在訓(xùn)練過程中利用的上下文盡可能長,同時也緩解了訓(xùn)練過程中遇到的上下文碎片問題。然而,這個評估過程成本是非常高的。

接下來,我們將展示我們所提出的架構(gòu)能夠大大提高評估速度。

Transformer-XL

為了解決固定長度上下文的局限性,我們建議在Transformer架構(gòu)中引入一種遞歸機(jī)制(recurrence mechanism)。

在訓(xùn)練過程中,對上一個segment計算的隱藏狀態(tài)序列進(jìn)行修復(fù),并在模型處理下一個新的segment時將其緩存為可重用的擴(kuò)展上下文,如圖2a所示。

圖2:一個segment長度為4的Transformer-XL模型

這種遞歸機(jī)制應(yīng)用于整個語料庫的每兩個連續(xù)的segment,它本質(zhì)上是在隱藏狀態(tài)中創(chuàng)建一個segment-level 的遞歸。因此,所使用的有效上下文可以遠(yuǎn)遠(yuǎn)超出兩個segments。

除了實現(xiàn)超長的上下文和解決碎片問題外,這種遞歸方案的另一個好處是顯著加快了評估速度。

具體地說,在評估期間,可以重用前面部分的表示,而不是像普通模型那樣從頭開始計算。在enwiki8數(shù)據(jù)集的實驗中,Transformer-XL在評估過程比普通模型快1800倍以上。

實驗和結(jié)果

我們將Transformer-XL應(yīng)用于單詞級和字符級語言建模的各種數(shù)據(jù)集,與state-of-the-art 的系統(tǒng)進(jìn)行了比較,包括WikiText-103 (Merity et al., 2016), enwiki8 (LLC, 2009), text8 (LLC, 2009), One Billion Word (Chelba et al., 2013), 以及 Penn Treebank (Mikolov & Zweig, 2012).

實驗結(jié)果表明, Transformer-XL學(xué)習(xí)的依賴關(guān)系比RNN長80%,比vanilla Transformer長450%,在短序列和長序列上都獲得了更好的性能,并且在評估中比vanilla Transformer快1800+倍。

表1:在WikiText-103上與SoTA結(jié)果的比較

表2:在enwiki8上與SoTA結(jié)果的比較

表3:在text8上與SoTA結(jié)果的比較

表4:在One Billion Word上與SoTA結(jié)果的比較

表5:在Penn Treebank上與SoTA結(jié)果的比較

Transformer-XL在5個數(shù)據(jù)集上都獲得了強(qiáng)大的結(jié)果。研究人員在enwiki8上將bpc/perplexity的最新 state-of-the-art(SoTA)結(jié)果從1.06提高到0.99,在text8上從1.13提高到1.08,在WikiText-103上從20.5提高到18.3,在One Billion Word上從23.7提高到21.8,在Penn Treebank上從55.3提高到54.5。

評估速度

最后,我們將模型的評估速度與vanilla Transformer模型進(jìn)行了比較。

如表9所示,與Al-Rfou et al. (2018).的架構(gòu)相比,由于state reuse方案,Transformer-XL的評估速度加快了高達(dá)1874倍。

表9:評估時間比較

結(jié)論

我們提出了一種新的架構(gòu),Transformer-XL,這是一個超出了固定長度的上下文限制的self-attention的語言建模架構(gòu)。

我們的主要技術(shù)貢獻(xiàn)包括在一個純粹的 self-attentive 模型中引入遞歸的概念,并推導(dǎo)出一種新的位置編碼方案。這兩種技術(shù)形成了一套完整的解決方案,因為它們中的任何一種單獨都不能解決固定長度上下文的問題。

Transformer-XL是第一個在字符級和單詞級語言建模方面都取得了比RNN更好結(jié)果的self-attention模型。Transformer-XL還能夠建模比RNN和Transformer更長期的依賴關(guān)系,并且與vanilla Transformers相比在評估過程中取得了顯著的加速。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1223

    瀏覽量

    43503
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111557
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4838

    瀏覽量

    107923

原文標(biāo)題:谷歌、CMU重磅論文:Transformer升級版,評估速度提升超1800倍!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    數(shù)字萬用表的重要參數(shù)詳解

    數(shù)字萬用表(DMM)是一種多功能電子測量工具,用于測量電壓、電流、電阻、電容等電參數(shù)。選擇和使用數(shù)字萬用表時,了解其重要參數(shù)至關(guān)重要。本文詳細(xì)解釋了數(shù)字萬用表的關(guān)鍵參數(shù),幫助大家理解。 位數(shù)
    的頭像 發(fā)表于 03-04 15:20 ?175次閱讀
    數(shù)字<b class='flag-5'>萬用</b>表的重要參數(shù)詳解

    數(shù)字萬用表的類型、原理與應(yīng)用

    在現(xiàn)代電子技術(shù)快速發(fā)展的背景下,數(shù)字萬用表(Digital Multimeter,簡稱DMM)已成為電子工程師、維修技術(shù)人員和科研人員不可或缺的基礎(chǔ)測量工具。它集電壓、電流、電阻等多種電學(xué)參數(shù)測量
    的頭像 發(fā)表于 02-24 15:13 ?143次閱讀
    數(shù)字<b class='flag-5'>萬用</b>表的類型、原理與應(yīng)用

    如何讀取數(shù)字萬用表的測量結(jié)果

    數(shù)字萬用表通過數(shù)字顯示測量結(jié)果,其核心是理解位數(shù)、分辨率及精度的含義,這些直接決定了讀數(shù)的解讀方式。 一、位數(shù)與分辨率:顯示的細(xì)節(jié)能力 數(shù)字萬用表的屏幕位數(shù)代表測量分辨率(可量化的最小細(xì)節(jié)),位數(shù)
    的頭像 發(fā)表于 01-07 14:28 ?500次閱讀
    如何讀取數(shù)字<b class='flag-5'>萬用</b>表的測量結(jié)果

    ??萬用表與電流探頭測量電流信號的技術(shù)對比分析??

    萬用表與電流探頭在電流測量中各有優(yōu)勢:萬用表適合小電流、精度高,但需斷電;電流探頭非接觸、適合大電流和高頻信號。
    的頭像 發(fā)表于 09-26 17:35 ?664次閱讀

    小白學(xué)大模型:國外主流大模型匯總

    )領(lǐng)域。論文的核心是提出了一種名為Transformer的全新模型架構(gòu),它完全舍棄了以往序列模型(如循環(huán)神經(jīng)網(wǎng)絡(luò)RNNs和卷積神經(jīng)網(wǎng)絡(luò)CNNs)中常用的循環(huán)和卷積結(jié)構(gòu)
    的頭像 發(fā)表于 08-27 14:06 ?1008次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:國外主流大<b class='flag-5'>模型</b>匯總

    什么是數(shù)字萬用表?

    電子設(shè)備的狀況需要使用測量儀器來確定。對于無法目測來確定狀態(tài)的電子設(shè)備,建議使用數(shù)字萬用表進(jìn)行測量。本節(jié)將詳細(xì)介紹諸如“數(shù)字萬用表是什么?”“數(shù)字萬用表與模擬萬用表有區(qū)別嗎?”等數(shù)字
    的頭像 發(fā)表于 08-18 10:00 ?2365次閱讀
    什么是數(shù)字<b class='flag-5'>萬用</b>表?

    安捷倫Agilent 34411A數(shù)字萬用

    安捷倫Agilent 34411A數(shù)字萬用表,Agilent 34411A數(shù)字萬用表以工業(yè)標(biāo)準(zhǔn)的Agilent 34401A萬用表為基礎(chǔ)設(shè)計而成。它具有 34410A 的全部特性,以及 50000
    的頭像 發(fā)表于 08-13 16:31 ?927次閱讀
    安捷倫Agilent 34411A數(shù)字<b class='flag-5'>萬用</b>表

    數(shù)字萬用表是什么?七位半數(shù)字萬用表/多用表的核心指標(biāo)應(yīng)用及技術(shù)趨勢?

    ? 數(shù)字萬用表(DMM) ? ? 數(shù)字萬用表(Digital Multimeter, DMM) ? 是一種電子測量儀器,用于測量電壓(AC/DC)、電流(AC/DC)、電阻、電容、頻率、溫度等電學(xué)
    的頭像 發(fā)表于 07-16 18:04 ?2697次閱讀
    數(shù)字<b class='flag-5'>萬用</b>表是什么?七位半數(shù)字<b class='flag-5'>萬用</b>表/多用表的核心指標(biāo)應(yīng)用及技術(shù)趨勢?

    羅德與施瓦茨發(fā)布全新UDS系列數(shù)字萬用

    版本,其中6?位型號的直流測量基本精度高達(dá)0.0075%。作為R&S HMC8012數(shù)字萬用表的升級換代產(chǎn)品,UDS系列不僅精度更高,而且采用升級的直觀用戶界面,可大幅提升測試效率與操作流暢度。
    的頭像 發(fā)表于 07-03 18:18 ?1575次閱讀

    便攜式經(jīng)濟(jì)型萬用表常見疑問匯總

    在電子測量工具的領(lǐng)域中,便攜式經(jīng)濟(jì)型萬用表是眾多工程師、電子愛好以及維修人員不可或缺的得力助手。同步天下作為行業(yè)內(nèi)備受矚目的品牌,其推出的 SYN5684 系列精密數(shù)字萬用表以及 SYN5686
    發(fā)表于 06-12 16:37

    智能觸屏萬用表的科技優(yōu)勢在哪

    在科技飛速發(fā)展的今天,電子測量儀器也在不斷進(jìn)化。智能觸屏萬用表作為新一代的測量工具,正以其獨特的優(yōu)勢和創(chuàng)新的功能,為電子工程師、技術(shù)人員以及電子愛好帶來了前所未有的便捷與高效。今天我們看看智能觸屏
    發(fā)表于 06-12 16:34

    航天測控七位半數(shù)字萬用表用在哪里

    如下表所示是各位數(shù)萬用表常用應(yīng)用方向,當(dāng)五位或者六位萬用表的分辨力跟精度不夠的時候,我們就需要七位半甚至八位半萬用表。一、鋰電池OCV測試隨著鋰電池生產(chǎn)工藝的持續(xù)精進(jìn),電池生產(chǎn)企業(yè)對電芯一致性測試
    的頭像 發(fā)表于 04-11 17:28 ?941次閱讀
    航天測控七位半數(shù)字<b class='flag-5'>萬用</b>表用在哪里

    如何正確選擇理想萬用

    萬用表是專業(yè)工具箱中不可或缺的工具,適用于廣泛的電氣測試任務(wù)。從進(jìn)行徹底的連續(xù)性檢查和二極管測試到精確的溫度測量和全面的數(shù)據(jù)記錄,萬用表在維護(hù)電氣系統(tǒng)健康方面至關(guān)重要。
    的頭像 發(fā)表于 04-09 17:15 ?1393次閱讀