91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

解讀一下DeBERTa在BERT上有哪些改造

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2021-04-15 14:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeBERTa刷新了GLUE的榜首,本文解讀一下DeBERTa在BERT上有哪些改造

DeBERTa對BERT的改造主要在三點

分散注意力機制

為了更充分利用相對位置信息,輸入的input embedding不再加入pos embedding, 而是input在經過transformer編碼后,在encoder段與“decoder”端 通過相對位置計算分散注意力

增強解碼器(有點迷)

為了解決預訓練和微調時,因為任務的不同而預訓練和微調階段的gap,加入了一個增強decoder端,這個decoder并非transformer的decoder端(需要decoder端有輸入那種),只是直觀上起到了一個decoder作用

解碼器前接入了絕對位置embedding,避免只有相對位置而丟失了絕對位置embedding

其實本質就是在原始BERT的倒數(shù)第二層transformer中間層插入了一個分散注意力計算

訓練trick

訓練時加入了一些數(shù)據(jù)擾動

mask策略中不替換詞,變?yōu)樘鎿Q成詞的pos embedding

c5b1d7ee-9cd8-11eb-8b86-12bb97331649.jpg

分散注意力機制

motivation

BERT加入位置信息的方法是在輸入embedding中加入postion embedding, pos embedding與char embedding和segment embedding混在一起,這種早期就合并了位置信息在計算self-attention時,表達能力受限,維護信息非常被弱化了

c5ed3c44-9cd8-11eb-8b86-12bb97331649.jpg

BERT embedding

本文的motivation就是將pos信息拆分出來,單獨編碼后去content 和自己求attention,增加計算 “位置-內容” 和 “內容-位置” 注意力的分散Disentangled Attention

Disentangled Attention計算方法

分散注意力機制首先在input中分離相對位置embedding,在原始char embedding+segment embedding經過編碼成后,與相對位置計算attention,

即是內容編碼,是相對的位置編碼, attention的計算中,融合了位置-位置,內容-內容,位置-內容,內容-位置

相對位置的計算

限制了相對距離,相距大于一個閾值時距離就無效了,此時距離設定為一個常數(shù),距離在有效范圍內時,用參數(shù)用控制

c6002ffc-9cd8-11eb-8b86-12bb97331649.jpg

增強型解碼器

強行叫做解碼器

用 EMD( enhanced mask decoder) 來代替原 BERT 的 SoftMax 層預測遮蓋的 Token。因為我們在精調時一般會在 BERT 的輸出后接一個特定任務的 Decoder,但是在預訓練時卻并沒有這個 Decoder;所以本文在預訓練時用一個兩層的 Transformer decoder 和一個 SoftMax 作為 Decoder。其實就是給后層的Transformer encoder換了個名字,千萬別以為是用到了Transformer 的 Decoder端

絕對位置embedding

在decoder前有一個騷操作是在這里加入了一層絕對位置embedding來彌補一下只有相對位置的損失,比如“超市旁新開了一個商場”,當mask的詞是“超市”,“商場”,時,只有相對位置時沒法區(qū)分這兩個詞的信息,因此decoder中加入一層

一些訓練tricks

將BERT的訓練策略中,mask有10%的情況是不做任何替換,這種情況attention偏向自己會非常明顯,DeBeta將不做替換改成了換位該位置詞絕對位置的pos embedding, 實驗中明顯能看到這種情況下的attention對自身依賴減弱

c617b1d6-9cd8-11eb-8b86-12bb97331649.jpg

在訓練下游任務時,給訓練集做了一點擾動來增強模型的魯棒性

效果

DeBERTa large目前是GLUE的榜首,在大部分任務上整體效果相比還是有一丟丟提升

c63aa8c6-9cd8-11eb-8b86-12bb97331649.jpg

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7335

    瀏覽量

    94763
  • 編碼
    +關注

    關注

    6

    文章

    1039

    瀏覽量

    56973
  • Decoder
    +關注

    關注

    0

    文章

    25

    瀏覽量

    11079

原文標題:SOTA來啦!BERT又又又又又又魔改了!DeBERTa登頂GLUE~

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    想把部電話座機改造成子母機,請各位大佬幫忙

    有時忙其他事情的時候需要接電話,使用座機電話就比較不方便,所以想把電話座機改造成子母話機,座機作為發(fā)射端,子機作為接收端,但是需要做到子機接電話時座機不再繼續(xù)響鈴,且座機仍可繼續(xù)接聽,各位大佬有啥好的改造方案嗎,需要各位大佬幫
    發(fā)表于 02-03 14:14

    能否詳細介紹一下MOSFET電機控制中的作用是什么?

    能否詳細介紹一下MOSFET電機控制中的作用?
    發(fā)表于 12-22 13:11

    【雷達模組】久坐提醒設備,“起來走動一下

    。之前申請的Rd-03 _ V2剛好滿足,所以就通過Rd-03 _ V2實現(xiàn)感知人體存在。 由于主要考慮PC提醒所以這次上位機沒有使用單片機,而是使用 USB轉串口連接Rd-03 _ V2,使用上報模式來實現(xiàn)較為細致的行為檢測。 之前做的都是方方正正的,這次想著美化一下。弄了個機械鍵
    的頭像 發(fā)表于 12-16 09:20 ?380次閱讀
    【雷達模組】久坐提醒設備,“起來走動<b class='flag-5'>一下</b>”

    請問一下,CW32L083VCT6的DeepSleep模式,功耗多少?

    請問一下,CW32L083VCT6的DeepSleep模式,功耗多少?
    發(fā)表于 12-03 06:14

    支付寶“碰一下”的革新背后:國民技術MCU的隱形力量

    該類別中唯的中國企業(yè)。短短兩個月內,“碰一下”已連續(xù)獲得三項國際獎項。此前,國際權威市場調研機構JuniperResearch公布的2025年度“未來數(shù)字獎”
    的頭像 發(fā)表于 11-21 19:15 ?1338次閱讀
    支付寶“碰<b class='flag-5'>一下</b>”的革新背后:國民技術MCU的隱形力量

    國民技術MCU芯片護航支付寶碰一下設備創(chuàng)新

    近日,全球頂尖金融科技盛會Money20/20公布首屆創(chuàng)新大獎The Money Awards結果,“支付寶碰一下”從眾多參賽企業(yè)中脫穎而出,憑借創(chuàng)新的解決方案和極致的用戶體驗摘得“支付”類別大獎,成為該類別中唯的中國企業(yè)。
    的頭像 發(fā)表于 11-06 10:15 ?1130次閱讀

    基于hbirdv2的APB總線添加外設(

    就不詳細展開了。這里貼一下讀寫操作的時序圖。 寫操作: 讀操作: 4. hbirdv2中的APB總線: 我們可以看到hbirdv2的overview中說,蜂鳥二代相較于代增添了APB接口
    發(fā)表于 10-29 07:26

    分享一下多點電極液位開關的特點與優(yōu)勢

    ,都是監(jiān)測液位。工業(yè)生產中,會用到很多液體,他們的液位監(jiān)測又由誰來守護呢?今天我們來了解一下,多點電極液位開關,聊聊它有什么特點和優(yōu)勢? 我們在生活中或是工業(yè)中,遇到的開關可能就
    的頭像 發(fā)表于 09-24 18:15 ?706次閱讀
    分享<b class='flag-5'>一下</b>多點電極液位開關的特點與優(yōu)勢

    奧比中光助力支付寶碰一下落地電梯場景

    近日,支付寶與分眾傳媒宣布聯(lián)合推出“碰一下搶紅包”服務。作為創(chuàng)新交互方式,“支付寶碰一下”首次被引入至電梯場景,并已在全國20余個城市的電梯鋪設。奧比中光作為“支付寶碰一下”業(yè)務的核心供應商,為這
    的頭像 發(fā)表于 08-12 11:32 ?1225次閱讀

    國產主板耐用性和可靠性上有哪些具體表現(xiàn)呢

    國產主板耐用性和可靠性上有著諸多令人矚目的具體表現(xiàn),不同領域發(fā)揮著關鍵作用。
    的頭像 發(fā)表于 07-22 18:21 ?1051次閱讀

    “碰一下”支付終端應用在酒店:智能無卡入住與客房控制

    和數(shù)字化體驗。消費者門店買單時,用手機碰一下付款筆筆有優(yōu)惠、同步實現(xiàn)會員積分。但除了餐飲零售場景,“碰一下”終端和“碰一下”機具還有更多意想不到的應用場景。在前不
    的頭像 發(fā)表于 07-04 09:57 ?821次閱讀
    “碰<b class='flag-5'>一下</b>”支付終端應用在酒店:智能無卡入住與客房控制

    上電時GPIO控制的LED偶爾詭異地亮了一下

    快速上下電時,主控1.8V的GPIO控制的LED會亮一下。放久點再上電則不會異常亮。仔細排查發(fā)現(xiàn)1.8V比0.9V先上電,再深入排查發(fā)現(xiàn)快速上下電時1.8V電源的RC延時使能失效,上電時序異常,主控工作異常。
    的頭像 發(fā)表于 06-18 14:16 ?952次閱讀
    上電時GPIO控制的LED偶爾詭異地亮了<b class='flag-5'>一下</b>

    一下終端,讓自助售貨機秒變 “家里的冰箱”

    繼刷臉支付后,支付寶近日又推出了新的支付方式——碰一下支付。只需將手機輕輕靠近支付寶“碰一下”支付終端,即可完成支付,比以往要先解鎖手機,調出APP的付款碼再支付的操作環(huán)節(jié)要便捷和省時許多。“碰一下
    的頭像 發(fā)表于 06-18 10:49 ?1785次閱讀
    碰<b class='flag-5'>一下</b>終端,讓自助售貨機秒變 “家里的冰箱”

    帶你參觀一下射頻工程師的試驗臺

    大家好,每個射頻工程師都有個自己的試驗臺,別人的試驗臺究竟是什么樣子的呢?君鑒科技今天帶你參觀一下別人的試驗臺??矗ぷ髌饋矶嗾J真!靜電服定要穿上防塵帽也必須戴嗎?遠遠地看著別人
    的頭像 發(fā)表于 04-30 18:34 ?486次閱讀
    帶你參觀<b class='flag-5'>一下</b>射頻工程師的試驗臺

    復旦微電子與支付寶推出“碰一下”射頻芯片

    近日,由支付寶主辦的「碰一下·奇妙小鎮(zhèn)」生態(tài)大會在杭州·運河文化發(fā)布中心隆重舉辦。大會場景覆蓋餐飲、商圈MALL、出行、政務、醫(yī)療、物流等多個領域,以服務商、供應鏈伙伴和終端廠商為代表的生態(tài)伙伴共同參與,超300家頭部合作伙伴創(chuàng)始人/CEO參加大會。
    的頭像 發(fā)表于 04-28 09:46 ?1392次閱讀