91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟DeBERTa登頂SuperGLUE排行榜

深度學(xué)習(xí)自然語言處理 ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2021-02-05 09:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在最新的 NLU 測(cè)試基準(zhǔn) SuperGLUE 中,微軟提出的 DeBERTa 登頂榜單,并超越人類。

去年 6 月,來自微軟的研究者提出一種新型預(yù)訓(xùn)練語言模型 DeBERTa,該模型使用兩種新技術(shù)改進(jìn)了 BERT 和 RoBERTa 模型。8 月,該研究開源了模型代碼,并提供預(yù)訓(xùn)練模型下載。最近這項(xiàng)研究又取得了新的進(jìn)展。 微軟最近通過訓(xùn)練更大的版本來更新 DeBERTa 模型,該版本由 48 個(gè) Transformer 層組成,帶有 15 億個(gè)參數(shù)。本次擴(kuò)大規(guī)模帶來了極大的性能提升,使得單個(gè) DeBERTa 模型 SuperGLUE 上宏平均(macro-average)得分首次超過人類(89.9 vs 89.8),整體 DeBERTa 模型在 SuperGLUE 基準(zhǔn)排名中居于首位,以 90.3 的得分顯著高出人類基線(89.8)。目前該模型以 90.8 的宏平均(macro-average)得分高居 GLUE 基準(zhǔn)排名的首位。

SuperGLUE 排行榜,2021 年 1 月 6 日。 DeBERTa 是一種基于 Transformer,使用自監(jiān)督學(xué)習(xí)在大量原始文本語料庫上預(yù)訓(xùn)練的神經(jīng)語言模型。像其他 PLM 一樣,DeBERTa 旨在學(xué)習(xí)通用語言表征,可以適應(yīng)各種下游 NLU 任務(wù)。DeBERTa 使用 3 種新技術(shù)改進(jìn)了之前的 SOTA PLM(例如 BERT、RoBERTa、UniLM),這 3 種技術(shù)是:

分解注意力(disentangled attention)機(jī)制;

增強(qiáng)型掩碼解碼器;

一種用于微調(diào)的虛擬對(duì)抗訓(xùn)練方法。

ee5e6fae-603d-11eb-8b86-12bb97331649.png

DeBERTa 的架構(gòu)。 最近該研究在 arXiv 上提交了 DeBERTa 的最新論文,文中詳細(xì)介紹了 DeBERTa 模型的方法及最新的實(shí)驗(yàn)結(jié)果。

論文鏈接:https://arxiv.org/pdf/2006.03654v2.pdf 下面我們來詳細(xì)看一下該模型用到的 3 種新技術(shù)。 分解注意力機(jī)制 與 BERT 不同,DeBERTa 中每個(gè)詞使用兩個(gè)對(duì)其內(nèi)容和位置分別進(jìn)行編碼的向量來表示,使用分解矩陣分別根據(jù)詞的內(nèi)容和相對(duì)位置來計(jì)算詞間的注意力權(quán)重。采用這種方法是因?yàn)椋涸~對(duì)的注意力權(quán)重(衡量詞與詞之間的依賴關(guān)系強(qiáng)度)不僅取決于它們的內(nèi)容,還取決于它們的相對(duì)位置。例如,「deep」和「learning」這兩個(gè)詞在同一個(gè)句子中接連出現(xiàn)時(shí)的依賴關(guān)系要比它們出現(xiàn)在不同句子中強(qiáng)得多。 增強(qiáng)型掩碼解碼器 與 BERT 一樣,DeBERTa 也使用掩碼語言建模(MLM)進(jìn)行了預(yù)訓(xùn)練。DeBERTa 將語境詞的內(nèi)容和位置信息用于 MLM。分解注意力機(jī)制已經(jīng)考慮了語境詞的內(nèi)容和相對(duì)位置,但并沒有考慮這些詞的絕對(duì)位置,但這在很多情況下對(duì)于預(yù)測(cè)至關(guān)重要。 例如句子「a new store opened beside the new mall」其中,「store」和「mall」在用于預(yù)測(cè)時(shí)被掩碼操作。盡管兩個(gè)詞的局部語境相似,但是它們?cè)诰渥又邪缪莸木浞ㄗ饔檬遣煌摹#ɡ?,句子的主角是「store」而不是「mall」)。

這些句法上的細(xì)微差別在很大程度上取決于詞在句子中的絕對(duì)位置,因此考慮單詞在語言建模過程中的絕對(duì)位置是非常重要的。DeBERTa 在 softmax 層之前合并了絕對(duì)詞位置嵌入,在該模型中,模型根據(jù)詞內(nèi)容和位置的聚合語境嵌入對(duì)被掩碼的詞進(jìn)行解碼。 規(guī)模不變的微調(diào) 虛擬對(duì)抗訓(xùn)練是一種提升模型泛化性的正則化方法。它通過提高模型對(duì)對(duì)抗樣本(adversarial examples)的魯棒性來實(shí)現(xiàn)這一點(diǎn),其中對(duì)抗樣本是通過對(duì)輸入進(jìn)行細(xì)微的干擾而創(chuàng)建的。對(duì)模型進(jìn)行正則化,以便在給出一種特定任務(wù)樣本時(shí),該模型產(chǎn)生的輸出分布與在該樣本的對(duì)抗型干擾版本上產(chǎn)生的輸出分布相同。對(duì)于 NLU 任務(wù),干擾被用于詞嵌入,而不是原始的詞序列。

但是,嵌入向量的值范圍(范數(shù))在不同的詞和模型上有所不同。對(duì)于具有數(shù)十億個(gè)參數(shù)的較大模型,方差會(huì)比較大,從而導(dǎo)致對(duì)抗訓(xùn)練不穩(wěn)定性。受層歸一化的啟發(fā),為了提高訓(xùn)練穩(wěn)定性,該研究開發(fā)了一種規(guī)模不變的微調(diào)(Scale-Invariant-Fine-Tuning (SiFT))方法,該方法將干擾用于歸一化的詞嵌入。 實(shí)驗(yàn) 該研究用實(shí)驗(yàn)及結(jié)果評(píng)估了 DeBERTa 在 NLU 和 NLG 的各種 NLP 任務(wù)上的性能。 在 NLU 任務(wù)上的主要結(jié)果 受此前 BERT、 RoBERTa 和 XLNet 等論文的影響,該研究使用大型模型和基礎(chǔ)模型進(jìn)行結(jié)果展示。 大型模型性能結(jié)果如下表所示:

f06a7432-603d-11eb-8b86-12bb97331649.png

表 1:在 GLUE 開發(fā)集上的結(jié)果對(duì)比。 表 1 總結(jié)了 8 個(gè) GLUE 任務(wù)的結(jié)果,其中將 DeBERTa 與具有類似 transformer 結(jié)構(gòu)的一些模型進(jìn)行了比較,這些模型包括 BERT、 RoBERTa、XLNet、ALBERT 以及 ELECTRA。注意,RoBERTa、 XLNet 以及 ELECTRA 訓(xùn)練數(shù)據(jù)的大小為 160G,而 DeBERTa 訓(xùn)練數(shù)據(jù)大小為 78G。 該研究還對(duì) DeBERTa 進(jìn)行了一些其他的基準(zhǔn)評(píng)估:

問答:SQuAD v1.1、SQuAD v2.0、RACE、ReCoRD 以及 SWAG;

自然語言推理:MNLI;

命名體識(shí)別(NER):CoNLL-2003。

結(jié)果如表 2 所示。

f1d2e9ee-603d-11eb-8b86-12bb97331649.png

表 2:在 MNLI in/out-domain、 SQuAD v1.1、 SQuAD v2.0、 RACE、 ReCoRD、 SWAG、 CoNLL 2003 NER 開發(fā)集上的結(jié)果展示。 基礎(chǔ)模型性能比較 基礎(chǔ)模型預(yù)訓(xùn)練的設(shè)置與大型模型的設(shè)置類似,基礎(chǔ)模型結(jié)構(gòu)遵循 BERT 的基礎(chǔ)模型結(jié)構(gòu),性能評(píng)估結(jié)果如表 3 所示。

f3227da0-603d-11eb-8b86-12bb97331649.png

表 3:在 MNLI in/out-domain (m/mm)、SQuAD v1.1 和 v2.0 開發(fā)集上的結(jié)果對(duì)比。 生成任務(wù)結(jié)果比較 該研究在數(shù)據(jù)集 Wikitext-103 上,進(jìn)一步對(duì)帶有自回歸語言模型 (ARLM) 的 DeBERTa 模型進(jìn)行了評(píng)估。

f38363ae-603d-11eb-8b86-12bb97331649.png

表 4:在 Wikitext-103 數(shù)據(jù)集上,不同語言模型對(duì)比結(jié)果。 DeBERTa_base 在開發(fā)集和測(cè)試集上都獲得了比較好的 PPL 結(jié)果,MLM 和 ARLM 聯(lián)合訓(xùn)練進(jìn)一步降低了 PPL,這展示了 DeBERTa 的有效性。 模型分析 消融實(shí)驗(yàn):為了驗(yàn)證實(shí)驗(yàn)設(shè)置,該研究從頭開始預(yù)訓(xùn)練 RoBERTa 基礎(chǔ)模型。并將重新預(yù)訓(xùn)練的 RoBERTa 稱為 RoBERTa-ReImp_base。為了研究 DeBERTa 模型不同部分對(duì)性能的影響,研究人員設(shè)計(jì)了三種變體:

EMD 表示沒有 EMD 的 DeBERTa 基礎(chǔ)模型;

C2P 表示沒有內(nèi)容到位置 term 的 DeBERTa 基礎(chǔ)模型;

P2C 表示沒有位置到內(nèi)容 term 的 DeBERTa 基礎(chǔ)模型。由于 XLNet 也使用了相對(duì)位置偏差,所以該模型與 XLNet + EMD 模型比較接近。

f3edd4fa-603d-11eb-8b86-12bb97331649.png

表 5 總結(jié)了 DeBERTa 基礎(chǔ)模型消融實(shí)驗(yàn)在四個(gè)基準(zhǔn)數(shù)據(jù)集上的結(jié)果。 預(yù)訓(xùn)練效率 為了研究模型預(yù)訓(xùn)練的收斂性,該研究以預(yù)訓(xùn)練 step 數(shù)的函數(shù)的形式可視化微調(diào)下游任務(wù)的性能,如圖 1 所示,對(duì)于 RoBERTa ReImp 基礎(chǔ)模型和 DeBERTa 基礎(chǔ)模型,該研究每 150K 個(gè)預(yù)訓(xùn)練 step 存儲(chǔ)一個(gè)檢查點(diǎn),然后對(duì)兩個(gè)有代表性的下游任務(wù)(MNLI 和 SQuAD v2.0)上的檢查點(diǎn)進(jìn)行微調(diào),之后分別報(bào)告準(zhǔn)確率和 F1 得分。

f5715fcc-603d-11eb-8b86-12bb97331649.png

圖 1:DeBERTa 及其相似模型在 MNLI 、 SQuAD v2.0 開發(fā)集上的預(yù)訓(xùn)練性能曲線。 擴(kuò)展至 15 億參數(shù) 更大的預(yù)訓(xùn)練模型會(huì)顯示出更好的泛化結(jié)果。因此,該研究建立了一個(gè)擁有 15 億個(gè)參數(shù)的 DeBERTa,表示為 DeBERTa_1.5B,該模型有 48 層。在 160G 預(yù)訓(xùn)練數(shù)據(jù)集上訓(xùn)練 DeBERTa_1.5B,并且使用數(shù)據(jù)集構(gòu)造了一個(gè)大小為 128K 的新詞匯表。

f6a34504-603d-11eb-8b86-12bb97331649.png

表 6:DeBERTa_1.5B 和其他幾種模型在 SuperGLUE 測(cè)試集上的結(jié)果。

原文標(biāo)題:NLU新里程碑,微軟DeBERTa登頂SuperGLUE排行榜,顯著超越人類

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6742

    瀏覽量

    107904
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4838

    瀏覽量

    107879

原文標(biāo)題:NLU新里程碑,微軟DeBERTa登頂SuperGLUE排行榜,顯著超越人類

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    2026年通信電源品牌推薦排行榜:選購不踩雷指南

    在現(xiàn)代通信行業(yè),穩(wěn)定的電源系統(tǒng)是保障網(wǎng)絡(luò)順暢運(yùn)行的關(guān)鍵。如果你正在為通信設(shè)備選購電源,或者打算升級(jí)現(xiàn)有的通信電源設(shè)備,那么這篇文章絕對(duì)能幫到你。本文整理了2026年通信電源品牌推薦排行榜,并結(jié)合權(quán)威資料與行業(yè)經(jīng)驗(yàn),幫助你快速做出決策。
    的頭像 發(fā)表于 03-06 09:40 ?280次閱讀
    2026年通信電源品牌推薦<b class='flag-5'>排行榜</b>:選購不踩雷指南

    奇瑞汽車位居2025年安徽發(fā)明專利排行榜榜首

    2月24日,春節(jié)假期后的首個(gè)工作日,“技術(shù)奇瑞”迎來開門紅。在安徽省市場(chǎng)監(jiān)督管理局(省知識(shí)產(chǎn)權(quán)局)聯(lián)合省科學(xué)技術(shù)廳、省教育廳、省工業(yè)和信息化廳發(fā)布的“2025年安徽發(fā)明專利排行榜”中,奇瑞汽車股份有限公司排名第一,連續(xù)12年蟬聯(lián)安徽發(fā)明專利排行榜榜首,彰顯出企業(yè)深厚的研發(fā)
    的頭像 發(fā)表于 02-27 15:36 ?372次閱讀

    2026年通信電源排行榜:選擇最佳通信電源的重要性

    在如今的科技環(huán)境中,通信電源作為通信設(shè)備正常運(yùn)行的重要組成部分,其穩(wěn)定性和可靠性直接影響到網(wǎng)絡(luò)的性能和服務(wù)質(zhì)量。2026年,隨著技術(shù)的不斷發(fā)展,市場(chǎng)上涌現(xiàn)出許多優(yōu)秀的通信電源品牌和型號(hào)。那么,如何選擇合適的通信電源呢?讓我們一起看看2026年通信電源排行榜,幫助你做出明智選擇。
    的頭像 發(fā)表于 02-25 09:37 ?127次閱讀
    2026年通信電源<b class='flag-5'>排行榜</b>:選擇最佳通信電源的重要性

    全球電子制造服務(wù)廠商排行榜(Top100)

    全球電子制造服務(wù)廠商排行榜(Top100)來源:ittbank
    的頭像 發(fā)表于 01-08 09:54 ?304次閱讀
    全球電子制造服務(wù)廠商<b class='flag-5'>排行榜</b>(Top100)

    士蘭微電子榮登自有品牌空調(diào)整機(jī)國產(chǎn)芯片用量排行榜

    2025年12月10日,ASTC2025中國家電科技年會(huì)在湖北武漢舉行。士蘭微電子受邀參會(huì),并在中國家用電器研究院發(fā)布的《自有品牌空調(diào)整機(jī)國產(chǎn)芯片用量排行榜》中,成功躋身國產(chǎn)芯片用量綜合前五。 尤為
    的頭像 發(fā)表于 12-22 14:02 ?428次閱讀

    電話光端機(jī)品牌排行榜揭曉:為何廣州郵科是專業(yè)用戶的普遍選擇?

    在尋找穩(wěn)定可靠的電話光端機(jī)時(shí),許多工程師和采購負(fù)責(zé)人都會(huì)下意識(shí)地搜索“ 電話光端機(jī) 品牌排行榜 ”,希望從市場(chǎng)口碑中尋找值得信賴的選擇。雖然嚴(yán)格的官方排行并不多見,但在工業(yè)通信、專網(wǎng)及關(guān)鍵業(yè)務(wù)領(lǐng)域
    的頭像 發(fā)表于 12-18 14:20 ?314次閱讀
    電話光端機(jī)品牌<b class='flag-5'>排行榜</b>揭曉:為何廣州郵科是專業(yè)用戶的普遍選擇?

    OPS 插拔式電腦排行榜,10 月份最新版

    的要求。本次10月最新排行榜,結(jié)合OPS2.0適配進(jìn)度、第三季度實(shí)際交付數(shù)據(jù)及多行業(yè)反饋,聚焦“技術(shù)適配、生產(chǎn)可控、場(chǎng)景落地”三大核心維度,篩選出真正具備實(shí)用價(jià)值
    的頭像 發(fā)表于 10-28 17:52 ?668次閱讀
    OPS 插拔式電腦<b class='flag-5'>排行榜</b>,10 月份最新版

    公布2025年中國十大智能電表廠家品牌排行榜

    隨著能源數(shù)字化轉(zhuǎn)型的加速,智能電表作為電網(wǎng)智能化的重要基石,其技術(shù)與市場(chǎng)格局備受關(guān)注。2025年,中國智能電表行業(yè)在政策支持與技術(shù)迭代的雙重驅(qū)動(dòng)下,呈現(xiàn)出百花齊放的競(jìng)爭(zhēng)態(tài)勢(shì)。本文將結(jié)合行業(yè)數(shù)據(jù)、技術(shù)實(shí)力及用戶口碑,為您揭曉本年度最具影響力的十大智能電表品牌排行榜
    的頭像 發(fā)表于 10-22 15:48 ?3715次閱讀
    公布2025年中國十大智能電表廠家品牌<b class='flag-5'>排行榜</b>

    智能水表品牌排行榜:2025年十大權(quán)威推薦

    影響力的十大品牌排行榜,為水務(wù)公司、房地產(chǎn)開發(fā)商及系統(tǒng)集成商提供專業(yè)選型參考。一、深圳合眾致達(dá)科技有限公司作為智慧能源管理領(lǐng)域的創(chuàng)新企業(yè),深圳合眾致達(dá)科技有限公司憑
    的頭像 發(fā)表于 10-18 15:23 ?2925次閱讀
    智能水表品牌<b class='flag-5'>排行榜</b>:2025年十大權(quán)威推薦

    潤(rùn)和軟件連續(xù)五年榮登IDC全球金融科技百強(qiáng)

    近日,2025 IDC全球金融科技排行榜(IDC FinTech Rankings Top 100)正式揭曉。江蘇潤(rùn)和軟件股份有限公司(以下簡(jiǎn)稱“潤(rùn)和軟件”)憑借其深厚的金融行業(yè)積淀、領(lǐng)先的技術(shù)能力
    的頭像 發(fā)表于 09-22 10:24 ?823次閱讀

    全球應(yīng)用加速服務(wù)如何實(shí)現(xiàn)?網(wǎng)絡(luò)服務(wù)推薦排行榜

    和提高訪問速度,同時(shí)提供安全防護(hù)和負(fù)載均衡功能。本文將深入解析全球應(yīng)用加速服務(wù)的實(shí)現(xiàn)方式,并為您呈現(xiàn)2025年網(wǎng)絡(luò)服務(wù)提供商排行榜。一、全球應(yīng)用加速服務(wù)的實(shí)現(xiàn)方式全球
    的頭像 發(fā)表于 09-10 09:48 ?1872次閱讀
    全球應(yīng)用加速服務(wù)如何實(shí)現(xiàn)?網(wǎng)絡(luò)服務(wù)推薦<b class='flag-5'>排行榜</b>

    如何挑選人臉識(shí)別終端?人臉識(shí)別一體機(jī)品牌排行榜

    考慮這些人臉識(shí)別終端的具體應(yīng)用場(chǎng)景在哪里。下面,小編就總結(jié)了2025年最新的人臉識(shí)別一體機(jī)品牌排行榜:一、??低暼四橀T禁一體機(jī)優(yōu)勢(shì):采用先進(jìn)的人臉識(shí)別算法,能快速
    的頭像 發(fā)表于 08-18 10:44 ?2162次閱讀
    如何挑選人臉識(shí)別終端?人臉識(shí)別一體機(jī)品牌<b class='flag-5'>排行榜</b>

    軟通動(dòng)力榮登2025金融科技創(chuàng)新排行榜

    近日,DBC德本咨詢“2025金融科技創(chuàng)新排行榜”正式發(fā)布,軟通動(dòng)力憑借在金融領(lǐng)域全棧智能化的創(chuàng)新實(shí)踐,榮列榜單TOP3,這一榮譽(yù)不僅是對(duì)軟通動(dòng)力在金融科技領(lǐng)域深耕成果的高度認(rèn)可,更凸顯了其在推動(dòng)行業(yè)智能化轉(zhuǎn)型進(jìn)程中的先行者地位。
    的頭像 發(fā)表于 08-01 17:51 ?2003次閱讀

    天合光能榮登全球鈣鈦礦太陽能電池專利排行榜第一

    今日,全球知名知識(shí)產(chǎn)權(quán)綜合信息服務(wù)提供商IPRdaily發(fā)布了《全球太陽能電池及組件發(fā)明專利排行榜(TOP50)》《全球鈣鈦礦太陽能電池發(fā)明專利排行榜(TOP30)》和《全球TOPCon太陽能電池
    的頭像 發(fā)表于 04-22 17:54 ?1136次閱讀

    銳成芯微榮登2025中國IC設(shè)計(jì)Fabless100排行榜之TOP10 IP公司

    近日,國際電子技術(shù)領(lǐng)域頭部媒體AspenCore發(fā)布了《2025中國IC設(shè)計(jì)Fabless100排行榜》,銳成芯微憑借自主創(chuàng)新實(shí)力、技術(shù)生態(tài)布局及行業(yè)貢獻(xiàn),再度榮登“TOP10 IP公司”榜單!
    的頭像 發(fā)表于 03-31 17:49 ?1776次閱讀