日韩欧美日本久久婷婷五天月,日本中文字幕久久久无码破解

在最新的 NLU 測(cè)試基準(zhǔn) SuperGLUE 中，微軟提出的 DeBERTa 登頂榜單，并超越人類。

去年 6 月，來自微軟的研究者提出一種新型預(yù)訓(xùn)練語言模型 DeBERTa，該模型使用兩種新技術(shù)改進(jìn)了 BERT 和 RoBERTa 模型。8 月，該研究開源了模型代碼，并提供預(yù)訓(xùn)練模型下載。最近這項(xiàng)研究又取得了新的進(jìn)展。微軟最近通過訓(xùn)練更大的版本來更新 DeBERTa 模型，該版本由 48 個(gè) Transformer 層組成，帶有 15 億個(gè)參數(shù)。本次擴(kuò)大規(guī)模帶來了極大的性能提升，使得單個(gè) DeBERTa 模型 SuperGLUE 上宏平均（macro-average）得分首次超過人類（89.9 vs 89.8），整體 DeBERTa 模型在 SuperGLUE 基準(zhǔn)排名中居于首位，以 90.3 的得分顯著高出人類基線（89.8）。目前該模型以 90.8 的宏平均（macro-average）得分高居 GLUE 基準(zhǔn)排名的首位。

SuperGLUE 排行榜，2021 年 1 月 6 日。 DeBERTa 是一種基于 Transformer，使用自監(jiān)督學(xué)習(xí)在大量原始文本語料庫上預(yù)訓(xùn)練的神經(jīng)語言模型。像其他 PLM 一樣，DeBERTa 旨在學(xué)習(xí)通用語言表征，可以適應(yīng)各種下游 NLU 任務(wù)。DeBERTa 使用 3 種新技術(shù)改進(jìn)了之前的 SOTA PLM（例如 BERT、RoBERTa、UniLM），這 3 種技術(shù)是：

分解注意力（disentangled attention）機(jī)制；

增強(qiáng)型掩碼解碼器；

一種用于微調(diào)的虛擬對(duì)抗訓(xùn)練方法。

DeBERTa 的架構(gòu)。最近該研究在 arXiv 上提交了 DeBERTa 的最新論文，文中詳細(xì)介紹了 DeBERTa 模型的方法及最新的實(shí)驗(yàn)結(jié)果。

論文鏈接：https://arxiv.org/pdf/2006.03654v2.pdf 下面我們來詳細(xì)看一下該模型用到的 3 種新技術(shù)。分解注意力機(jī)制與 BERT 不同，DeBERTa 中每個(gè)詞使用兩個(gè)對(duì)其內(nèi)容和位置分別進(jìn)行編碼的向量來表示，使用分解矩陣分別根據(jù)詞的內(nèi)容和相對(duì)位置來計(jì)算詞間的注意力權(quán)重。采用這種方法是因?yàn)椋涸~對(duì)的注意力權(quán)重（衡量詞與詞之間的依賴關(guān)系強(qiáng)度）不僅取決于它們的內(nèi)容，還取決于它們的相對(duì)位置。例如，「deep」和「learning」這兩個(gè)詞在同一個(gè)句子中接連出現(xiàn)時(shí)的依賴關(guān)系要比它們出現(xiàn)在不同句子中強(qiáng)得多。增強(qiáng)型掩碼解碼器與 BERT 一樣，DeBERTa 也使用掩碼語言建模（MLM）進(jìn)行了預(yù)訓(xùn)練。DeBERTa 將語境詞的內(nèi)容和位置信息用于 MLM。分解注意力機(jī)制已經(jīng)考慮了語境詞的內(nèi)容和相對(duì)位置，但并沒有考慮這些詞的絕對(duì)位置，但這在很多情況下對(duì)于預(yù)測(cè)至關(guān)重要。例如句子「a new store opened beside the new mall」其中，「store」和「mall」在用于預(yù)測(cè)時(shí)被掩碼操作。盡管兩個(gè)詞的局部語境相似，但是它們?cè)诰渥又邪缪莸木浞ㄗ饔檬遣煌摹＃ɡ?，句子的主角是「store」而不是「mall」）。

這些句法上的細(xì)微差別在很大程度上取決于詞在句子中的絕對(duì)位置，因此考慮單詞在語言建模過程中的絕對(duì)位置是非常重要的。DeBERTa 在 softmax 層之前合并了絕對(duì)詞位置嵌入，在該模型中，模型根據(jù)詞內(nèi)容和位置的聚合語境嵌入對(duì)被掩碼的詞進(jìn)行解碼。規(guī)模不變的微調(diào) 虛擬對(duì)抗訓(xùn)練是一種提升模型泛化性的正則化方法。它通過提高模型對(duì)對(duì)抗樣本（adversarial examples）的魯棒性來實(shí)現(xiàn)這一點(diǎn)，其中對(duì)抗樣本是通過對(duì)輸入進(jìn)行細(xì)微的干擾而創(chuàng)建的。對(duì)模型進(jìn)行正則化，以便在給出一種特定任務(wù)樣本時(shí)，該模型產(chǎn)生的輸出分布與在該樣本的對(duì)抗型干擾版本上產(chǎn)生的輸出分布相同。對(duì)于 NLU 任務(wù)，干擾被用于詞嵌入，而不是原始的詞序列。

但是，嵌入向量的值范圍（范數(shù)）在不同的詞和模型上有所不同。對(duì)于具有數(shù)十億個(gè)參數(shù)的較大模型，方差會(huì)比較大，從而導(dǎo)致對(duì)抗訓(xùn)練不穩(wěn)定性。受層歸一化的啟發(fā)，為了提高訓(xùn)練穩(wěn)定性，該研究開發(fā)了一種規(guī)模不變的微調(diào)（Scale-Invariant-Fine-Tuning (SiFT)）方法，該方法將干擾用于歸一化的詞嵌入。實(shí)驗(yàn) 該研究用實(shí)驗(yàn)及結(jié)果評(píng)估了 DeBERTa 在 NLU 和 NLG 的各種 NLP 任務(wù)上的性能。在 NLU 任務(wù)上的主要結(jié)果受此前 BERT、 RoBERTa 和 XLNet 等論文的影響，該研究使用大型模型和基礎(chǔ)模型進(jìn)行結(jié)果展示。大型模型性能結(jié)果如下表所示：

表 1：在 GLUE 開發(fā)集上的結(jié)果對(duì)比。表 1 總結(jié)了 8 個(gè) GLUE 任務(wù)的結(jié)果，其中將 DeBERTa 與具有類似 transformer 結(jié)構(gòu)的一些模型進(jìn)行了比較，這些模型包括 BERT、 RoBERTa、XLNet、ALBERT 以及 ELECTRA。注意，RoBERTa、 XLNet 以及 ELECTRA 訓(xùn)練數(shù)據(jù)的大小為 160G，而 DeBERTa 訓(xùn)練數(shù)據(jù)大小為 78G。該研究還對(duì) DeBERTa 進(jìn)行了一些其他的基準(zhǔn)評(píng)估：

問答：SQuAD v1.1、SQuAD v2.0、RACE、ReCoRD 以及 SWAG；

自然語言推理：MNLI；

命名體識(shí)別（NER）：CoNLL-2003。

結(jié)果如表 2 所示。

表 2：在 MNLI in/out-domain、 SQuAD v1.1、 SQuAD v2.0、 RACE、 ReCoRD、 SWAG、 CoNLL 2003 NER 開發(fā)集上的結(jié)果展示。基礎(chǔ)模型性能比較基礎(chǔ)模型預(yù)訓(xùn)練的設(shè)置與大型模型的設(shè)置類似，基礎(chǔ)模型結(jié)構(gòu)遵循 BERT 的基礎(chǔ)模型結(jié)構(gòu)，性能評(píng)估結(jié)果如表 3 所示。

表 3：在 MNLI in/out-domain (m/mm)、SQuAD v1.1 和 v2.0 開發(fā)集上的結(jié)果對(duì)比。生成任務(wù)結(jié)果比較該研究在數(shù)據(jù)集 Wikitext-103 上，進(jìn)一步對(duì)帶有自回歸語言模型 (ARLM) 的 DeBERTa 模型進(jìn)行了評(píng)估。

表 4：在 Wikitext-103 數(shù)據(jù)集上，不同語言模型對(duì)比結(jié)果。 DeBERTa_base 在開發(fā)集和測(cè)試集上都獲得了比較好的 PPL 結(jié)果，MLM 和 ARLM 聯(lián)合訓(xùn)練進(jìn)一步降低了 PPL，這展示了 DeBERTa 的有效性。模型分析消融實(shí)驗(yàn)：為了驗(yàn)證實(shí)驗(yàn)設(shè)置，該研究從頭開始預(yù)訓(xùn)練 RoBERTa 基礎(chǔ)模型。并將重新預(yù)訓(xùn)練的 RoBERTa 稱為 RoBERTa-ReImp_base。為了研究 DeBERTa 模型不同部分對(duì)性能的影響，研究人員設(shè)計(jì)了三種變體：

EMD 表示沒有 EMD 的 DeBERTa 基礎(chǔ)模型；

C2P 表示沒有內(nèi)容到位置 term 的 DeBERTa 基礎(chǔ)模型；

P2C 表示沒有位置到內(nèi)容 term 的 DeBERTa 基礎(chǔ)模型。由于 XLNet 也使用了相對(duì)位置偏差，所以該模型與 XLNet + EMD 模型比較接近。

表 5 總結(jié)了 DeBERTa 基礎(chǔ)模型消融實(shí)驗(yàn)在四個(gè)基準(zhǔn)數(shù)據(jù)集上的結(jié)果。預(yù)訓(xùn)練效率為了研究模型預(yù)訓(xùn)練的收斂性，該研究以預(yù)訓(xùn)練 step 數(shù)的函數(shù)的形式可視化微調(diào)下游任務(wù)的性能，如圖 1 所示，對(duì)于 RoBERTa ReImp 基礎(chǔ)模型和 DeBERTa 基礎(chǔ)模型，該研究每 150K 個(gè)預(yù)訓(xùn)練 step 存儲(chǔ)一個(gè)檢查點(diǎn)，然后對(duì)兩個(gè)有代表性的下游任務(wù)（MNLI 和 SQuAD v2.0）上的檢查點(diǎn)進(jìn)行微調(diào)，之后分別報(bào)告準(zhǔn)確率和 F1 得分。

圖 1：DeBERTa 及其相似模型在 MNLI 、 SQuAD v2.0 開發(fā)集上的預(yù)訓(xùn)練性能曲線。擴(kuò)展至 15 億參數(shù) 更大的預(yù)訓(xùn)練模型會(huì)顯示出更好的泛化結(jié)果。因此，該研究建立了一個(gè)擁有 15 億個(gè)參數(shù)的 DeBERTa，表示為 DeBERTa_1.5B，該模型有 48 層。在 160G 預(yù)訓(xùn)練數(shù)據(jù)集上訓(xùn)練 DeBERTa_1.5B，并且使用數(shù)據(jù)集構(gòu)造了一個(gè)大小為 128K 的新詞匯表。

表 6：DeBERTa_1.5B 和其他幾種模型在 SuperGLUE 測(cè)試集上的結(jié)果。

原文標(biāo)題：NLU新里程碑，微軟DeBERTa登頂SuperGLUE排行榜，顯著超越人類

文章出處：【微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴