黄色视频中文曰韩一级片,五月天色日韩影院

我們很高興地介紹由 DeepSpeed 和 Megatron 驅(qū)動的 Megatron 圖靈自然語言生成模型（ MT-NLG ），這是迄今為止訓練過的最大和最強大的單片 transformer 語言模型，具有 5300 億個參數(shù)。這是微軟和 NVIDIA 共同努力的結(jié)果，旨在推動人工智能自然語言生成的最新發(fā)展。

作為圖靈 NLG 17B和Megatron-LM的繼承者， MT-NLG 的參數(shù)數(shù)量是該類型現(xiàn)有最大模型的 3 倍，并且在廣泛的自然語言任務(wù)中表現(xiàn)出無與倫比的準確性，例如：

完井預(yù)測

閱讀理解

常識推理

自然語言推理

詞義消歧

基于 105 層 transformer 的 MT-NLG 在零拍、一拍和少拍設(shè)置方面改進了現(xiàn)有的最先進模型，并為大規(guī)模語言模型在模型規(guī)模和質(zhì)量方面設(shè)置了新標準。

大規(guī)模語言模型

近年來，自然語言處理（ NLP ）中基于 transformer 的語言模型在大規(guī)模計算、大型數(shù)據(jù)集以及用于訓練這些模型的高級算法和軟件的推動下，取得了快速的進步。

具有大量參數(shù)、更多數(shù)據(jù)和更多訓練時間的語言模型可以獲得更豐富、更細致的語言理解。因此，他們能夠很好地概括有效的零分或少分學習者，在許多 NLP 任務(wù)和數(shù)據(jù)集上具有較高的準確性。令人興奮的下游應(yīng)用包括摘要、自動對話生成、翻譯、語義搜索和代碼自動完成。最先進的 NLP 模型中的參數(shù)數(shù)量以指數(shù)速度增長并不奇怪（圖 1 ）。

圖 1 。最新 NLP 模型的尺寸隨時間的趨勢

然而，培訓此類模型具有挑戰(zhàn)性，主要原因有兩個：

即使是最大的 GPU 內(nèi)存中也無法擬合這些模型的參數(shù)。

如果不特別注意優(yōu)化算法、軟件和硬件堆棧，那么所需的大量計算操作可能會導致訓練時間過長。

通過沿所有 AI 軸的眾多創(chuàng)新和突破，訓練 MT-NLG 變得可行。例如， NVIDIA 與微軟緊密合作，通過將最先進的 GPU 加速培訓基礎(chǔ)設(shè)施與尖端的分布式學習軟件堆棧融合，實現(xiàn)了前所未有的培訓效率。我們用數(shù)千億的代幣構(gòu)建了高質(zhì)量的自然語言培訓語料庫，并共同開發(fā)了培訓配方，以提高優(yōu)化效率和穩(wěn)定性。

在這篇文章中，我們詳細闡述了培訓的各個方面，并描述了我們的方法和結(jié)果。

大規(guī)模培訓基礎(chǔ)設(shè)施

由 NVIDIA A100 Tensor Core GPU s 和 HDR InfiniBand 網(wǎng)絡(luò)提供支持，最先進的超級計算集群，如 NVIDIA Selene和 Microsoft Azure NDv4具有足夠的計算能力，可以在合理的時間范圍內(nèi)訓練具有數(shù)萬億參數(shù)的模型。然而，要充分發(fā)揮這些超級計算機的潛力，就需要跨越數(shù)千 GPU 的并行性，在內(nèi)存和計算上都要高效且可擴展。

孤立地說，現(xiàn)有的并行策略（如數(shù)據(jù)、管道或張量切片）在內(nèi)存和計算效率方面存在權(quán)衡，不能用于以這種規(guī)模訓練模型。

數(shù)據(jù)并行實現(xiàn)了良好的計算效率，但它復(fù)制了模型狀態(tài)，無法利用聚合分布式內(nèi)存。

張量切片需要 GPU 之間的大量通信，這將計算效率限制在無法使用高帶寬 NVLink 的單個節(jié)點之外。

管道并行可以跨節(jié)點高效擴展。然而，為了提高計算效率，它需要大批量、粗粒度并行和完美的負載平衡，而這在規(guī)模上是不可能的。

軟件設(shè)計

通過 NVIDIA Megatron-LM和 Microsoft DeepSpeed之間的合作，我們創(chuàng)建了一個高效、可擴展的 3D 并行系統(tǒng)，能夠?qū)⒒跀?shù)據(jù)、管道和張量切片的并行性結(jié)合在一起，以應(yīng)對這些挑戰(zhàn)。

通過結(jié)合張量切片和管道并行，我們可以在最有效的區(qū)域內(nèi)操作它們。更具體地說，該系統(tǒng)使用 Megatron LM 的張量切片在節(jié)點內(nèi)縮放模型，并使用 DeepSpeed 的管道并行性跨節(jié)點縮放模型。

例如，對于 5300 億個模型，每個模型副本跨越 280 NVIDIA A100 GPU s ，在節(jié)點內(nèi)進行 8 路張量切片，在節(jié)點間進行 35 路管道并行。然后，我們使用 DeepSpeed 的數(shù)據(jù)并行性進一步擴展到數(shù)千 GPU 秒。

硬件系統(tǒng)

模型訓練是在基于 NVIDIA DGX SuperPOD 的Selene超級計算機上以混合精度進行的，該超級計算機由 560 臺 DGX A100 服務(wù)器供電，這些服務(wù)器與 HDR InfiniBand 以全脂樹配置聯(lián)網(wǎng)。每個 DGX A100 有八個 NVIDIA A100 80GB 張量核 GPU s ，通過NVLink 和 NVSwitch相互完全連接。 Microsoft 在 Azure NDv4 云超級計算機上使用了類似的參考體系結(jié)構(gòu)。

系統(tǒng)吞吐量

我們在 Selene 上的 280 、 350 和 420 臺 DGX A100 服務(wù)器上考慮了 5300 億參數(shù)模型（批量大小為 1920 ）的系統(tǒng)端到端吞吐量。我們觀察到迭代時間分別為 60 。 1 、 50 。 2 和 44 。 4 秒。它們分別對應(yīng)于每 GPU 126 、 121 和 113 萬億次/秒。

訓練數(shù)據(jù)集和模型配置

我們使用了 transformer 解碼器的體系結(jié)構(gòu)，這是一個從左到右生成的 transformer 語言模型，包含 5300 億個參數(shù)。層、隱藏維度和注意頭的數(shù)量分別為 105 、 20480 和 128 。

我們使用了 8 路張量和 35 路流水線并行。序列長度為 2048 ，全局批量大小為 1920 。在最初的 120 億個培訓代幣中，我們逐漸將批量大小增加了 32 ，從 32 開始，直到最終的批量大小達到 1920 。在我們的培訓中，我們使用了 10 億代幣來提高學習率 w ARM 。

我們在先前工作那堆的基礎(chǔ)上構(gòu)建了我們的訓練數(shù)據(jù)集。首先，我們從一堆數(shù)據(jù)中選擇了相對質(zhì)量最高的數(shù)據(jù)集子集（圖 2 中的前 11 行）。然后，按照與生成Pile-CC類似的方法，我們下載并過濾了兩個最近的通用爬網(wǎng)（ CC ）快照。

我們對 CC 數(shù)據(jù)采取的步驟包括從原始 HTML 文件中提取文本，使用經(jīng)過高質(zhì)量數(shù)據(jù)訓練的分類器對提取的文檔進行評分，以及根據(jù)其評分對文檔進行過濾。為了使培訓多樣化，我們還收集了RealNews和CC-Stories數(shù)據(jù)集。

在構(gòu)建培訓數(shù)據(jù)集時，文檔重復(fù)數(shù)據(jù)消除是必要的，因為相同的內(nèi)容可以出現(xiàn)在不同數(shù)據(jù)集的多個文檔中。我們在文檔級別使用模糊重復(fù)數(shù)據(jù)消除過程，使用最小哈希 LSH 計算稀疏文檔圖，并在其中連接組件以識別重復(fù)文檔。

然后，在從每個連接組件中的重復(fù)文檔中選擇代表性文檔時，我們使用基于數(shù)據(jù)集質(zhì)量的優(yōu)先級順序。最后，我們使用基于n -gram 的過濾從訓練數(shù)據(jù)集中刪除下游任務(wù)數(shù)據(jù)，以避免污染。

最后，我們得到了一組 15 個數(shù)據(jù)集，共包含 3390 億個令牌。在培訓期間，我們選擇根據(jù)圖 2 中給出的可變采樣權(quán)重將數(shù)據(jù)集混合到異構(gòu)批次中，重點是更高質(zhì)量的數(shù)據(jù)集。我們在 2700 億代幣上訓練模型。

表 1 。用于訓練 MT-NLG 模型的數(shù)據(jù)集。前 11 行來自 Pile 數(shù)據(jù)集，后面是兩個通用爬網(wǎng)（ CC ）快照、 RealNews 和 CC Stories 數(shù)據(jù)集

成果和成就

最近在語言模型（ LM ）方面的研究表明，一個強的預(yù)訓練模型通常可以在廣泛的 NLP 任務(wù)中進行競爭，而無需微調(diào)。

為了了解擴大 LMs 如何增強其零炮或少炮學習能力，我們評估了 MT-NLG ，并證明它在多個 NLP 任務(wù)類別中建立了新的頂級結(jié)果。為了確保評估的全面性，我們選擇了八項任務(wù)，涵蓋五個不同領(lǐng)域：

在文本預(yù)測任務(wù) LAMBADA 中，模型預(yù)測給定段落的最后一個單詞。

在閱讀理解任務(wù) RACE-h 和 BoolQ 中，該模型根據(jù)給定的段落生成問題的答案。

在常識推理任務(wù) PiQA 、 HellaSwag 和 Winogrande 中，每個任務(wù)都需要一定程度的常識知識，而不僅僅是語言的統(tǒng)計模式。

對于自然語言推理，兩個硬基準 ANLI-R2 和 HANS 針對過去模型的典型故障案例。

詞義消歧任務(wù) WiC 從上下文評估對一詞多義的理解。

為了鼓勵再現(xiàn)性，我們以開源項目lm-evaluation-harness為基礎(chǔ)進行評估設(shè)置，并根據(jù)需要進行特定于任務(wù)的更改，以使我們的設(shè)置與之前的工作更緊密地結(jié)合起來。我們在零次、一次和少量放炮設(shè)置下評估 MT-NLG ，而不搜索最佳放炮數(shù)。

表 2 顯示了精度度量的結(jié)果。如果測試集是公開的，我們就對它進行評估；否則，我們會在開發(fā)集上報告數(shù)字。這導致在測試集上報告 LAMBADA 、 RACE-h 和 ANLI-R2 ，并在開發(fā)集上報告其他任務(wù)。

表 2 。使用 MT-NLG 進行零次、一次和少量放炮評估的準確度結(jié)果。 MT-NLG 在所有三種設(shè)置（用*表示）中建立了 PiQA-dev 集和 LAMBADA 測試集的最新結(jié)果，并在其他類別的類似單片模型中優(yōu)于結(jié)果。

以少鏡頭表演為例。與之前發(fā)表的工作相比，我們發(fā)現(xiàn)了令人鼓舞的改進。這對于涉及比較或發(fā)現(xiàn)兩個句子之間關(guān)系的任務(wù)（例如， WiC 和 ANLI ）尤其如此，對于以前的模型來說，這是一個具有挑戰(zhàn)性的任務(wù)類別。我們觀察到大多數(shù)任務(wù)在零次和一次評估中也有類似的改進。我們還應(yīng)該注意到，與以前的模型相比，此模型在更少的令牌上進行訓練，這表明較大模型的學習速度更快。

對于 HANS 數(shù)據(jù)集，我們沒有發(fā)現(xiàn)任何報告數(shù)據(jù)集范圍度量的基線。根據(jù)漢斯紙的分析，MNLI上訓練的 BERT 基線在其一半子類別上表現(xiàn)接近完美，而在另一半子類別上表現(xiàn)接近零。這表明它們強烈地依賴于本文所確定的虛假句法啟發(fā)法。

雖然我們的模型仍在掙扎，但它預(yù)測，在零次射擊中，一半以上的情況是正確的，而當我們僅給出一次和四次射擊時，情況會進一步改善。最后，在零拍、一拍和少拍設(shè)置下，我們的模型在 PiQA 開發(fā)集和 LAMBADA 測試集上建立了最佳結(jié)果。

除了報告基準任務(wù)的聚合指標外，我們還定性分析了模型輸出，并得出了有趣的發(fā)現(xiàn)（圖 4 ）。我們觀察到，該模型可以從上下文（示例 1 ）推斷出基本的數(shù)學運算，即使在符號嚴重混淆的情況下（示例 2 ）。雖然該模型并沒有宣稱自己是算術(shù)，但它似乎超出了算術(shù)記憶的范疇。

我們還展示了來自 HANS 任務(wù)的示例（圖 4 中的最后一行），其中我們將包含簡單語法結(jié)構(gòu)的任務(wù)作為問題提出，并提示模型給出答案。盡管結(jié)構(gòu)簡單，但現(xiàn)有的自然語言推理（ NLI ）模型通常很難處理此類輸入。微調(diào)模型經(jīng)常從 NLI 數(shù)據(jù)集中的系統(tǒng)偏差中發(fā)現(xiàn)某些句法結(jié)構(gòu)和蘊涵關(guān)系之間的虛假關(guān)聯(lián)。在這種情況下， MT-NLG 在沒有微調(diào)的情況下具有競爭力。

表 3 。不同句法結(jié)構(gòu)下數(shù)學運算和自然語言推理的 MT-NLG 示例

語言模型中的偏見

盡管巨型語言模型正在推動語言生成技術(shù)的發(fā)展，但它們也面臨著偏見和毒性等問題。人工智能社區(qū)正在積極研究如何理解和消除語言模型中的這些問題，包括微軟和 NVIDIA 。

我們對 MT-NLG 的觀察是，該模型從訓練數(shù)據(jù)中提取刻板印象和偏見。微軟和 NVIDIA 致力于解決這個問題。我們鼓勵繼續(xù)研究，以幫助量化模型的偏差。

此外，在生產(chǎn)場景中使用 MT-NLG 必須確保采取適當措施，以減輕和減少對用戶的潛在 h ARM 。所有工作都應(yīng)遵循微軟負責任的人工智能原則中的原則。這些原則強調(diào)公平、可靠性和安全性、隱私和安全性、包容性、透明度和問責制被視為開發(fā)和使用人工智能的負責任和值得信賴的方法的關(guān)鍵基石。

結(jié)論

我們生活在一個人工智能進步遠遠超過摩爾定律的時代。我們繼續(xù)看到新一代的 GPU 以閃電般的速度互聯(lián)，提供了更多的計算能力。與此同時，我們繼續(xù)看到人工智能模型的超尺度化帶來了更好的性能，似乎看不到盡頭。

將這兩種趨勢結(jié)合在一起的是軟件創(chuàng)新，它推動了優(yōu)化和效率的界限。 MT-NLG 是超級計算機 NVIDIA Selene 或 Microsoft Azure NDv4 與 Megatron LM 和 DeepSpeed 的軟件突破一起用于訓練大型語言 AI 模型的一個例子。

我們今天所獲得的質(zhì)量和結(jié)果是在開啟人工智能在自然語言中的全部承諾的過程中向前邁出的一大步。 DeepSpeed 和 Megatron LM 的創(chuàng)新將有利于現(xiàn)有和未來的人工智能模型開發(fā)，并使大型人工智能模型更便宜、訓練速度更快。

我們期待著 MT-NLG 將如何塑造未來的產(chǎn)品，并激勵社區(qū)進一步推動 NLP 的邊界。旅程漫長，遠未完成，但我們對可能發(fā)生的事情和未來的事情感到興奮。

關(guān)于作者

Paresh Kharya 是 NVIDIA 加速計算的產(chǎn)品管理和營銷高級總監(jiān)。他專注于 NVIDIA 數(shù)據(jù)中心產(chǎn)品，包括用于 AI 和 HPC 的服務(wù)器 GPU 、 CPU 和 NVIDIA 計算軟件平臺。此前，帕雷什在高科技行業(yè)擔任過多種業(yè)務(wù)角色，包括 Adobe 的產(chǎn)品管理和 tech Mahindra 的業(yè)務(wù)開發(fā)。帕雷什擁有印度管理學院的工商管理碩士學位和印度國家理工學院的計算機科學學士學位。

Ali Alvi 是微軟圖靈團隊的團隊項目經(jīng)理，該團隊是一個跨公司的深度學習/人工智能項目。他們正在開發(fā)和生產(chǎn)跨 Microsoft 產(chǎn)品套件（ Outlook 、 Word 、 PowerPoint 、 SharePoint 、 Bing 、 Dynamics 、 Maps 等）的雄心勃勃的深度學習功能。他的重點包括非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的 QA 、搜索相關(guān)模型、機器閱讀理解、自然語言表示、自然語言生成、通過向量空間嵌入的文檔和查詢表示、對話和對話 AI 以及多模態(tài) AI 模型。此前，他是微軟推出第一款可穿戴設(shè)備微軟樂隊的團隊成員。他領(lǐng)導 Microsoft Band 和 Health 的應(yīng)用程序、體驗和開發(fā)平臺。 Ali 從拉合爾管理科學大學（ LUMS ）獲得計算機科學學士學位，輔修數(shù)學和經(jīng)濟學。阿里自 2001 年以來一直在微軟工作。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5598

瀏覽量
109803
gpu

gpu

+關(guān)注

關(guān)注
28

文章
5196

瀏覽量
135515
人工智能

人工智能

+關(guān)注

關(guān)注
1817

文章
50105

瀏覽量
265538

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

使用DeepSpeed和Megatron驅(qū)動MT-NLG語言模型

評論