91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

探究超大Transformer語言模型的分布式訓(xùn)練框架

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2021-10-20 09:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA Megatron 是一個基于 PyTorch 的框架,用于訓(xùn)練基于 Transformer 架構(gòu)的巨型語言模型。本系列文章將詳細介紹Megatron的設(shè)計和實踐,探索這一框架如何助力大模型的預(yù)訓(xùn)練計算。 上篇主要介紹了大模型訓(xùn)練的發(fā)展趨勢、NVIDIA Megatron的模型并行設(shè)計,本篇將承接上篇的內(nèi)容,解析Megatron 在NVIDIA DGX SuperPOD 上的實踐。

優(yōu)化的分布式集群架構(gòu):NVIDIA DGX SuperPOD

有了高效的分布式訓(xùn)練框架,自然也需要優(yōu)化的分布式訓(xùn)練集群。

NVIDIA DGX SuperPOD 便是 NVIDIA 推出的一個分布式集群的參考架構(gòu),最新一代是基于NVIDIA DGX A100 和NVIDIA HDR 200Gb/s ConnectX-6 HCAs組建,旨在幫助AI 研究人員快速搭建一套強大、靈活、高效的系統(tǒng),以滿足工業(yè)界日益復(fù)雜、多變的模型對計算資源不同程度的需求。尤其對于超大語言模型預(yù)訓(xùn)練這一復(fù)雜場景,DGX SuperPOD 架構(gòu)尤為重要。

DGX SuperPOD 采用模塊化的設(shè)計,支持不同規(guī)模大小的設(shè)計。一個標準的SuperPOD 由140 臺DGX A100和三層Infiniband 交換機通過胖樹結(jié)構(gòu)全互聯(lián)起來。每臺DGX A100 配有8個200Gb/s 的高速計算網(wǎng),并配有2個200Gb/s的高速存儲網(wǎng),采用計算和存儲網(wǎng)絡(luò)分離的方案。

多個POD之間可以通過核心層交換機直連起來,可以支持多達560 臺DGX A100的互聯(lián)規(guī)模。

更多關(guān)于NVIDIA DGX SuperPOD 架構(gòu)的詳細設(shè)計,請參閱下列連接中的白皮書:https://images.nvidia.com/aem-dam/Solutions/Data-Center/gated-resources/nvidia-dgx-superpod-a100.pdf

NVIDIA Megatron 在 DGX SuperPOD 上的實踐

基于DGX SuperPOD 的Megatron實踐在不同大小的模型上,都表現(xiàn)出了很好的計算效率。

模型從1.7B 到1T ,訓(xùn)練規(guī)模從32 卡到3072 卡。

基于GPT-3 175B 模型的訓(xùn)練,采用如下的配置:

128 臺 DGX A100,總共 1024張 A100

Tensor 并行度:8;Pipeline 并行度:16; 數(shù)據(jù)并行度:8

全局Batch size : 1536;Micro-batch size: 1

在如此大的訓(xùn)練規(guī)模下,GPU 仍可達到44% 左右的計算效率,在規(guī)模和效率上,都遠遠超過已有的公開結(jié)果。

詳細內(nèi)容請參考以下鏈接:

Megatron repro: https://github.com/nvidia/megatron-lm

GPT3-175B training scripts: https://github.com/NVIDIA/Megatron-LM/blob/main/examples/pretrain_gpt3_175B.sh

總結(jié)

1. 大模型是大勢所趨。

2. 大規(guī)模分布式訓(xùn)練是訓(xùn)練大模型的必須。

3. NVIDIA Megatron 是開源的、軟硬協(xié)同設(shè)計的訓(xùn)練框架,專為Transformer-based的超大語言模型設(shè)計。

4. NVIDIA DGX SuperPOD 是開放的集群參考設(shè)計架構(gòu),專為大規(guī)模分布式訓(xùn)練而準備。

5. Megatron 優(yōu)化的Tensor模型并行:用于intra-transformer 層,可以高效地執(zhí)行在HGX based的系統(tǒng)上。

6. Megatron優(yōu)化的 Pipeline 模型并行:用于inter-transformer 層,可以有效地利用集群中多網(wǎng)卡的設(shè)計。

7. 數(shù)據(jù)并行的加持,可以擴展到更大規(guī)模、訓(xùn)練更快。

8. GPT-3 175B 的大模型,在1024 張 A100上可達到44%左右的計算效率。

9. NVIDIA Megatron 的設(shè)計和實踐,已廣泛用于學(xué)術(shù)界和工業(yè)界。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7335

    瀏覽量

    94769
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5594

    瀏覽量

    109731
  • 交換機
    +關(guān)注

    關(guān)注

    23

    文章

    2904

    瀏覽量

    104468
  • 分布式
    +關(guān)注

    關(guān)注

    1

    文章

    1093

    瀏覽量

    76582

原文標題:NVIDIA Megatron:超大Transformer語言模型的分布式訓(xùn)練框架 (二)

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    七大大模型賦能的無人集群分布式協(xié)同調(diào)度與任務(wù)分配系統(tǒng)

    ? ? 七大典型大模型賦能無人集群分布式協(xié)同調(diào)度與任務(wù)分配系統(tǒng)案例 ? ?盡管“七大大模型賦能系統(tǒng)”并非嚴格意義上的官方分類,但以下七類代表性技術(shù)方向充分體現(xiàn)了大模型在無人集群協(xié)同領(lǐng)域
    的頭像 發(fā)表于 12-30 11:39 ?410次閱讀

    模型ai賦能的無人集群分布式協(xié)同調(diào)度與任務(wù)分配系統(tǒng)

    ? ? 大模型AI賦能的無人集群分布式協(xié)同調(diào)度與任務(wù)分配系統(tǒng) ? ?北京華盛恒輝大模型AI賦能的無人集群分布式協(xié)同調(diào)度與任務(wù)分配系統(tǒng),是融合人工智能大
    的頭像 發(fā)表于 12-30 11:07 ?303次閱讀

    SC-3568HA:解鎖鴻蒙全權(quán)限API與分布式能力的工業(yè)控制平臺

    傳統(tǒng)嵌入開發(fā)面臨硬件碎片化、高權(quán)限功能缺失、分布式協(xié)同復(fù)雜及自動化測試不足等痛點。SC-3568HA開發(fā)板基于鴻蒙系統(tǒng),通過統(tǒng)一內(nèi)核抽象層和硬件驅(qū)動框架解決兼容問題,開放全量系統(tǒng)API支持高權(quán)限
    的頭像 發(fā)表于 12-18 11:27 ?7187次閱讀
    SC-3568HA:解鎖鴻蒙全權(quán)限API與<b class='flag-5'>分布式</b>能力的工業(yè)控制平臺

    【節(jié)能學(xué)院】Acrel-1000DP分布式光伏監(jiān)控系統(tǒng)在奉賢平高食品 4.4MW 分布式光伏中應(yīng)用

    分布式光伏本地和遠程通信方案,并研究分布式光伏采集模型的構(gòu)建、多源數(shù)據(jù)融合估計、面向分布式光伏的有功、無功功率優(yōu)化控制等關(guān)鍵技術(shù),實現(xiàn)了對小容量工商業(yè)
    的頭像 發(fā)表于 08-23 08:04 ?3496次閱讀
    【節(jié)能學(xué)院】Acrel-1000DP<b class='flag-5'>分布式</b>光伏監(jiān)控系統(tǒng)在奉賢平高食品 4.4MW <b class='flag-5'>分布式</b>光伏中應(yīng)用

    分布式光伏發(fā)電監(jiān)測系統(tǒng)技術(shù)方案

    分布式光伏發(fā)電監(jiān)測系統(tǒng)技術(shù)方案 柏峰【BF-GFQX】一、系統(tǒng)目標 :分布式光伏發(fā)電監(jiān)測系統(tǒng)旨在通過智能化的監(jiān)測手段,實現(xiàn)對分布式光伏電站的全方位、高精度、實時化管理。該系統(tǒng)能
    的頭像 發(fā)表于 08-22 10:51 ?3199次閱讀
    <b class='flag-5'>分布式</b>光伏發(fā)電監(jiān)測系統(tǒng)技術(shù)方案

    一鍵部署無損網(wǎng)絡(luò):EasyRoCE助力分布式存儲效能革命

    分布式存儲的性能瓶頸往往在于網(wǎng)絡(luò)。如何構(gòu)建一個高帶寬、超低時延、零丟包的無損網(wǎng)絡(luò),是釋放分布式存儲全部潛力、賦能企業(yè)關(guān)鍵業(yè)務(wù)(如實時數(shù)據(jù)庫、AI訓(xùn)練、高性能計算)的關(guān)鍵挑戰(zhàn)。
    的頭像 發(fā)表于 08-04 11:34 ?1618次閱讀
    一鍵部署無損網(wǎng)絡(luò):EasyRoCE助力<b class='flag-5'>分布式</b>存儲效能革命

    雙電機分布式驅(qū)動汽車高速穩(wěn)定性機電耦合控制

    摘要:為了利用所設(shè)計的雙電機防滑差速驅(qū)動系統(tǒng)來提高分布式驅(qū)動汽車的動力學(xué)性能,在前期同軸耦合驅(qū)動控制理論研究的基礎(chǔ)上,開展該車的高速穩(wěn)定性機電耦合控制研究。建立并驗證包含所設(shè)計驅(qū)動系統(tǒng)在內(nèi)的分布式
    發(fā)表于 06-18 16:37

    潤和軟件StackRUNS異構(gòu)分布式推理框架的應(yīng)用案例

    江蘇潤和軟件股份有限公司(以下簡稱“潤和軟件”)自主研發(fā)的StackRUNS異構(gòu)分布式推理框架已在實際場景中取得顯著成效,成功應(yīng)用于大型園區(qū)多模態(tài)模型演練及高校滿血版DeepSeek-MoE 671B的運行,有效推動了大
    的頭像 發(fā)表于 06-13 09:11 ?1310次閱讀
    潤和軟件StackRUNS異構(gòu)<b class='flag-5'>分布式</b>推理<b class='flag-5'>框架</b>的應(yīng)用案例

    潤和軟件發(fā)布StackRUNS異構(gòu)分布式推理框架

    當下,AI模型規(guī)模持續(xù)膨脹、多模態(tài)應(yīng)用場景日益復(fù)雜,企業(yè)正面臨異構(gòu)算力資源碎片化帶來的嚴峻挑戰(zhàn)。為應(yīng)對行業(yè)痛點,江蘇潤和軟件股份有限公司(以下簡稱“潤和軟件”)正式發(fā)布自主研發(fā)的StackRUNS異構(gòu)分布式推理框架,高效融合異構(gòu)
    的頭像 發(fā)表于 06-13 09:10 ?1462次閱讀
    潤和軟件發(fā)布StackRUNS異構(gòu)<b class='flag-5'>分布式</b>推理<b class='flag-5'>框架</b>

    算力網(wǎng)絡(luò)的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)分布式訓(xùn)練范式

    ? 電子發(fā)燒友網(wǎng)綜合報道 隨著AI技術(shù)迅猛發(fā)展,尤其是大型語言模型的興起,對于算力的需求呈現(xiàn)出爆炸性增長。這不僅推動了智算中心的建設(shè),還對網(wǎng)絡(luò)互聯(lián)技術(shù)提出了新的挑戰(zhàn)。 ? 在AI大模型訓(xùn)練
    的頭像 發(fā)表于 06-08 08:11 ?7441次閱讀
    算力網(wǎng)絡(luò)的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)<b class='flag-5'>分布式</b><b class='flag-5'>訓(xùn)練</b>范式

    曙光存儲領(lǐng)跑中國分布式存儲市場

    近日,賽迪顧問發(fā)布《中國分布式存儲市場研究報告(2025)》,指出2024 年中國分布式存儲市場首次超過集中式存儲,規(guī)模達 198.2 億元,增速 43.7%。
    的頭像 發(fā)表于 05-19 16:50 ?1251次閱讀

    分布式光纖傳感的用途

    生態(tài)災(zāi)難。這些場景中,一種名為"分布式光纖傳感"的技術(shù)正悄然編織著一張無形的感知網(wǎng)絡(luò),用光信號的"語言"實時翻譯著環(huán)境的細微變化。 一、技術(shù)原理:光與物質(zhì)的"對話" 分布式光纖傳感技術(shù)的核心,在于將光纖本身轉(zhuǎn)化為兼具傳感與傳輸功
    的頭像 發(fā)表于 05-11 17:26 ?1360次閱讀

    AI原生架構(gòu)升級:RAKsmart服務(wù)器在超大規(guī)模模型訓(xùn)練中的算力突破

    近年來,隨著千億級參數(shù)模型的崛起,AI訓(xùn)練對算力的需求呈現(xiàn)指數(shù)級增長。傳統(tǒng)服務(wù)器架構(gòu)在應(yīng)對分布式訓(xùn)練、高并發(fā)計算和顯存優(yōu)化等場景時逐漸顯露瓶頸。而RAKsmart為
    的頭像 發(fā)表于 04-24 09:27 ?790次閱讀

    淺談工商企業(yè)用電管理的分布式儲能設(shè)計

    文章設(shè)計了一種新的用于工商業(yè)用電管理的分布式儲能系統(tǒng)。由于儲能系統(tǒng)硬件置換成本高,選擇在傳統(tǒng)儲能系統(tǒng)的硬件框架基礎(chǔ)上,對控制軟件進行優(yōu)化設(shè)計,建立分布式儲能系統(tǒng)模型,分析發(fā)電量、儲電量
    的頭像 發(fā)表于 03-24 15:43 ?3469次閱讀
    淺談工商企業(yè)用電管理的<b class='flag-5'>分布式</b>儲能設(shè)計

    分布式光伏如何實現(xiàn)防逆流?

    分布式光伏如何實現(xiàn)防逆流
    的頭像 發(fā)表于 03-24 13:31 ?823次閱讀
    <b class='flag-5'>分布式</b>光伏如何實現(xiàn)防逆流?