91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

<button id="ygy4o"></button>

<code id="ygy4o"></code>

<sup id="g6kgi"><li id="g6kgi"></li></sup>

<code id="g6kgi"></code>

<button id="g6kgi"></button>

<code id="g6kgi"></code>

<table id="g6kgi"><dl id="g6kgi"></dl></table>

首頁
技術

可編程邏輯

MEMS/傳感技術

嵌入式技術

模擬技術

控制/MCU

處理器/DSP

存儲技術

EMC/EMI設計

電源/新能源

測量儀表

制造/封裝

RF/無線

接口/總線/驅動

EDA/IC設計

光電顯示

連接器

PCB設計

LEDs

汽車電子

醫(yī)療電子

人工智能

可穿戴設備

軍用/航空電子

工業(yè)控制

觸控感測

智能電網(wǎng)

音視頻及家電

通信網(wǎng)絡

機器人

vr|ar|虛擬現(xiàn)實

安全設備/系統(tǒng)

移動通信

便攜設備

物聯(lián)網(wǎng)

區(qū)塊鏈

HarmonyOS

RISC-V MCU

光伏

ChatGPT

IGBT

充電樁

氮化鎵

BLDC

逆變器

5G

電機控制
資源

技術文庫

新品速遞

電路圖

元器件知識

電子百科

最新技術文章

元器件搜索引擎
下載

在線工具

常用軟件

電子書

datasheet
專欄

電子說

專欄
社區(qū)

論壇

問答

小組

技術專欄

社區(qū)之星

試用中心

HarmonyOS技術社區(qū)

2023電子工程師大會
研究院
活動

設計大賽

硬創(chuàng)大賽

社區(qū)活動

線下會議

在線研討會

小測驗
學院

直播

課程
視頻
企業(yè)號
工具

datasheet查詢

免費評測試用

技術子站

搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續(xù)費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發(fā)帖/加入社區(qū)

會員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

智源聯(lián)合清華發(fā)布首個支持PyTorch框架的高性能MoE系統(tǒng)

北京智源人工智能研究院（以下簡稱“智源研究院”）和清華大學聯(lián)合發(fā)布首個支持 PyTorch 框架的高性能 MoE 系統(tǒng)：FastMoE 。

FastMoE 系統(tǒng)具有易用性強、靈活性好、訓練速度快的優(yōu)勢，打破行業(yè)限制，可在不同規(guī)模的計算機或集群上支持研究者探索不同的 MoE 模型在不同領域的應用。相比直接使用 PyTorch 實現(xiàn)的版本，提速 47 倍。FastMoE 是智源研究院于 2020 年發(fā)起的新型超大規(guī)模預訓練模型研發(fā)項目“悟道”的最新成果，由“悟道文匯”（面向認知的超大規(guī)模新型預訓練模型）和“悟道文溯”（超大規(guī)模蛋白質序列預訓練模型）兩個研究小組聯(lián)合完成。

MoE 是什么？萬億模型的核心技術，推動預訓練模型跨越式發(fā)展，卻令 GPU 與 PyTorch 用戶望而卻步。

MoE（Mixture of Experts）是一個在神經(jīng)網(wǎng)絡中引入若干專家網(wǎng)絡（Expert Network）的技術，也是 Google 最近發(fā)布的 1.5 萬億參數(shù)預訓練模型 Switch Transformer 的核心技術。它對于預訓練模型經(jīng)從億級參數(shù)到萬億級參數(shù)的跨越，起了重要推動作用。然而由于其對 Google 分布式訓練框架 mesh-tensorflow 和 Google 定制硬件 TPU 的依賴，給學術界和開源社區(qū)的使用與研究帶來了不便。

MoE 設計：顯著增加模型參數(shù)量

在 ICLR 2017 上，Google 研究者提出了 MoE（Mixture of Experts）層。該層包含一個門網(wǎng)絡（Gating Network）和 n 個專家網(wǎng)絡（Expert Network）。對于每一個輸入，動態(tài)地由門網(wǎng)絡選擇 k 個專家網(wǎng)絡進行激活。在圖 1 的例子中，門網(wǎng)絡決定激活第 2 個專家網(wǎng)絡和第 n-1 個專家網(wǎng)絡。

圖 1：MoE 層的設計（圖片來源 https://arxiv.org/pdf/1701.06538.pdfFigure 1）

在具體設計中，每個輸入 x 激活的專家網(wǎng)絡數(shù)量 k 往往是一個非常小的數(shù)字。比如在 MoE 論文的一些實驗中，作者采用了 n=512，k=2 的設定，也就是每次只會從 512 個專家網(wǎng)絡中挑選兩個來激活。在模型運算量（FLOPs）基本不變的情況下，可以顯著增加模型的參數(shù)量。

GShard 和 Switch Transformer，達到驚人的 1.5 萬億參數(shù)量級

在 ICLR 2021 上，Google 的進一步將 MoE 應用到了基于 Transformer 的神經(jīng)機器翻譯的任務上。GShard 將 Transformer 中的 Feedforward Network（FFN）層替換成了 MoE 層，并且將 MoE 層和數(shù)據(jù)并行巧妙地結合起來。在數(shù)據(jù)并行訓練時，模型在訓練集群中已經(jīng)被復制了若干份。GShard 通過將每路數(shù)據(jù)并行的 FFN 看成 MoE 中的一個專家來實現(xiàn) MoE 層，這樣的設計通過在多路數(shù)據(jù)并行中引入 All-to-All 通信來實現(xiàn) MoE 的功能。在論文中，Google 使用 2048 個 TPU v3 cores 花 4 天時間訓練了一個 6 千億參數(shù)的模型。

圖 2：GShard 的設計（圖片來源 https://arxiv.org/pdf/2006.16668.pdfFigure 3）

在 2021 年 1 月，Google 進一步發(fā)布了萬億規(guī)模的基于 MoE 的大規(guī)模預訓練模型 Switch Transformer。Switch Transformer 用 MoE 改進了 Google 已有的 T5 預訓練模型，其中最大的模型 Switch-C 已經(jīng)達到了 1.5 萬億參數(shù)。

MMoE：MoE 的推薦系統(tǒng)應用

除了在自然語言處理中大放異彩之外，MoE 還在推薦系統(tǒng)中找到了一席之地。在 KDD 2018 中，Google 的研究人員提出了 MMoE（Multi-gate Mixture-of-Experts），并將其應用到了 Google 的推薦系統(tǒng)的多任務分類問題中，取得了十分好的效果。隨后，Google 在 RecSys 2019 介紹了 MMoE 在 YouTube 視頻推薦中的應用。類似的 MMoE 模型也被快手的研究員應用到了快手推薦系統(tǒng)的 1.9 萬億參數(shù)的大規(guī)模精排模型中。

FastMoE 是首個支持 PyTorch 框架的 MoE 系統(tǒng)，簡單，靈活，高性能，支持大規(guī)模并行訓練

MoE 潛力巨大，但因為綁定 Google 軟硬件，無法直接應用于 PyTorch 框架。FastMoE 是首個基于當前最流行的 PyTorch 框架的 MoE 開源系統(tǒng)，使得普通的用戶可以使用常見的 GPU 資源來嘗試和研究自己的 MoE 模型。與樸素版本相比，實現(xiàn)了 47 倍的提速優(yōu)化，更加簡單、靈活、高效。

特色一：簡單易用，一行代碼即可 MoE

FastMoE 系統(tǒng)既可以作為 PyTorch 網(wǎng)絡中的一個模塊使用，也可用于“改造”現(xiàn)有網(wǎng)絡中某個層：將其復制多份，并引入 Gate，變?yōu)?MoE 層。

例如，對于當前流行的 Megatron-LM 訓練系統(tǒng)，僅需要對代碼進行如下改動，就可以將 Transformer 模型中的前饋網(wǎng)絡（Feed Forward Network）全部替換為 MoE 網(wǎng)絡。

特色二：靈活性，支持多種擴展方式

除了傳統(tǒng)的兩層 MLP 網(wǎng)絡，F(xiàn)astMoE 也支持將任意神經(jīng)網(wǎng)絡模塊作為專家網(wǎng)絡，而進行這樣的操作僅需通過修改 MoE 層構造函數(shù)中的一個參數(shù)即可實現(xiàn)。

此外，專家選擇模塊 Gate 也有較高的研究價值。FastMoE 系統(tǒng)目前僅提供了基于單層全連接網(wǎng)絡的基礎版本，但是通過給定接口，研究者可以方便地使用自己編寫的深度神經(jīng)網(wǎng)絡模塊作為 Gate，從而探索出更好的專家選擇方案。

特色三：運行高效，專有性能優(yōu)化

FastMoE 中包含了一些專門優(yōu)化的 CUDA 代碼。在單塊 GPU 上，相對于一個樸素的 PyTorch 實現(xiàn)，F(xiàn)astMoE 的算子更加充分地利用了 GPU 大規(guī)模并行計算的能力，從而實現(xiàn)多達 47 倍的加速，從而使得模型研究者可以在更短的時間內驗證他們的想法。

FastMoE 支持在同一個 worker 上運行多個 experts，從而減少模型研究者在探索更多 experts 數(shù)量時所需的硬件資源。當 experts 數(shù)量較多時，F(xiàn)astMoE 針對傳統(tǒng)的兩層 MLP 全連接網(wǎng)絡（即 Transformer 中的 FFN 網(wǎng)絡）使用了更精細的并行策略，從而使得 Transformer 模型中 MLP 部分的運算速度相比樸素的實現(xiàn)較大的加速。

圖 3：單 GPU 多 experts 情況下，F(xiàn)astMoE 相比普通 PyTorch 實現(xiàn)的加速比。性能的提升主要來自 FastMoE 針對傳統(tǒng)的兩層 MLP 全連接網(wǎng)絡（即 Transformer 中的 FFN 網(wǎng)絡）使用了更精細的并行策略。

單 GPU 的 FastMoE 優(yōu)化配合 PyTorch 的數(shù)據(jù)并行，已經(jīng)可以支持少量專家的 MoE 分布式訓練，這種訓練模式被稱為 FastMoE 的數(shù)據(jù)并行模式。圖 4 展示了一個在 2 個 workers（GPU）上對一個由 3 個 experts 構成的 MoE 網(wǎng)絡進行前向計算的例子。

圖 4：FastMoE 數(shù)據(jù)并行模式，每個 worker 放置多個 experts，worker 之間數(shù)據(jù)并行。top-2 gate 指的是門網(wǎng)絡會選擇激活分數(shù)最高的 2 個專家網(wǎng)絡。

FastMoE 的數(shù)據(jù)并行模式已經(jīng)可以支持許多應用，開發(fā)者在著名的 Transformer-XL 模型上進行了實驗。具體來說，Transformer-XL 模型中的每一個 FFN 層（兩層的帶 ReLU 激活函數(shù)的 MLP，隱層大小為 512->2048->512）都被一個 64 選 2 的專家網(wǎng)絡替代（每個專家網(wǎng)絡是兩層的帶 ReLU 激活函數(shù)的 MLP，隱層大小為 512->1024->512）。這樣一來，改造后的 FastMoE-Transformer-XL 在模型計算量基本不變的情況下，可以獲得原始 Transformer-XL 模型約 20 倍的參數(shù)。如圖 5 所示，改造后的 FastMoE-Transformer-XL 收斂得比 Transformer-XL 更快。

圖 5：FastMoE-Transformer-XL （64 個 experts）在 enwik8 數(shù)據(jù)集上前 100K 步的 Training Loss，其收斂速度顯著快于 Transformer-XL。

特色四：支持大規(guī)模并行訓練

圖 6：FastMoE 模型并行模式，每個 worker 放置多個 experts，worker 之間進行 experts 的模型并行。top-2 gate 指的是門網(wǎng)絡會選擇激活分數(shù)最高的 2 個專家網(wǎng)絡。

FastMoE 還支持在多個 worker 間以模型并行的方式進行擴展（如圖 6 所示），即不同的 worker 上放置不同的 experts，輸入數(shù)據(jù)在計算前將被傳輸?shù)剿璧?worker 上，計算后會被傳回原來的 worker 以進行后續(xù)計算。通過這種并行方式，模型規(guī)?？梢砸跃€性擴展，從而支持研究者探索更大規(guī)模的模型。這種模式被稱為 FastMoE 的模型并行模式。

值得一提的是，F(xiàn)astMoE 已經(jīng)和英偉達開發(fā)的超大規(guī)模預訓練工具 Megatron-LM 進行了深度整合，從而使研究者對現(xiàn)有代碼做盡量小的修改即可并行運行基于 MoE 的超大規(guī)模預訓練模型。開發(fā)者在 Megatron-LM 的 GPT 模型上進行了測試。如圖 7 所示，類似在 Transformer-XL 上觀察到的現(xiàn)象，一個 96 個 experts 的 GPT 模型可以收斂得比 GPT 模型更快。

圖 7：FastMoE-GPT （96 個 experts）在 GPT 上前 60K 步的 Training Loss，其收斂速度顯著快于 GPT。

智源研究院

新型人工智能研究機構、支持科學家勇闖 AI「無人區(qū)」

智源研究院是在科技部和北京市委市政府的指導和支持下成立的新型研發(fā)機構，旨在聚焦原始創(chuàng)新和核心技術，建立自由探索與目標導向相結合的科研體制，支持科學家勇闖人工智能科技前沿“無人區(qū)”。

FastMoE 團隊成員來自于智源研究院和清華大學計算機系 KEG 和 PACMAN 實驗室，打通了算法、系統(tǒng)等不同背景的學術人才，由智源研究院學術副院長 - 清華大學計算機系唐杰教授、智源青年科學家 - 清華大學計算機系翟季冬副教授、智源青年科學家 - 循環(huán)智能創(chuàng)始人楊植麟博士領導，團隊成員有清華大學計算機系博士研究生何家傲、裘捷中以及本科生曾奧涵。

原文標題：首個支持 PyTorch 框架的 MoE 系統(tǒng)來了！智源聯(lián)合清華開源FastMoE，萬億AI模型基石

文章出處：【微信公眾號：通信信號處理研究所】歡迎添加關注！文章轉載請注明出處。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1818

文章
50127

瀏覽量
265620
pytorch

pytorch

+關注

關注
2

文章
813

瀏覽量
14863

原文標題：首個支持 PyTorch 框架的 MoE 系統(tǒng)來了！智源聯(lián)合清華開源FastMoE，萬億AI模型基石

文章出處：【微信號：tyutcsplab，微信公眾號：智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注！文章轉載請注明出處。

評論

智能感知與物聯(lián)網(wǎng)技術研究所
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 北斗導航真實的發(fā)展情況怎樣？還面臨哪些問題？
Hot 盤點北斗衛(wèi)星導航系統(tǒng)在各行業(yè)的應用

New 一種基于正交與縮放變換的大模型量化方法
New 大模型的數(shù)學能力或許一直都在關鍵在于如何喚醒它

精選推薦
更多

文章

資料

帖子

國產顯卡里程碑！礪算科技AWE重磅發(fā)布四款GPU，打通消費與專業(yè)市場

章鷹觀察
5小時前

2064 閱讀

Simulink模型導出至電力仿真軟件的工程實踐

MATLAB
6小時前

491 閱讀

小小跳線大講究：PCB設計跳線用法全攻略

凡億PCB
6小時前

507 閱讀

18核/24核雙旗艦！英特爾酷睿Ultra 200S Plus發(fā)布，游戲性能大漲15%

章鷹觀察
1天前

5710 閱讀

全民養(yǎng)蝦，圖了個啥？

腦極體
1天前

2331 閱讀

基于機器視覺的公路車流量檢測系統(tǒng)研究

Kelly Yang
230.0 KB

免費

164下載

FPGA各存儲器之間的關系

自我清歡
14.97KB

2積分

6下載

Grafeas開源容器安全工具

mintsy
9.52 MB

免費

0下載

i5chats簡單聊天軟件

李玉鑫
0.00 MB

2積分

3下載

cpufetch CPU信息獲取命令行工具

賈熹
2.66 MB

2積分

1下載

飛凌嵌入式ElfBoard-環(huán)境變量之獲取環(huán)境變量

jf_13411809
16小時前

199 閱讀

如圖，請教PCB布線的設計細節(jié)？

jf_71181365
1天前

198 閱讀

基于先楫6E80的ethercat從站，AL Status Code報001B的錯誤

jf_19410383
1天前

469 閱讀

求助cs32A101SOC中單端ADC采集配置方法

jf_69480110
2天前

552 閱讀

【瑞薩AI挑戰(zhàn)賽-FPB-RA6E2】硬件實現(xiàn)：高集成度生理信號采集終端構建與協(xié)議設計

時光找茬
2天前

635 閱讀

推薦專欄
更多

企業(yè)產品

資料

方案
更多

電子發(fā)燒友

My ElecFans

APP
網(wǎng)站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業(yè)應用

LEDs

汽車電子

音視頻及家電

通信網(wǎng)絡

醫(yī)療電子

人工智能

虛擬現(xiàn)實

可穿戴設備

機器人

安全設備/系統(tǒng)

軍用/航空電子

移動通信

工業(yè)控制

便攜設備

觸控感測

物聯(lián)網(wǎng)

智能電網(wǎng)

區(qū)塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

產品地圖

品牌地圖

社區(qū)

小組

論壇

問答

評測試用

企業(yè)服務

產品

資料

文章

方案

企業(yè)

供應鏈服務

硬件開發(fā)

媒體服務

網(wǎng)站廣告

在線研討會

活動策劃

新聞發(fā)布

新品發(fā)布

小測驗

設計大賽

電子發(fā)燒友

關于我們

聯(lián)系我們

舉報投訴

社交網(wǎng)絡

微博

移動端

發(fā)燒友APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

張迎輝：mikezhang@elecfans.com

關注我們的微信

下載發(fā)燒友APP

電子發(fā)燒友觀察

版權所有 ? 長沙勒克斯教育咨詢有限公司

湖南省長沙市開福區(qū)月湖街道匍園路20號聚恒科技園1棟2301-1房
電子發(fā)燒友 （電路圖） 湘公網(wǎng)安備43011202000918 工商網(wǎng)監(jiān) 湘ICP備2023036445號-105-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级
国产操人视频在线|亚洲欧美第一区第二区在线视频观看|日本A片在线看一级无码片|sese国产sy导航|久久国产老熟女按摩AV|久久无码最新视频|免费靥色AV在线青草热|亚洲AV无码乱码一区二三区|成人免费在线A片|一级片在线免费天天久久 97亚洲国产怡红啊AV|a片大全免费在线观看|在线能看的黄色视频网站|日韩精品国模成人午夜福利|AV毛片在线看三级片黄片免费|日韩成人av在线观看|日本不卡小说欧美一区大毛片|超碰人妻AV在线|日韩精妻视频美日韩性爱|手机看片日韩一区二区图片一区中文字幕亚洲|国产在线一区二区三区有字幕|黄色影片无码五月亭AV|日韩一级久久视频|人人爱人人操人人爱|亚洲av激情电影|日韩一区二区三区制服师生中出|动漫五码中文字幕|日韩人妻精品中文字幕专区不卡|成人伦理Av一级一级a片