91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

<button id="ygy4o"></button>

<code id="ygy4o"></code>

首頁
技術

可編程邏輯

MEMS/傳感技術

嵌入式技術

模擬技術

控制/MCU

處理器/DSP

存儲技術

EMC/EMI設計

電源/新能源

測量儀表

制造/封裝

RF/無線

接口/總線/驅動

EDA/IC設計

光電顯示

連接器

PCB設計

LEDs

汽車電子

醫(yī)療電子

人工智能

可穿戴設備

軍用/航空電子

工業(yè)控制

觸控感測

智能電網

音視頻及家電

通信網絡

機器人

vr|ar|虛擬現(xiàn)實

安全設備/系統(tǒng)

移動通信

便攜設備

物聯(lián)網

區(qū)塊鏈

HarmonyOS

RISC-V MCU

光伏

ChatGPT

IGBT

充電樁

氮化鎵

BLDC

逆變器

5G

電機控制
資源

技術文庫

新品速遞

電路圖

元器件知識

電子百科

最新技術文章

元器件搜索引擎
下載

在線工具

常用軟件

電子書

datasheet
專欄

電子說

專欄
社區(qū)

論壇

問答

小組

技術專欄

社區(qū)之星

試用中心

HarmonyOS技術社區(qū)

2023電子工程師大會
研究院
活動

設計大賽

硬創(chuàng)大賽

社區(qū)活動

線下會議

在線研討會

小測驗
學院

直播

課程
視頻
企業(yè)號
工具

datasheet查詢

免費評測試用

技術子站

搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續(xù)費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發(fā)帖/加入社區(qū)

會員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

使用EMBark進行大規(guī)模推薦系統(tǒng)訓練Embedding加速

簡介

推薦系統(tǒng)是互聯(lián)網行業(yè)的核心系統(tǒng)，如何高效訓練推薦系統(tǒng)是各公司關注的核心問題。目前，推薦系統(tǒng)基本上都是基于深度學習的大規(guī)模 ID 類模型，模型包含數(shù)十億甚至數(shù)百億級別的 ID 特征，典型結構如圖 1 所示。

圖 1. 典型 DLRM 模型結構圖

近年來，以 NVIDIA Merlin HugeCTR 和 TorchRec 為代表的 GPU 解決方案，通過將大規(guī)模 ID 類特征的 embedding 存放在 GPU 上，并對 embedding 進行模型并行處理，將其分片到不同 GPU 上，利用 GPU 內存帶寬優(yōu)勢，大幅加速了深度推薦系統(tǒng)模型的訓練，相較于 CPU 方案有顯著提升。

同時，隨著訓練集群 GPU 使用數(shù)量增加（從 8 個 GPU 增加到 128 個 GPU），我們也發(fā)現(xiàn)，embedding 部分通信開銷占整個訓練開銷比例越來越大。在一些大規(guī)模訓練中（比如在 16 節(jié)點上）甚至超過一半（51%）。這主要是因為兩個原因：

隨著集群 GPU 數(shù)量增加，每個節(jié)點上的 embedding table 數(shù)量逐漸減少，導致不同節(jié)點負載不均衡，降低訓練效率。

相比機內帶寬，機間帶寬小得多，因此 embedding 模型并行需要進行機間通信耗時較長。

為了幫助行業(yè)用戶更好地理解問題、解決問題，NVIDIA HugeCTR 團隊于今年的 RecSys 大會上提出了 EMBark，通過支持 3D 的自定義 sharding 策略和結合不同的通信壓縮策略，能夠細粒度的優(yōu)化大規(guī)模集群下深度推薦模型訓練的負載不均衡問題，以及減少 embedding 需要的通信時間，其相關代碼[1]和論文[2]皆已開源。

圖 2. 不同 cluster 配置下 DLRM 各部分訓練耗時占比

EMBark 介紹

EMBark 旨在提高 DLRM 訓練中 embedding 在不同集群配置下的性能，并加速整體訓練吞吐量。EMBark 是在 NVIDIA Merlin HugeCTR 開源推薦系統(tǒng)框架的基礎上實現(xiàn)的，但所描述的技術也可以應用于其他機器學習框架。

EMBark 有三個關鍵組件：embedding clusters、靈活的 3D 分片方案和分片規(guī)劃器。下圖展示了 EMBark 的整體架構。

圖 3. EMBark 架構圖

Embedding Clusters

Embedding clusters 旨在通過將具有相似特征的 embedding 進行分組并為每個 cluster 應用定制的壓縮策略來高效地訓練 embedding。每個 cluster 包括 data distributor、embedding storage 和 embedding operators，協(xié)同將 feature ID 轉換為 embedding 向量。

有三種類型的 Embedding clusters：Data-parallel（DP）、Reduction-based（Reduction based）和基于 Unique-based（Unique Based）。每種類型在訓練過程中采用不同的通信方法，適用于不同的 embedding。

DP cluster 不壓縮通信，因此簡單高效，但是因為會將 embedding table 在每個 GPU 上重復，因此僅適用于小表格。

RB cluster 使用歸約操作，對于具有池化操作的多 feature 輸入表格壓縮效果顯著。

UB cluster 僅發(fā)送唯一向量，有利于處理具有明顯訪問熱點的 embedding table。

靈活的 3D 分片方案

靈活的 3D 分片方案旨在解決 RB cluster 中的工作負載不平衡問題。與固定的分片策略比如 row-wise、table-wise、column-wise 不同，EMBark 使用一個 3D 元組（i, j, k）表示每個分片，其中 I 表示表格索引，j 表示行分片索引，k 表示列分片索引。這種方法允許每個 embedding 跨任意數(shù)量的 GPU 進行分片，提供靈活性并實現(xiàn)對工作負載平衡的精確控制。

分片規(guī)劃器

為了找到最佳分片策略，EMBark 提供了一個分片規(guī)劃器——一種成本驅動的貪婪搜索算法，根據(jù)硬件規(guī)格和 embedding 配置識別最佳分片策略。

Evaluation

所有實驗均在一個集群上進行，該集群由 NVIDIA DGX-H100[3] 節(jié)點組成，每個節(jié)點配備 8 張 NVIDIA H100 GPU（總計 640GB HBM，帶寬為每節(jié)點 24TB/s）。在每個節(jié)點內，所有 GPU 通過 NVLink（雙向 900GB/s）互連。節(jié)點間通信使用 InfiniBand（8x400Gbps）。

為了展示 EMBark 可以高效訓練任何規(guī)模的 DLRM 模型，我們測試了使用 MLPerf DLRM-DCNv2 模型并生成了幾個具有更大嵌入表和不同屬性的合成模型（參見上表）。我們的訓練數(shù)據(jù)集表現(xiàn)出 α=1.2 的冪律偏斜。

圖 4. EMBark evaluation 結果

Baseline 采用串行的 kernel 執(zhí)行順序，固定的 table-row-wise 分片策略，以及全部使用了 RB-clusters。實驗依次使用了三種優(yōu)化：overlap、更靈活的分片策略和更好的 clusters 配置。

在四種代表性 DLRM 變體（DLRM-DCNv2、T180、T200 和 T510）中，EMBark 實現(xiàn)了平均 1.5 倍的端到端訓練吞吐量加速，比 baseline 快最多 1.77 倍。更詳細的實驗結果和相關的分析，可以參考論文。

結論

EMBark 針對大規(guī)模推薦系統(tǒng)模型訓練中 embedding 部分耗時占比過高的問題，通過支持 3D 的自定義 sharding 策略和結合不同的通信壓縮策略，能夠細粒度的優(yōu)化大規(guī)模集群下深度推薦模型訓練的負載不均衡問題以及減少 embedding 需要的通信時間，提高大規(guī)模推薦系統(tǒng)模型的訓練效率，在四種代表性 DLRM 變體（DLRM-DCNv2、T180、T200 和 T510）中，EMBark 實現(xiàn)了平均 1.5 倍的端到端訓練吞吐量加速，比 baseline 快最多 1.77 倍。其中，相關代碼和論文皆已開源，希望我們的工作對大家有所幫助。同時，我們也在積極探索 embedding offloading 相關技術和進行 TorchRec 相關優(yōu)化工作，未來也會及時和大家更新相關進展情況，如果您對這部分感興趣，也可以聯(lián)系我們，大家一起交流和探索。

作者簡介

劉仕杰

劉仕杰于 2020 年加入 NVIDIA DevTech，主要專注于在 NVIDIA GPU 上性能優(yōu)化和推薦系統(tǒng)加速。加入 NVIDIA 之后，他主要參與了 Merlin HugeCTR 開發(fā)和 MLPerf DLRM 優(yōu)化等相關工作。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
5598

瀏覽量
109801
推薦系統(tǒng)

推薦系統(tǒng)

+關注

關注
1

文章
44

瀏覽量
10452
深度學習

深度學習

+關注

關注
73

文章
5599

瀏覽量
124414

原文標題：RecSys’24：使用 EMBark 進行大規(guī)模推薦系統(tǒng)訓練 Embedding 加速

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業(yè)解決方案】歡迎添加關注！文章轉載請注明出處。

評論

電子發(fā)燒友

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業(yè)應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫(yī)療電子

人工智能

虛擬現(xiàn)實

可穿戴設備

機器人

安全設備/系統(tǒng)

軍用/航空電子

移動通信

工業(yè)控制

便攜設備

觸控感測

物聯(lián)網

智能電網

區(qū)塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

產品地圖

品牌地圖

社區(qū)

小組

論壇

問答

評測試用

企業(yè)服務

產品

資料

文章

方案

企業(yè)

供應鏈服務

硬件開發(fā)

媒體服務

網站廣告

在線研討會

活動策劃

新聞發(fā)布

新品發(fā)布

小測驗

設計大賽

電子發(fā)燒友

關于我們

聯(lián)系我們

舉報投訴

社交網絡

微博

移動端

發(fā)燒友APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

張迎輝：mikezhang@elecfans.com

關注我們的微信

下載發(fā)燒友APP

電子發(fā)燒友觀察

版權所有 ? 長沙勒克斯教育咨詢有限公司

湖南省長沙市開福區(qū)月湖街道匍園路20號聚恒科技園1棟2301-1房
電子發(fā)燒友 （電路圖） 湘公網安備43011202000918 工商網監(jiān) 湘ICP備2023036445號-105-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级
国产操人视频在线|亚洲欧美第一区第二区在线视频观看|日本A片在线看一级无码片|sese国产sy导航|久久国产老熟女按摩AV|久久无码最新视频|免费靥色AV在线青草热|亚洲AV无码乱码一区二三区|成人免费在线A片|一级片在线免费天天久久 97亚洲国产怡红啊AV|a片大全免费在线观看|在线能看的黄色视频网站|日韩精品国模成人午夜福利|AV毛片在线看三级片黄片免费|日韩成人av在线观看|日本不卡小说欧美一区大毛片|超碰人妻AV在线|日韩精妻视频美日韩性爱|手机看片日韩一区二区图片一区中文字幕亚洲|国产在线一区二区三区有字幕|黄色影片无码五月亭AV|日韩一级久久视频|人人爱人人操人人爱|亚洲av激情电影|日韩一区二区三区制服师生中出|动漫五码中文字幕|日韩人妻精品中文字幕专区不卡|成人伦理Av一级一级a片