91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

HugeCTR能夠高效地利用GPU來(lái)進(jìn)行推薦系統(tǒng)的訓(xùn)練

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2022-04-01 09:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. Introduction

HugeCTR 能夠高效地利用 GPU 來(lái)進(jìn)行推薦系統(tǒng)的訓(xùn)練,為了使它還能直接被其他 DL 用戶,比如 TensorFlow 所直接使用,我們開發(fā)了 SparseOperationKit (SOK),來(lái)將 HugeCTR 中的高級(jí)特性封裝為 TensorFlow 可直接調(diào)用的形式,從而幫助用戶在 TensorFlow 中直接使用 HugeCTR 中的高級(jí)特性來(lái)加速他們的推薦系統(tǒng)。

796b3d68-b14e-11ec-aa7f-dac502259ad0.png

圖 1. SOK embedding 工作流程

SOK 以數(shù)據(jù)并行的方式接收輸入數(shù)據(jù),然后在 SOK 內(nèi)部做黑盒式地模型轉(zhuǎn)換,最后將計(jì)算結(jié)果以數(shù)據(jù)并行的方式傳遞給初始 GPU。這種方式可以盡可能少地修改用戶已有的代碼,以更方便、快捷地在多個(gè) GPU 上進(jìn)行擴(kuò)展。

SOK 不僅僅是加速了 TensorFlow 中的算子,而是根據(jù)業(yè)界中的實(shí)際需求提供了對(duì)應(yīng)的新解決方案,比如說(shuō) GPU HashTable。SOK 可以與 TensorFlow 1.15 和 TensorFlow 2.x 兼容使用;既可以使用 TensorFlow 自帶的通信工具,也可以使用 Horovod 等第三方插件來(lái)作為 embedding parameters 的通信工具。

2. TF2 Comparison/Performance

使用 MLPerf 的標(biāo)準(zhǔn)模型 DLRM 來(lái)對(duì) SOK 的性能進(jìn)行測(cè)試。

798ed8f4-b14e-11ec-aa7f-dac502259ad0.png

圖 2. SOK 性能測(cè)試數(shù)據(jù)

相比于 NVIDIA 的 DeepLearning Examples,使用 SOK 可以獲得更快的訓(xùn)練速度以及更高的吞吐量。

3. API

SOK 提供了簡(jiǎn)潔的、類 TensorFlow 的 API;使用 SOK 的方式非常簡(jiǎn)單、直接;讓用戶通過修改幾行代碼就可以使用 SOK。

1. 定義模型結(jié)構(gòu)

79ad3c54-b14e-11ec-aa7f-dac502259ad0.png

左側(cè)是使用 TensorFlow 的 API 來(lái)搭建模型,右側(cè)是使用 SOK 的 API 來(lái)搭建相同的模型。使用 SOK 來(lái)搭建模型的時(shí)候,只需要將 TensorFlow 中的 Embedding Layer 替換為 SOK 對(duì)應(yīng)的 API 即可。

2. 使用 Horovod 來(lái)定義 training loop

79d96892-b14e-11ec-aa7f-dac502259ad0.png

同樣的,左側(cè)是使用 TensorFlow 來(lái)定義 training loop,右側(cè)是使用 SOK 時(shí),training loop 的定義方式??梢钥吹剑褂?SOK 時(shí),只需要對(duì) Embedding Variables 和 Dense Variables 進(jìn)行分別處理即可。其中,Embedding Variables 部分由 SOK 管理,Dense Variables 由 TensorFlow 管理。

3. 使用 tf.distribute.MirroredStrategy 來(lái)定義 training loop

79f46584-b14e-11ec-aa7f-dac502259ad0.png

類似的,還可以使用 TensorFlow 自帶的通信工具來(lái)定義 training loop。

4. 開始訓(xùn)練

7a0c4bae-b14e-11ec-aa7f-dac502259ad0.png

在開始訓(xùn)練過程時(shí),使用 SOK 與使用 TensorFlow 時(shí)所用代碼完全一致。

4. 結(jié)語(yǔ)

SOK 將 HugeCTR 中的高級(jí)特性包裝為 TensorFlow 可以直接使用的模塊,通過修改少數(shù)幾行代碼即可在已有模型代碼中利用上 HugeCTR 的先進(jìn)設(shè)計(jì)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5204

    瀏覽量

    135558
  • SOK
    SOK
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    6474

原文標(biāo)題:Merlin HugeCTR Sparse Operation Kit 系列之一

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    GPU 利用率<30%?這款開源智算云平臺(tái)讓算力不浪費(fèi) 1%

    作為 AI 開發(fā)者,你是否早已受夠這些困境:花數(shù)百萬(wàn)采購(gòu)的 GPU 集群,利用率常年低于 30%,算力閑置如同燒錢;跨 CPU/GPU/NPU 異構(gòu)資源調(diào)度難如登天,模型訓(xùn)練卡在資源分
    的頭像 發(fā)表于 01-26 14:20 ?200次閱讀

    在Ubuntu20.04系統(tǒng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是訓(xùn)練一個(gè)手寫數(shù)字識(shí)
    發(fā)表于 10-22 07:03

    提高RISC-V在Drystone測(cè)試中得分的方法

    速度。 優(yōu)化內(nèi)存系統(tǒng):優(yōu)化內(nèi)存控制器設(shè)計(jì),提高內(nèi)存的讀寫速度、降低延遲,或者增大內(nèi)存帶寬。 優(yōu)化指令集和編譯器:通過優(yōu)化或定制指令集,以及優(yōu)化編譯器來(lái)生成更高效的機(jī)器代碼。 軟件優(yōu)化:對(duì)運(yùn)行的軟件進(jìn)行優(yōu)化
    發(fā)表于 10-21 13:58

    NVIDIA Isaac Lab多GPU多節(jié)點(diǎn)訓(xùn)練指南

    NVIDIA Isaac Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開發(fā),其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,可提供各種物理 AI 功能和由 GPU 驅(qū)動(dòng)的物理仿真,縮小仿真與現(xiàn)實(shí)世界之間的差距。
    的頭像 發(fā)表于 09-23 17:15 ?2434次閱讀
    NVIDIA Isaac Lab多<b class='flag-5'>GPU</b>多節(jié)點(diǎn)<b class='flag-5'>訓(xùn)練</b>指南

    PCIe協(xié)議分析儀能測(cè)試哪些設(shè)備?

    場(chǎng)景:監(jiān)測(cè)GPU與主機(jī)之間的PCIe通信,分析數(shù)據(jù)傳輸效率、延遲和帶寬利用率。 應(yīng)用價(jià)值:優(yōu)化大規(guī)模AI訓(xùn)練任務(wù)的數(shù)據(jù)加載和模型參數(shù)同步,例如在多GPU
    發(fā)表于 07-25 14:09

    aicube的n卡gpu索引該如何添加?

    請(qǐng)問有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經(jīng)安裝了cuda和cudnn,在全局的py里添加了torch,能夠調(diào)用gpu,當(dāng)還是只能看到默認(rèn)的gpu0,顯示不了
    發(fā)表于 07-25 08:18

    如何在Ray分布式計(jì)算框架下集成NVIDIA Nsight Systems進(jìn)行GPU性能分析

    在大語(yǔ)言模型的強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,GPU 性能優(yōu)化至關(guān)重要。隨著模型規(guī)模不斷擴(kuò)大,如何高效地分析和優(yōu)化 GPU 性能成為開發(fā)者面臨的主要挑戰(zhàn)之一。
    的頭像 發(fā)表于 07-23 10:34 ?2430次閱讀
    如何在Ray分布式計(jì)算框架下集成NVIDIA Nsight Systems<b class='flag-5'>進(jìn)行</b><b class='flag-5'>GPU</b>性能分析

    別讓 GPU 故障拖后腿,捷智算GPU維修室來(lái)救場(chǎng)!

    在AI浪潮洶涌的當(dāng)下,GPU已然成為眾多企業(yè)與科研機(jī)構(gòu)的核心生產(chǎn)力。從深度學(xué)習(xí)模型訓(xùn)練,到影視渲染、復(fù)雜科學(xué)計(jì)算,GPU憑借強(qiáng)大并行計(jì)算能力,極大提升運(yùn)算效率。然而,就像高速運(yùn)轉(zhuǎn)的精密儀器易出狀況
    的頭像 發(fā)表于 07-17 18:56 ?1167次閱讀
    別讓 <b class='flag-5'>GPU</b> 故障拖后腿,捷智算<b class='flag-5'>GPU</b>維修室<b class='flag-5'>來(lái)</b>救場(chǎng)!

    利用API提升電商用戶體驗(yàn):個(gè)性化推薦系統(tǒng)

    ? 在當(dāng)今競(jìng)爭(zhēng)激烈的電商環(huán)境中,個(gè)性化推薦系統(tǒng)已成為提升用戶粘性和轉(zhuǎn)化率的核心工具。通過API(Application Programming Interface)集成,電商平臺(tái)能夠高效接入先進(jìn)
    的頭像 發(fā)表于 07-14 14:45 ?616次閱讀
    <b class='flag-5'>利用</b>API提升電商用戶體驗(yàn):個(gè)性化推薦<b class='flag-5'>系統(tǒng)</b>

    SL3075 dcdc65V耐壓 5A電流高效率降壓芯片替換TPS54340

    某些應(yīng)用場(chǎng)景下,可能無(wú)法完全滿足設(shè)計(jì)者的需求。本文將介紹一款能夠高效替換TPS54340的芯片——SL3075,詳細(xì)闡述其特性、優(yōu)勢(shì)及應(yīng)用場(chǎng)景。 SL3075概述SL3075是由深圳市森利威爾電子
    發(fā)表于 07-10 17:25

    Vicor高效電源模塊優(yōu)化自動(dòng)駕駛系統(tǒng)

    低壓(48V)自動(dòng)駕駛電動(dòng)穿梭車配備了先進(jìn)的自動(dòng)駕駛系統(tǒng),能夠在復(fù)雜的城市道路上自動(dòng)行駛。GPU 和傳感器是自動(dòng)駕駛系統(tǒng)的關(guān)鍵組件,依賴高性能的 ATX 電源。這些電源必須緊湊輕便以適
    的頭像 發(fā)表于 05-26 11:29 ?1014次閱讀

    提升AI訓(xùn)練性能:GPU資源優(yōu)化的12個(gè)實(shí)戰(zhàn)技巧

    在人工智能與機(jī)器學(xué)習(xí)技術(shù)迅速發(fā)展的背景下,GPU計(jì)算資源的高效利用已成為關(guān)鍵技術(shù)指標(biāo)。優(yōu)化的GPU資源分配不僅能顯著提升模型訓(xùn)練速度,還能實(shí)
    的頭像 發(fā)表于 05-06 11:17 ?1568次閱讀
    提升AI<b class='flag-5'>訓(xùn)練</b>性能:<b class='flag-5'>GPU</b>資源優(yōu)化的12個(gè)實(shí)戰(zhàn)技巧

    電機(jī)高效再制造在企業(yè)生產(chǎn)中的應(yīng)用

    電機(jī)高效再制造,就是將低效電機(jī)通過重新設(shè)計(jì)、更換零部件等方法,再制造成高效率電機(jī)或適用于特定負(fù)載和工況的系統(tǒng)節(jié)能電機(jī)(變極電機(jī)、變頻電機(jī)、永磁電機(jī)等)。其目的是使再制造后電機(jī)的效率達(dá)到IE2(
    發(fā)表于 04-07 17:31

    利用RAKsmart服務(wù)器托管AI模型訓(xùn)練的優(yōu)勢(shì)

    AI模型訓(xùn)練需要強(qiáng)大的計(jì)算資源、高效的存儲(chǔ)和穩(wěn)定的網(wǎng)絡(luò)支持,這對(duì)服務(wù)器的性能提出了較高要求。而RAKsmart服務(wù)器憑借其核心優(yōu)勢(shì),成為托管AI模型訓(xùn)練的理想選擇。下面,AI部落小編為您具體分享。
    的頭像 發(fā)表于 03-18 10:08 ?717次閱讀

    摩爾線程GPU原生FP8計(jì)算助力AI訓(xùn)練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓(xùn)練策略和高性能算子庫(kù),這兩大框架在國(guó)產(chǎn)全功能GPU上實(shí)現(xiàn)了高效的混合
    的頭像 發(fā)表于 03-17 17:05 ?1545次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計(jì)算助力AI<b class='flag-5'>訓(xùn)練</b>