91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為MLPerf HPC v1.0實(shí)現(xiàn)的選定優(yōu)化

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Sukru Burc Eryilmaz ? 2022-04-02 12:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在 MLPerf HPC v1 . 0 中, NVIDIA 供電系統(tǒng)贏得了五項(xiàng)新的行業(yè)指標(biāo)中的四項(xiàng),這些指標(biāo)主要關(guān)注 HPC 中的人工智能性能。作為一個(gè)全行業(yè)人工智能聯(lián)盟, MLPerf HPC 評估了一套性能基準(zhǔn),涵蓋了廣泛使用的人工智能工作負(fù)載。

在這一輪中,與 MLPerf 0 . 7 的強(qiáng)大擴(kuò)展性結(jié)果相比, NVIDIA 在 CosmoFlow 上的性能提高了 5 倍,在 DeepCAM 上的性能提高了 7 倍。這一強(qiáng)大的表現(xiàn)得益于成熟的 NVIDIA AI 平臺(tái)和全套軟件。

提供豐富多樣的庫、 SDK 、工具、編譯器和探查器,很難知道在正確的情況下何時(shí)何地應(yīng)用正確的資產(chǎn)。這篇文章詳細(xì)介紹了各種場景的工具、技術(shù)和好處,并概述了 CosmoFlow 和 DeepCAM 基準(zhǔn)測試所取得的成果。

我們已經(jīng)為 MLPerf Training v1.0 和 MLPerf Inference v1.1 發(fā)布了類似的指南,推薦用于其他面向基準(zhǔn)測試的案例。

調(diào)整計(jì)劃

我們使用包括 NVIDIA DALI 在內(nèi)的工具對代碼進(jìn)行了優(yōu)化,以加速數(shù)據(jù)處理,以及 CUDA Graphs 減少了小批量延遲,從而有效地?cái)U(kuò)展到 1024 個(gè)或更多 GPU 。我們還應(yīng)用了 NVIDIA SHARP ,通過將一些操作卸載到網(wǎng)絡(luò)交換機(jī)來加速通信。

我們提交的文件中使用的軟件可從 MLPerf repository 獲得。我們定期向 NGC catalog 添加新工具和新版本,這是我們針對預(yù)訓(xùn)練 AI 模型、行業(yè)應(yīng)用程序框架、 GPU 應(yīng)用程序和其他軟件資源的軟件中心。

主要性能優(yōu)化

在本節(jié)中,我們將深入討論為 MLPerf HPC 1 . 0 實(shí)現(xiàn)的選定優(yōu)化。

使用 NVIDIA DALI 庫進(jìn)行數(shù)據(jù)預(yù)處理

在每次迭代之前,從磁盤獲取數(shù)據(jù)并進(jìn)行預(yù)處理。我們從默認(rèn)的數(shù)據(jù)加載器移到了 NVIDIA DALI library 。這為 GPU 提供了優(yōu)化的數(shù)據(jù)加載和預(yù)處理功能。

DALI 庫使用 CPU 和 GPU 的組合,而不是在 CPU 上執(zhí)行數(shù)據(jù)加載和預(yù)處理并將結(jié)果移動(dòng)到 GPU 。這將為即將到來的迭代帶來更有效的數(shù)據(jù)預(yù)處理。優(yōu)化后, CosmoFlow 和 DeepCAM 的速度都顯著加快。 DeepCAM 實(shí)現(xiàn)了超過 50% 的端到端性能提升。

此外, DALI 還為即將到來的迭代提供異步數(shù)據(jù)加載,以消除關(guān)鍵路徑的 I / O 開銷。啟用此模式后,我們看到 DeepCAM 額外增加了 70% 。

將通道應(yīng)用于最后的 NHWC 布局

默認(rèn)情況下, DeepCAM 基準(zhǔn)使用 NCHW 布局作為激活張量。我們使用 PyTorch 的通道 last ( NHWC 布局)支持來避免額外的轉(zhuǎn)置內(nèi)核。 cuDNN 中的大多數(shù)卷積核都針對 NHWC 布局進(jìn)行了優(yōu)化。

因此,在框架中使用 NCHW 布局需要額外的轉(zhuǎn)置內(nèi)核,以便從 NCHW 轉(zhuǎn)換到 NHWC ,從而實(shí)現(xiàn)高效的卷積運(yùn)算。在框架中使用 NHWC 布局避免了這些冗余拷貝,并在 DeepCAM 模型上實(shí)現(xiàn)了約 10% 的性能提升。 NHWC support 在 PyTorch 框架中以 beta 模式提供。

CUDA 圖

CUDA 圖形允許啟動(dòng)由一系列內(nèi)核組成的單個(gè)圖形,而不是單獨(dú)啟動(dòng)從 CPU 到 GPU 的每個(gè)內(nèi)核。此功能最大限度地減少了 CPU 在每次迭代中的參與,通過最大限度地減少延遲(尤其是在強(qiáng)擴(kuò)展場景中)顯著提高了性能。

MXNet 先前添加了 CUDA 圖形支持,而 CUDA Graphs support 最近也添加到了 PyTorch 。 PyTorch 中的 CUDA 圖形支持使 DeepCAM 在強(qiáng)擴(kuò)展場景中的端到端性能提高了約 15% ,這對延遲和抖動(dòng)最為敏感。

使用 MPI 進(jìn)行高效的數(shù)據(jù)暫存

在伸縮性較弱的情況下,分布式文件系統(tǒng)的性能無法滿足 GPU 的需求。為了增加總存儲(chǔ)帶寬,我們將數(shù)據(jù)集放入 DeepCAM 的節(jié)點(diǎn)本地 NVME 內(nèi)存中。

由于各個(gè)實(shí)例都很小,我們可以靜態(tài)地分割數(shù)據(jù),因此每個(gè)節(jié)點(diǎn)只需要準(zhǔn)備完整數(shù)據(jù)集的一小部分。該解決方案如圖 1 所示。這里,我們用 M 表示實(shí)例數(shù),用 N 表示每個(gè)實(shí)例的秩數(shù)。

圖 1 :將列組聚集到碎片中。

請注意,跨實(shí)例,具有相同列組 ID 的每個(gè)列組使用相同的數(shù)據(jù)碎片。這意味著在本機(jī)上,每個(gè)數(shù)據(jù)碎片被讀取 M 次。為了減輕文件系統(tǒng)的壓力,我們創(chuàng)建了與實(shí)例正交的數(shù)據(jù)子硬盤,如圖 2 所示。

圖 2 :亞硬化的演示。

這樣,每個(gè)文件從全局文件系統(tǒng)只讀一次。最后,每個(gè)實(shí)例都需要接收所有數(shù)據(jù)。為此,我們創(chuàng)建了與實(shí)例內(nèi)通訊器正交的新 MPI 通訊器,也就是說,我們將具有相同列組 id 的所有實(shí)例列組組合到相同的實(shí)例間通訊器中。然后,我們可以使用 MPI allgather 將各個(gè)子硬盤組合成原始碎片的 M 個(gè)副本。

圖 3 :子硬塊的分布。

我們不按順序執(zhí)行這些步驟,而是使用批處理來創(chuàng)建一個(gè)管道,該管道與子硬盤的數(shù)據(jù)讀取和分發(fā)重疊。為了提高讀寫性能,我們進(jìn)一步實(shí)現(xiàn)了一個(gè)小型輔助工具,它使用 O _ DIRECT 來提高 I / O 帶寬。

優(yōu)化使 DeepCAM 基準(zhǔn)測試的端到端加速比超過 2 倍。這在提交文件 repository 中提供。

損失函數(shù)的混合編程

使用命令式編程可以靈活地定義和運(yùn)行模型,這樣定義一個(gè)機(jī)器學(xué)習(xí)模型就像寫一個(gè)python程序。與此相對的是符號(hào)式編程,它會(huì)先定義計(jì)算過程,然后再執(zhí)行。這種編程方法允許執(zhí)行引擎進(jìn)行各種優(yōu)化,但丟失了命令式方法的靈活性。

MXNet 框架采用了合并這兩種方法的混合式編程。命令式定義的計(jì)算可以被編譯成符號(hào)式,并在可能時(shí)進(jìn)行優(yōu)化。CosmoFlow 將模型混合式編程進(jìn)行了擴(kuò)展,把損失函數(shù)也包含進(jìn)來。

Hybridization of a larger scope of the model allows realizing further fusion opportunities.

圖 4 :損失函數(shù)的模型混合式。

這允許將損耗計(jì)算中的元素操作與 CosmoFlow 模型的縮放激活輸出進(jìn)行融合,從而減少總體迭代延遲。優(yōu)化使 CosmoFlow 的端到端性能提高了近 5% 。

節(jié)間均采用夏普處理,降低了集體成本

SHARP 允許將集合操作從 CPU 卸載到節(jié)間網(wǎng)絡(luò)結(jié)構(gòu)中的交換機(jī)。這有效地將 allreduce 操作的 InfiniBand 網(wǎng)絡(luò)的節(jié)間帶寬增加了一倍。這種優(yōu)化可使 MLPerf HPC 基準(zhǔn)測試的性能提高高達(dá) 5% ,特別是在強(qiáng)擴(kuò)展場景中。

繼續(xù)使用 MLPerf HPC

科學(xué)家們正在加速取得突破,部分原因是人工智能和高性能計(jì)算相結(jié)合,能夠比傳統(tǒng)方法更快、更準(zhǔn)確地提供洞察力。

MLPerf HPC v1 . 0 反映了超級(jí)計(jì)算行業(yè)對客觀、同行評審的方法的需求,以測量和比較與 HPC 相關(guān)用例的 AI 培訓(xùn)性能。在這一輪中, NVIDIA 計(jì)算平臺(tái)通過損壞所有三個(gè)性能基準(zhǔn)來證明清晰的領(lǐng)導(dǎo),同時(shí)也證明了兩個(gè)吞吐量測量的最高效率。

關(guān)于作者

Sukru Burc Eryilmaz 是 NVIDIA 計(jì)算機(jī)體系結(jié)構(gòu)的高級(jí)架構(gòu)師,他致力于在單節(jié)點(diǎn)和超級(jí)計(jì)算機(jī)規(guī)模上改進(jìn)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的端到端性能。他從斯坦福大學(xué)獲得博士學(xué)位,并從比爾肯特大學(xué)獲得學(xué)士學(xué)位。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5598

    瀏覽量

    109804
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7809

    瀏覽量

    93234
  • MLPerf
    +關(guān)注

    關(guān)注

    0

    文章

    37

    瀏覽量

    972
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    耐能人臉識(shí)別模塊榮獲海外權(quán)威認(rèn)證

      近日,Kneron耐能“人臉識(shí)別模塊 v1.0”(Face Recognition Module v1.0)在由國際權(quán)威認(rèn)證機(jī)構(gòu)Fime執(zhí)行的NVLAP(National Voluntary
    的頭像 發(fā)表于 02-05 17:36 ?1647次閱讀

    MAX9100/MAX9101:+1.0V 微功耗 SOT23 比較器的詳細(xì)解析

    /MAX9101 +1.0V 微功耗 SOT23 比較器,看看它有哪些特性和應(yīng)用場景。 文件下載: MAX9100.pdf 一、器件概述 MAX9100/MAX9101 微功耗比較器是單電池系統(tǒng)優(yōu)化
    的頭像 發(fā)表于 01-08 14:00 ?288次閱讀

    探索XMC1400 Drive Card V1.0:電機(jī)控制的理想之選

    探索XMC1400 Drive Card V1.0:電機(jī)控制的理想之選 在電機(jī)控制應(yīng)用領(lǐng)域,選擇一款合適的開發(fā)板至關(guān)重要。今天,我們就來深入了解一下 Infineon
    的頭像 發(fā)表于 12-19 15:50 ?893次閱讀

    RISC-V HPC新標(biāo)桿Sophon SG2044深度評估:支持RVV v1.0適配GCC 15.2,多核性能潛力巨大!

    在RISC-V架構(gòu)的普及浪潮中,嵌入式領(lǐng)域的成功早已眾人皆知,但高性能計(jì)算(HPC)始終是其難以突破的“高地”。算能SOPHONSG2044的出現(xiàn)打破了僵局。國際權(quán)威技術(shù)媒體發(fā)布的深度評測《IsRISC-VreadyforHighPerformanceComputing?
    的頭像 發(fā)表于 10-16 13:23 ?1483次閱讀
    RISC-<b class='flag-5'>V</b> <b class='flag-5'>HPC</b>新標(biāo)桿Sophon SG2044深度評估:支持RVV <b class='flag-5'>v1.0</b>適配GCC 15.2,多核性能潛力巨大!

    摩爾線程發(fā)布大模型訓(xùn)練仿真工具SimuMax v1.0

    近日,摩爾線程正式發(fā)布并開源大模型分布式訓(xùn)練仿真工具SimuMax 1.0版本。該版本在顯存和性能仿真精度上實(shí)現(xiàn)突破性提升,同時(shí)引入多項(xiàng)關(guān)鍵功能,進(jìn)一步增強(qiáng)了模型兼容性、靈活性與用戶體驗(yàn)。
    的頭像 發(fā)表于 09-11 18:19 ?3723次閱讀
    摩爾線程發(fā)布大模型訓(xùn)練仿真工具SimuMax <b class='flag-5'>v1.0</b>

    Andes晶心科技推出AutoOpTune v1.0提升開發(fā)效率

    Andes AutoOpTune v1.0 可自動(dòng)探索并選擇優(yōu)化編譯程序選項(xiàng),協(xié)助軟件開發(fā)人員在效能與程序代碼大小間取得最佳平衡,加速整體開發(fā)流程。
    的頭像 發(fā)表于 08-18 10:23 ?1189次閱讀

    請問是否可以將 Nu-Link2-Me V1.0 的固件升級(jí)到 V2.0?

    我目前有一個(gè) NuMaker-M251KG V1.1 板,我正在嘗試將其連接到 Crossworks for ARM IDE 并運(yùn)行它。但是,它沒有連接。 NuMaker-M433SE V1.0
    發(fā)表于 08-18 08:09

    瑞芯微RV1126&RV1109替換RV1126B-P說明_V1.0

    瑞芯微RV1126&RV1109替換RV1126B-P說明_V1.0目前RV1109/1126已停產(chǎn)可提供新版本樣品與技術(shù)支持
    發(fā)表于 08-11 12:02 ?2次下載

    OAH0428 V1.0英文規(guī)格書

    電子發(fā)燒友網(wǎng)站提供《OAH0428 V1.0英文規(guī)格書.pdf》資料免費(fèi)下載
    發(fā)表于 08-06 15:52 ?21次下載

    RA4M2_Sensor-V1.0 原理圖

    RA4M2_Sensor-V1.0原理圖
    發(fā)表于 07-21 14:40 ?15次下載

    匠芯創(chuàng)D133CBS RISC-V KunLun Pi V1.0開發(fā)板開發(fā)資料

    、豐富的屏接口,支持工業(yè)寬溫,具有高可靠性、高開放性,可廣泛應(yīng)用于工業(yè) HMI、 網(wǎng)關(guān)、串口屏等泛工業(yè)和智慧家居領(lǐng)域。 D133CBS RISC-V KunLun Pi V1.0 是一款基于 D13x
    發(fā)表于 07-15 17:27

    新銳漢云室內(nèi)外融合導(dǎo)航系統(tǒng)V1.0上線

    導(dǎo)航系統(tǒng)
    jf_46241217
    發(fā)布于 :2025年06月25日 10:14:24

    深控?cái)?shù)據(jù)平臺(tái)V1.0發(fā)布!以IoT之力重塑工廠“數(shù)據(jù)脈絡(luò)”

    自主研發(fā)的“深控?cái)?shù)據(jù)平臺(tái)V1.0”(軟著登記號(hào):XXXXXXXX),以IoT技術(shù)核心,打造“全域感知-智能分析-精準(zhǔn)控制”的一體化平臺(tái)。
    的頭像 發(fā)表于 05-28 14:56 ?623次閱讀

    CR6520B應(yīng)用指導(dǎo)書 V1.0

    電子發(fā)燒友網(wǎng)站提供《CR6520B應(yīng)用指導(dǎo)書 V1.0.pdf》資料免費(fèi)下載
    發(fā)表于 04-22 15:52 ?0次下載

    中軟國際推出昇騰金融AI解決方案和一體機(jī)v1.0

    近日,中軟國際重磅推出昇騰金融AI解決方案和一體機(jī)v1.0,該方案基于昇騰AI基礎(chǔ)軟硬件平臺(tái),完成并通過昇騰原生技術(shù)認(rèn)證,深度對接DeepSeek大模型,金融行業(yè)帶來了創(chuàng)新的數(shù)字化轉(zhuǎn)型思路,旨在
    的頭像 發(fā)表于 03-28 17:05 ?1318次閱讀