91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

剖析NVIDIA DPU如何在HPC 集群上加速科學(xué)計(jì)算應(yīng)用

GLeX_murata_eet ? 來(lái)源:NVIDIA英偉達(dá)中國(guó) ? 作者:NVIDIA英偉達(dá)中國(guó) ? 2021-08-02 15:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

高性能計(jì)算(HPC)和人工智能已經(jīng)將超級(jí)計(jì)算機(jī)推向了廣泛的商業(yè)應(yīng)用領(lǐng)域,成為其主要的數(shù)據(jù)處理引擎,助力于研究探索、科學(xué)發(fā)現(xiàn)和產(chǎn)品開(kāi)發(fā)等。

這些系統(tǒng)可以進(jìn)行復(fù)雜的模擬,開(kāi)啟通過(guò)軟件編寫(xiě)軟件的人工智能新時(shí)代。

超級(jí)計(jì)算能力的領(lǐng)先意味著科學(xué)和創(chuàng)新能力的領(lǐng)先,這也是為什么許多政府、研究機(jī)構(gòu)和企業(yè)愿意投資構(gòu)建更快、更強(qiáng)大的超級(jí)計(jì)算平臺(tái)的原因。

追求超級(jí)計(jì)算系統(tǒng)最高的性能來(lái)達(dá)到最佳的效率,傳統(tǒng)意義上與現(xiàn)代云計(jì)算系統(tǒng)追求的安全、多租戶架構(gòu)完全不一樣。

云原生超級(jí)計(jì)算平臺(tái)首次提供了一個(gè)兩全其美的方案,將峰值性能、集群效率與當(dāng)代流行的基于零信任的安全隔離和多租戶等特征集于一體。

邁向這種新架構(gòu)的關(guān)鍵就是 NVIDIA 的 BlueField DPU(數(shù)據(jù)處理器)。DPU 是一個(gè)集數(shù)據(jù)中心于單芯片的平臺(tái),為每個(gè)超級(jí)計(jì)算節(jié)點(diǎn)注入了兩種新功能:

基礎(chǔ)設(shè)施的控制平面處理器 – 保護(hù)用戶訪問(wèn)的安全、加速存儲(chǔ)訪問(wèn)、加速網(wǎng)絡(luò)通信和對(duì)于計(jì)算節(jié)點(diǎn)的全生命周期編排,卸載主計(jì)算處理器的基礎(chǔ)設(shè)施操作,實(shí)現(xiàn)裸機(jī)多租戶。

通過(guò)硬件加速的方式將數(shù)據(jù)通路隔離出來(lái),保障線速 – 實(shí)現(xiàn)裸機(jī)性能。

HPC 和 AI 通信框架和庫(kù)對(duì)延遲和帶寬都很敏感,它們?cè)趹?yīng)用性能方面起著關(guān)鍵作用。將通信庫(kù)從主機(jī) CPUGPU 卸載到 BlueField DPU ,為通信和計(jì)算的并行處理實(shí)現(xiàn)了最大程度的重疊,它還減少了操作系統(tǒng)的抖動(dòng)帶來(lái)的負(fù)面影響,顯著提高了應(yīng)用性能。

云原生超級(jí)計(jì)算機(jī)架構(gòu)的開(kāi)發(fā)是基于開(kāi)放社區(qū)而進(jìn)行的,包括了商業(yè)公司、學(xué)術(shù)組織和政府機(jī)構(gòu)等。這個(gè)不斷增長(zhǎng)的社區(qū)對(duì)于開(kāi)發(fā)下一代超級(jí)計(jì)算至關(guān)重要。

在本文中分享的一個(gè)例子是 MVAPICH2-DPU 通信庫(kù),由 X-ScaleSolutions 公司設(shè)計(jì)和開(kāi)發(fā)。MVAPICH2-DPU 庫(kù)實(shí)現(xiàn)了了對(duì)于標(biāo)準(zhǔn) MPI(消息傳遞接口)的無(wú)阻塞集合通信的卸載。

本文將介紹這種無(wú)阻塞集合通信卸載的基本原理,以及最終用戶如何使用 MVAPICH2-DPU MPI 庫(kù)來(lái)加速科學(xué)計(jì)算應(yīng)用的執(zhí)行,特別是針對(duì)于大規(guī)模的的無(wú)阻塞 all-to-all 通信。

BlueField DPU

關(guān)于 BlueField DPU 的架構(gòu)及其如何與主機(jī)計(jì)算平臺(tái)互連的介紹, DPU 上的 ConnectX-6 網(wǎng)卡可以提供 InfiniBand 網(wǎng)絡(luò)接口。此外,它還有一組 Arm 核, BlueField-2 DPU 包含一組 8 個(gè) 2.0 GHz 的 Arm 核, Arm 處理器集成了 16GB 的共享內(nèi)存。

MVAPICH2-DPU MPI 通信庫(kù)是 MVAPICH2 MPI 通信庫(kù)的分支,該通信庫(kù)專(zhuān)門(mén)為在 InfiniBand 網(wǎng)絡(luò)中充分發(fā)揮 BlueField DPU 的潛力而進(jìn)行了優(yōu)化。

最新的 MVAPICH2-DPU 2021 。 06 版本具有以下功能:

基于 MVAPICH2 2.3.6 版本,符合 MPI 3.1 標(biāo)準(zhǔn)

支持 MVAPICH2 2.3.6 版本 提供的所有功能

通過(guò)這個(gè)新框架可以將無(wú)阻塞集合通信(Nonblocking Collectives)卸載到 DPU

卸載無(wú)阻塞 Alltoall (MPI 的 Ialltoall)到 DPU

100%的計(jì)算與 MPI_Ialltoall 無(wú)阻塞集合通信的重疊使用 MPI Ialltoall 無(wú)阻塞集合通信加速科學(xué)計(jì)算應(yīng)用

OSU(俄亥俄州立大學(xué))做的

Micro-Benchmark 測(cè)試用例

OSU的MVAPICH2-DPU MPI 軟件包內(nèi)置了OSU MPI Micro-Benchmarks。OMB 基準(zhǔn)測(cè)試套件包含了無(wú)阻塞集合通信操作的基準(zhǔn)測(cè)試,這些基準(zhǔn)測(cè)試旨在評(píng)估無(wú)阻塞 MPI 集合通信和計(jì)算之間的重疊能力。

OMB 測(cè)試包中的無(wú)阻塞集合通信測(cè)試基準(zhǔn)可以用來(lái)評(píng)估以下指標(biāo):

重疊功能

采用無(wú)阻塞集合通信與計(jì)算步驟重疊運(yùn)行時(shí)的總執(zhí)行時(shí)間

為此,我們?cè)趪?guó)際高性能計(jì)算和人工智能咨詢委員會(huì)(HPC-AI Advisory Council)的一臺(tái) 32 節(jié)點(diǎn)的集群上運(yùn)行了完整 OMB 測(cè)試這臺(tái)集群采用了32 個(gè)HDR 200Gb/s InfiniBand BlueField DPU 互連在一起,每個(gè)主機(jī)節(jié)點(diǎn)有兩個(gè) 16 核、2.60 GHz 的 Intel Xeon E5-2697A V4 CPU ,每個(gè) BluefFeld-2 DPU 有 8 個(gè)2.0 GHz 的 Arm 核和 16GB 內(nèi)存。

分別運(yùn)行 512 個(gè)MPI 進(jìn)程( 32 個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)運(yùn)行 16 個(gè)進(jìn)程(PPN:Process Per Node )和 1024 個(gè)MPI 進(jìn)程(32 個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)運(yùn)行 32 個(gè) PPN)的 MPI的 Ialltoall 無(wú)阻塞集合通信的測(cè)試結(jié)果。

隨著消息(Message)大小的增加, MVAPICH2- DPU 庫(kù)表現(xiàn)出了計(jì)算和 MPI Ialltoall 無(wú)阻塞集合通信之間的完全(100%)重疊。相比之下,沒(méi)有 DPU 來(lái)卸載的 MVAPICH2 默認(rèn)通信庫(kù),僅僅可以在計(jì)算和 MPI Ialltoall 無(wú)阻塞集合通信之間發(fā)生很少的重疊。

當(dāng) MPI 應(yīng)用程序中的計(jì)算步驟與 MPI Ialltoall 無(wú)阻塞集合通信進(jìn)行重疊操作時(shí), MVAPICH2-DPU MPI 庫(kù)在程序的總體執(zhí)行時(shí)間上體現(xiàn)出了顯著的性能優(yōu)勢(shì)。

其原因就是因?yàn)?在主機(jī)上的 Xeon CPU 核在計(jì)算時(shí),DPU 中的 Arm 核可以同時(shí)在執(zhí)行無(wú)阻塞 MPI all-to-all 通信,實(shí)現(xiàn)了計(jì)算和通信的高度重疊。

與標(biāo)準(zhǔn)的 MVAPICH2 MPI 庫(kù)相比, MVAPICH2-DPU MPI 庫(kù)可以提供高達(dá) 23% 的性能優(yōu)勢(shì)。這個(gè) OMB-MPI_Ialltoall 測(cè)試涵蓋了在 32 節(jié)點(diǎn)上不同消息大小和 不同 PPN 的場(chǎng)景。

加速 P3DFFT 應(yīng)用程序內(nèi)核

P3DFFT 是一種常見(jiàn)的 MPI 內(nèi)核,被用于許多使用快速傅立葉變換( FFT )的終端應(yīng)用。P3DFFT 的開(kāi)發(fā)人員專(zhuān)門(mén)設(shè)計(jì)了一個(gè) MPI 內(nèi)核版本來(lái)支持無(wú)阻塞 all-to-all 集合通信和計(jì)算步驟的最大化重疊操作。

我們?cè)贖PC-AI Advisory Council的 32 節(jié)點(diǎn)集群上對(duì) P3DFFT MPI 內(nèi)核的增強(qiáng)版本通過(guò)MVAPICH2-DPU MPI 庫(kù)進(jìn)行了評(píng)估。從圖 4 可以看到 MVAPICH2-DPU MPI 庫(kù)將 P3DFFT 應(yīng)用內(nèi)核的總體執(zhí)行時(shí)間減少了 21% ,涵蓋了各種大小的網(wǎng)格和PPN 。

概括

NVIDIA DPU 架構(gòu)提供了新的功能,可以將各種中間件的功能卸載到 DPU 上的可編程 Arm 核上。為了能利用這些功能來(lái)加速科學(xué)應(yīng)用,必須重新設(shè)計(jì) MPI 通信庫(kù)。

MVAPICH2-DPU MPI 庫(kù)是利用到 DPU 的這種功能的先行者之一。最初版本的可以卸載MPI_Ialltoall 無(wú)阻塞集合通信的MVAPICH2-DPU 通信庫(kù),展示了計(jì)算和無(wú)阻塞 alltoall 集合通信的之間的 100% 重疊。在運(yùn)行 1024 個(gè)MPI進(jìn)程時(shí),它可以將 P3DFFT 應(yīng)用內(nèi)核的執(zhí)行時(shí)間縮短 21% 。

這項(xiàng)研究證明了使用 MVAPICH2-DPU MPI 通信庫(kù)的 DPU 架構(gòu)具有很強(qiáng)的 ROI 。

隨著 DPU 架構(gòu)的不斷進(jìn)步,越來(lái)越多的面向其它 MPI 操作的卸載功能將隨著新的版本逐漸發(fā)布,并為加速云原生超級(jí)計(jì)算系統(tǒng)上的科學(xué)應(yīng)用發(fā)揮重要作用。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5598

    瀏覽量

    109803

原文標(biāo)題:NVIDIA DPU在HPC 集群上加速科學(xué)計(jì)算應(yīng)用

文章出處:【微信號(hào):murata-eetrend,微信公眾號(hào):murata-eetrend】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    生命科學(xué)領(lǐng)先企業(yè)采用 NVIDIA BioNeMo 平臺(tái)加速 AI 驅(qū)動(dòng)的藥物研發(fā)

    新聞?wù)?l 禮來(lái)與 NVIDIA 宣布成立 AI 聯(lián)合創(chuàng)新實(shí)驗(yàn)室以應(yīng)對(duì)藥物研發(fā)挑戰(zhàn)。 l NVIDIA 攜手賽默飛打造自主實(shí)驗(yàn)室基礎(chǔ)設(shè)施,加速可規(guī)模化的科學(xué)發(fā)現(xiàn)。 l Chai
    的頭像 發(fā)表于 01-14 11:40 ?480次閱讀
    生命<b class='flag-5'>科學(xué)</b>領(lǐng)先企業(yè)采用 <b class='flag-5'>NVIDIA</b> BioNeMo 平臺(tái)<b class='flag-5'>加速</b> AI 驅(qū)動(dòng)的藥物研發(fā)

    何在DGX Spark運(yùn)行NVIDIA Omniverse

    首先感謝 Vigor 同學(xué)第一時(shí)間的分享,以下是具體如何在 DGX Spark 運(yùn)行 Omniverse 的方法。
    的頭像 發(fā)表于 12-17 10:13 ?638次閱讀
    如<b class='flag-5'>何在</b>DGX Spark<b class='flag-5'>上</b>運(yùn)行<b class='flag-5'>NVIDIA</b> Omniverse

    NVIDIA在ISC 2025分享最新超級(jí)計(jì)算進(jìn)展

    NVIDIA DGX Spark 到 NVIDIA BlueField-4 DPU,新一代網(wǎng)絡(luò)和量子技術(shù)實(shí)現(xiàn)了飛躍。在 SC25 展示的加速
    的頭像 發(fā)表于 11-25 10:59 ?918次閱讀
    <b class='flag-5'>NVIDIA</b>在ISC 2025分享最新超級(jí)<b class='flag-5'>計(jì)算</b>進(jìn)展

    NVIDIA推出全新BlueField-4 DPU

    全新 NVIDIA BlueField DPU 具有 800Gb/s 的吞吐量,其集成的 NVIDIA ConnectX-9 SuperNIC 和 NVIDIA DOCA 微服務(wù)為 A
    的頭像 發(fā)表于 11-03 14:48 ?995次閱讀

    基于NVIDIA BlueField DPU的5G UPF數(shù)據(jù)面加速方案

    在第三屆 NVIDIA DPU 黑客松競(jìng)賽中,我們見(jiàn)證了開(kāi)發(fā)者與 NVIDIA 網(wǎng)絡(luò)技術(shù)的深度碰撞。在 23 支參賽隊(duì)伍中,有 5 支隊(duì)伍脫穎而出,展現(xiàn)了在 AI 網(wǎng)絡(luò)、存儲(chǔ)和安全等領(lǐng)域的創(chuàng)新突破。
    的頭像 發(fā)表于 09-04 11:26 ?1223次閱讀

    利用NVIDIA DPU重塑網(wǎng)絡(luò)安全格局

    在第三屆 NVIDIA DPU 黑客松競(jìng)賽中,我們見(jiàn)證了開(kāi)發(fā)者與 NVIDIA 網(wǎng)絡(luò)技術(shù)的深度碰撞。在 23 支參賽隊(duì)伍中,有 5 支隊(duì)伍脫穎而出,展現(xiàn)了在 AI 網(wǎng)絡(luò)、存儲(chǔ)和安全等領(lǐng)域的創(chuàng)新突破。
    的頭像 發(fā)表于 08-20 14:31 ?1353次閱讀

    NVIDIA驅(qū)動(dòng)的現(xiàn)代超級(jí)計(jì)算機(jī)如何突破速度極限并推動(dòng)科學(xué)發(fā)展

    ,研究人員用個(gè)人電腦構(gòu)建了強(qiáng)大的集群,甚至改造游戲顯卡,把它們用于科學(xué)研究。 當(dāng)今的高性能計(jì)算系統(tǒng)專(zhuān)為高速計(jì)算而設(shè)計(jì),其中許多都采用了 NVIDIA
    的頭像 發(fā)表于 06-26 19:39 ?1273次閱讀
    <b class='flag-5'>NVIDIA</b>驅(qū)動(dòng)的現(xiàn)代超級(jí)<b class='flag-5'>計(jì)算</b>機(jī)如何突破速度極限并推動(dòng)<b class='flag-5'>科學(xué)</b>發(fā)展

    高性能計(jì)算集群在AI領(lǐng)域的應(yīng)用前景

    隨著人工智能技術(shù)的飛速發(fā)展,高性能計(jì)算集群HPC)在AI領(lǐng)域的應(yīng)用前景日益受到關(guān)注。HPC提供的計(jì)算能力與AI的智能分析能力相結(jié)合,為解決
    的頭像 發(fā)表于 06-23 13:07 ?1309次閱讀
    高性能<b class='flag-5'>計(jì)算</b><b class='flag-5'>集群</b>在AI領(lǐng)域的應(yīng)用前景

    第三屆NVIDIA DPU黑客松開(kāi)啟報(bào)名

    第三屆 NVIDIA DPU 中國(guó)虛擬黑客松(Hackathon)將于 6 月 28 日 - 6 月 30 日正式開(kāi)啟!作為備受廣大開(kāi)發(fā)者期待的年度賽事,它將提供與 NVIDIA 加速
    的頭像 發(fā)表于 05-27 10:16 ?906次閱讀

    何在基于Arm Neoverse平臺(tái)的CPU構(gòu)建分布式Kubernetes集群

    在本文中,我們將以 X(原 Twitter)為例,演示如何在基于 Arm Neoverse 平臺(tái)的 CPU 構(gòu)建分布式 Kubernetes 集群,以根據(jù)推文實(shí)時(shí)監(jiān)控情緒變化。如此一來(lái),你可以充分利用 Arm Neoverse
    的頭像 發(fā)表于 03-25 15:58 ?843次閱讀
    如<b class='flag-5'>何在</b>基于Arm Neoverse平臺(tái)的CPU<b class='flag-5'>上</b>構(gòu)建分布式Kubernetes<b class='flag-5'>集群</b>

    使用NVIDIA CUDA-X庫(kù)加速科學(xué)和工程發(fā)展

    NVIDIA GTC 全球 AI 大會(huì)上宣布,開(kāi)發(fā)者現(xiàn)在可以通過(guò) CUDA-X 與新一代超級(jí)芯片架構(gòu)的協(xié)同,實(shí)現(xiàn) CPU 和 GPU 資源間深度自動(dòng)化整合與調(diào)度,相較于傳統(tǒng)加速計(jì)算架構(gòu),該技術(shù)可使
    的頭像 發(fā)表于 03-25 15:11 ?1545次閱讀

    Cadence 利用 NVIDIA Grace Blackwell 加速AI驅(qū)動(dòng)的工程設(shè)計(jì)和科學(xué)應(yīng)用

    融合設(shè)計(jì)專(zhuān)業(yè)知識(shí)與加速計(jì)算,推動(dòng)科技創(chuàng)新、實(shí)現(xiàn)能效和工程生產(chǎn)力方面的突破性進(jìn)展,引領(lǐng)全球生活新范式 內(nèi)容提要 ●?Cadence 借助 NVIDIA 最新 Blackwell 系統(tǒng),將求解器的速度
    的頭像 發(fā)表于 03-24 10:14 ?1425次閱讀

    NVIDIA GTC2025 亮點(diǎn) NVIDIA推出 DGX Spark個(gè)人AI計(jì)算機(jī)

    臺(tái)式超級(jí)計(jì)算機(jī)由 NVIDIA Grace Blackwell 驅(qū)動(dòng),為開(kāi)發(fā)者、研究人員和數(shù)據(jù)科學(xué)家提供加速 AI 功能;系統(tǒng)由頭部計(jì)算機(jī)制
    的頭像 發(fā)表于 03-20 18:59 ?1645次閱讀
    <b class='flag-5'>NVIDIA</b> GTC2025 亮點(diǎn)  <b class='flag-5'>NVIDIA</b>推出 DGX Spark個(gè)人AI<b class='flag-5'>計(jì)算</b>機(jī)

    NVIDIA 宣布推出 DGX Spark 個(gè)人 AI 計(jì)算機(jī)

    臺(tái)式超級(jí)計(jì)算機(jī)由 NVIDIA Grace Blackwell 驅(qū)動(dòng),為開(kāi)發(fā)者、研究人員和數(shù)據(jù)科學(xué)家提供加速 AI 功能;系統(tǒng)由頭部計(jì)算機(jī)制
    發(fā)表于 03-19 09:59 ?792次閱讀
       <b class='flag-5'>NVIDIA</b> 宣布推出 DGX Spark 個(gè)人 AI <b class='flag-5'>計(jì)算</b>機(jī)

    超級(jí)計(jì)算HPC 之間的界限日趨模糊

    難以區(qū)分,這推動(dòng)了商業(yè)和科學(xué)應(yīng)用性能的巨大提升,也給兩者帶來(lái)了類(lèi)似的挑戰(zhàn)。雖然超級(jí)計(jì)算和高性能計(jì)算(HPC)的目標(biāo)一直很相似(超快處理速度),但它們所服務(wù)的市場(chǎng)卻截
    的頭像 發(fā)表于 03-17 10:33 ?1034次閱讀
    超級(jí)<b class='flag-5'>計(jì)算</b>與 <b class='flag-5'>HPC</b> 之間的界限日趨模糊