91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通過全棧創(chuàng)新推動(dòng)高性能計(jì)算

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-06-21 15:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

高性能計(jì)算(HPC)已成為科學(xué)發(fā)現(xiàn)的基本工具。

無論是發(fā)現(xiàn)新的拯救生命的藥物,對(duì)抗氣候變化,還是創(chuàng)建精確的世界模擬,這些解決方案都需要巨大且快速增長的處理能力。它們?cè)絹碓匠鰝鹘y(tǒng)計(jì)算方法的范圍。

這就是為什么業(yè)界接受 NVIDIA GPU加速計(jì)算的原因。與人工智能相結(jié)合,它為科學(xué)進(jìn)步帶來了性能上百萬倍的飛躍。如今,2700個(gè)應(yīng)用程序可以從 NVIDIA GPU 的加速中受益,而且這個(gè)數(shù)字在不斷增長的300萬開發(fā)者社區(qū)的支持下繼續(xù)上升。

HPC 應(yīng)用程序性能改進(jìn)

要在整個(gè) HPC 應(yīng)用程序范圍內(nèi)實(shí)現(xiàn)數(shù)倍的加速,需要在堆棧的各個(gè)級(jí)別進(jìn)行不懈的創(chuàng)新。這從芯片和系統(tǒng)開始,一直到應(yīng)用程序框架本身。

NVIDIA 平臺(tái)每年都在繼續(xù)提供顯著的性能改進(jìn),在體系結(jié)構(gòu)和整個(gè) NVIDIA 軟件堆棧方面都取得了不懈的進(jìn)步。與六年前發(fā)布的 P100 相比, H100 Tensor Core GPU 預(yù)計(jì)性能將提高 26 倍,比摩爾定律快 3 倍多。

pYYBAGKxbzWACbucAAB-hWVUDoU496.png

圖 1 NVIDIA HPC + AI 平臺(tái)性能從 P100 到 H100

圖 2 NVIDIA HPC SDK 為每個(gè)功能提供了開發(fā)人員資產(chǎn)。

NVIDIA 平臺(tái)的核心是功能豐富且高性能的軟件堆棧。為了促進(jìn) GPU 在最廣泛的 HPC 應(yīng)用中的加速,該平臺(tái)包括 NVIDIA HPC SDK 。 SDK 提供了無與倫比的開發(fā)人員靈活性,支持使用標(biāo)準(zhǔn)語言、指令和 CUDA 創(chuàng)建和移植 GPU 加速的應(yīng)用程序。

NVIDIA HPC SDK 的強(qiáng)大功能在于一整套高度優(yōu)化的 GPU 加速數(shù)學(xué)庫 ,使您能夠充分發(fā)揮 NVIDIA GPU 的性能潛力。為了獲得最佳的多 GPU 和多節(jié)點(diǎn)性能, NVIDIA HPC SDK 還提供了功能強(qiáng)大的通信庫:

NVSHMEM 為跨越多個(gè) GPU 內(nèi)存的數(shù)據(jù)創(chuàng)建全局地址空間。

NVIDIA 集體通信庫( NCCL ) 優(yōu)化了 GPU 之間的通信。

總之,該平臺(tái)提供了最高的性能和靈活性,以支持不斷增長的 GPU 加速 HPC 應(yīng)用程序。

HPC 性能和能效

為了展示 NVIDIA 全棧創(chuàng)新如何轉(zhuǎn)化為 accelerated HPC 的最高性能,我們比較了 HPE 服務(wù)器與四個(gè) NVIDIA GPU 服務(wù)器的性能,以及基于其他供應(yīng)商同等數(shù)量加速器模塊的類似配置服務(wù)器的性能。

我們使用各種數(shù)據(jù)集測(cè)試了一組五個(gè)廣泛使用的 HPC 應(yīng)用程序。雖然 NVIDIA 平臺(tái)可以加速 2700 個(gè)跨行業(yè)的應(yīng)用程序,但我們?cè)诒容^中可以使用的應(yīng)用程序受到其他供應(yīng)商加速器可用軟件和應(yīng)用程序版本選擇的限制。

對(duì)于除分子動(dòng)力學(xué)模擬軟件 NAMD 以外的所有工作負(fù)載,我們的結(jié)果是使用多個(gè)數(shù)據(jù)集的結(jié)果幾何平均值計(jì)算的,以最小化異常值的影響,并代表客戶體驗(yàn)。

我們還在多 GPU 和單 GPU 場景中測(cè)試了這些應(yīng)用程序。

在多 GPU 場景中,測(cè)試系統(tǒng)中的所有加速器都用于運(yùn)行單個(gè)模擬,基于 A100 Tensor Core GPU 的服務(wù)器提供的性能比備選方案高出 2.1 倍。

poYBAGKxbzyATqPHAABoKvu2OeU771.png

圖 3 NVIDIA A100 four- GPU 性能比較

在計(jì)算性能不斷進(jìn)步的推動(dòng)下,分子動(dòng)力學(xué)領(lǐng)域正朝著在更長的模擬時(shí)間內(nèi)模擬更大的原子系統(tǒng)的方向發(fā)展。這些進(jìn)展使研究人員能夠模擬越來越多的生化機(jī)制,如光合電子傳遞和視覺信號(hào)轉(zhuǎn)導(dǎo)。這些和其他過程長期以來一直是科學(xué)辯論的主題,因?yàn)樗鼈円呀?jīng)超出了模擬的范圍,模擬是驗(yàn)證的主要工具。這是由于完成模擬所需的時(shí)間過長。

然而,我們認(rèn)識(shí)到,并非所有這些應(yīng)用程序的用戶在每次模擬時(shí)都使用多個(gè) GPU 來運(yùn)行它們。為了獲得最佳吞吐量,最佳執(zhí)行方法通常是為每個(gè)模擬分配一個(gè) GPU 。

當(dāng)在 NVIDIA A100上的單個(gè)加速器模塊上運(yùn)行這些相同的應(yīng)用程序時(shí),基于 NVIDIA A100的系統(tǒng)的性能提高了1.9倍。

poYBAGKxb0KAC18OAABliRdEc-I637.png

圖 4 NVIDIA A100 單 – GPU 性能比較

能源成本占數(shù)據(jù)中心和超級(jí)計(jì)算中心總體擁有成本( TCO )的很大一部分,這突出了節(jié)能計(jì)算平臺(tái)的重要性。我們的測(cè)試表明, NVIDIA 平臺(tái)提供的每瓦吞吐量比其他產(chǎn)品高出 2.8 倍。

pYYBAGKxb0qARA-FAABX2KZXRmk192.png

圖 5 NVIDIA A100 能效比較

顯示 A100 與 MI250 的效率比– NVIDIA 的效率越高越好。對(duì)每個(gè)應(yīng)用程序的多個(gè)數(shù)據(jù)集(不同)進(jìn)行 Geomean 。效率是指 GPU 使用 NVIDIA SMI 和 ROCm 中的等效功能測(cè)量的性能/功耗(瓦特)|

AMD MI250 在千兆字節(jié) M262-HD5-00 上測(cè)量,具有( 2 )個(gè) AMD EPYC 7763 和 4 個(gè) AMD Instinct ? MI250 OAM ( 128 GB HBM2e ) 500W GPU 帶 AMD Infinity 結(jié)構(gòu)? 技術(shù) NVIDIA 在 ProLiant XL645d Gen10 Plus 上運(yùn)行,使用雙 EPYC 7713 CPU 和 4x A100 ( 80 GB ) SXM4

LAMMPS develop \ u db00b49 ( AMD ) develop \ u 2a35ec2 ( NVIDIA )數(shù)據(jù)集 ReaxFF / c 、 Tersoff 、 Leonard Jones 、 SNAP | NAMD 3.0alpha9 數(shù)據(jù)集 STMV \ u NVE | OpenMM 7.7.0 數(shù)據(jù)集的集成運(yùn)行: amber20 STMV 、 amber20 Cellular 、 apoa1pme 、 pme |

GROMACS 2021.1 ( AMD ) 2022 ( NVIDIA )數(shù)據(jù)集 ADH-Dodec (氫鍵), STMV (氫鍵)|琥珀色 20 。 xx \ U rocm \ U mr \ U 202108 ( AMD )和 20.12-AT \ U 21.12 ( NVIDIA )數(shù)據(jù)集 Cellular \ u NVE 、 STMV \ u NVE | 1x MI250 有 2x GCD

NVIDIA A100 GPU 卓越的性能和電源效率是多年不懈的軟硬件協(xié)同優(yōu)化的結(jié)果,以最大限度地提高應(yīng)用程序性能和效率。

A100 還以單處理器的形式出現(xiàn)在操作系統(tǒng)中,只需要啟動(dòng)一個(gè) MPI 列即可充分利用其性能。而且,由于節(jié)點(diǎn)中所有 GPU 之間的 600 GB / s NVLink 連接 , A100 在規(guī)模上提供了優(yōu)異的性能。

AI 和 HPC 融合

正如加速計(jì)算為建模和仿真應(yīng)用帶來了數(shù)倍的加速一樣, AI 和 HPC 的結(jié)合將帶來性能的下一步功能提升,開啟下一波科學(xué)發(fā)現(xiàn)。

關(guān)于作者

Ashraf Eassa 是NVIDIA 加速計(jì)算集團(tuán)內(nèi)部的高級(jí)產(chǎn)品營銷經(jīng)理。

Chris 是 NVIDIA HPC 和 AI 的高級(jí)技術(shù)營銷經(jīng)理。此前,他在 IBM 擔(dān)任聚合 HPC 和 AI 的產(chǎn)品經(jīng)理,將 HPC 、 AI 和優(yōu)化產(chǎn)品推向市場,專注于電子設(shè)計(jì)、航空航天和汽車行業(yè)。 Chris 擁有航空工程碩士學(xué)位,專注于設(shè)計(jì)優(yōu)化。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 電源
    +關(guān)注

    關(guān)注

    185

    文章

    18890

    瀏覽量

    263913
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    20282

    瀏覽量

    253151
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5644

    瀏覽量

    109921
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    國產(chǎn)高性能ONFI IP解決方案解析

    1. 什么是ONFI IP?其在AI時(shí)代的作用是什么?ONFI (Open NAND Flash Interface) 是連接閃存控制器與NAND顆粒的關(guān)鍵高速接口協(xié)議。在AI和高性能計(jì)算(HPC
    發(fā)表于 01-13 16:15

    摩爾線程在MDC 2025重磅發(fā)布創(chuàng)新成果

    12月20日,在首屆MUSA開發(fā)者大會(huì)上,摩爾線程創(chuàng)始人、董事長兼CEO張建中發(fā)表主題演講,系統(tǒng)展示了以自主MUSA統(tǒng)一架構(gòu)為核心的創(chuàng)新成果,全面展現(xiàn)公司在技術(shù)和生態(tài)上的關(guān)鍵突破與前瞻布局。
    的頭像 發(fā)表于 12-22 18:04 ?1495次閱讀

    AMD攜式AI解決方案亮相進(jìn)博會(huì),賦能人工智能+

    2025年11月5日,上海: 第八屆中國國際進(jìn)口博覽會(huì)在上海正式啟幕。作為全球高性能與自適應(yīng)計(jì)算領(lǐng)導(dǎo)者,AMD連續(xù)五年亮相進(jìn)博會(huì)。今年,以“AMD賦能人工智能+”為主題,AMD全面展示貫穿云、端
    的頭像 發(fā)表于 11-06 12:53 ?307次閱讀
    AMD攜<b class='flag-5'>全</b><b class='flag-5'>棧</b>式AI解決方案亮相進(jìn)博會(huì),賦能人工智能+

    數(shù)據(jù)復(fù)用高性能池化層設(shè)計(jì)思路分享

    大家好,本團(tuán)隊(duì)此次分享的內(nèi)容為可實(shí)現(xiàn)數(shù)據(jù)復(fù)用高性能池化層設(shè)計(jì)思路,核心部分主要由以下3個(gè)部分組成; 1.SRAM讀取模塊;——池化使用的存儲(chǔ)為SRAM 基于SRAM讀與寫時(shí)序,約束池化模塊讀與寫
    發(fā)表于 10-29 07:10

    自動(dòng)駕駛中常提的“”是個(gè)啥?有必要“”嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)落地,越來越多車企公布了自己的自動(dòng)駕駛方案,在很多車企的宣傳中,會(huì)使用“自研”的說法來證明自己的實(shí)力。所謂“”,字面意思是全套技術(shù)
    的頭像 發(fā)表于 08-27 09:43 ?1202次閱讀
    自動(dòng)駕駛中常提的“<b class='flag-5'>全</b><b class='flag-5'>棧</b>”是個(gè)啥?有必要“<b class='flag-5'>全</b><b class='flag-5'>棧</b>”嗎?

    黑芝麻智能AI機(jī)器人計(jì)算平臺(tái)榮膺國際大獎(jiǎng)

    黑芝麻智能AI機(jī)器人計(jì)算平臺(tái)榮膺新加坡年度"GO! Technology Utilisation Winner",作為面向新一代機(jī)器人實(shí)時(shí)AI推理打造的
    的頭像 發(fā)表于 08-07 17:35 ?2206次閱讀

    AI應(yīng)用創(chuàng)新技術(shù)融合分論壇即將召開

    2025開放原子開源生態(tài)大會(huì)即將啟幕,其中 “AI應(yīng)用創(chuàng)新技術(shù)融合分論壇”將于 7月24日重磅亮相。論壇聚焦人工智能技術(shù)與開源生態(tài)的深度融合,邀請(qǐng)各領(lǐng)域用戶、技術(shù)專家、開發(fā)者分享AI應(yīng)用
    的頭像 發(fā)表于 07-23 09:54 ?983次閱讀

    知合計(jì)算:RISC-V架構(gòu)創(chuàng)新,阿基米德系列劍指高性能計(jì)算

    在2025 RISC-V中國峰會(huì)上,知合計(jì)算處理器設(shè)計(jì)總監(jiān)劉暢就高性能RISC-V處理器架構(gòu)探索與實(shí)踐進(jìn)行了精彩分享。 在以X86和ARM為代表的處理器架構(gòu)之下,RISC-V在高性能計(jì)算
    的頭像 發(fā)表于 07-18 14:17 ?2795次閱讀
    知合<b class='flag-5'>計(jì)算</b>:RISC-V架構(gòu)<b class='flag-5'>創(chuàng)新</b>,阿基米德系列劍指<b class='flag-5'>高性能</b><b class='flag-5'>計(jì)算</b>

    高性能計(jì)算集群在AI領(lǐng)域的應(yīng)用前景

    隨著人工智能技術(shù)的飛速發(fā)展,高性能計(jì)算集群(HPC)在AI領(lǐng)域的應(yīng)用前景日益受到關(guān)注。HPC提供的計(jì)算能力與AI的智能分析能力相結(jié)合,為解決復(fù)雜問題和推動(dòng)科學(xué)研究提供了新的動(dòng)力。1、H
    的頭像 發(fā)表于 06-23 13:07 ?1339次閱讀
    <b class='flag-5'>高性能</b><b class='flag-5'>計(jì)算</b>集群在AI領(lǐng)域的應(yīng)用前景

    使用樹莓派構(gòu)建 Slurm 高性能計(jì)算集群:分步指南!

    在這篇文章中,我將分享我嘗試使用樹莓派構(gòu)建Slurm高性能計(jì)算集群的經(jīng)歷。一段時(shí)間前,我開始使用這個(gè)集群作為測(cè)試平臺(tái),來創(chuàng)建一個(gè)更大的、支持GPU計(jì)算高性能
    的頭像 發(fā)表于 06-17 16:27 ?1812次閱讀
    使用樹莓派構(gòu)建 Slurm <b class='flag-5'>高性能</b><b class='flag-5'>計(jì)算</b>集群:分步指南!

    佑駕創(chuàng)新獲長安汽車量產(chǎn)定點(diǎn) 為其提供高性能輔助駕駛域控制器產(chǎn)品

    佑駕創(chuàng)新(2431.HK)近日宣布,與長安汽車達(dá)成重要合作,獲得其旗下新能源自主品牌主力車型的定點(diǎn)項(xiàng)目。佑駕創(chuàng)新作為選定供應(yīng)商,將為其提供高性能輔助駕駛域控制器產(chǎn)品,共同助推全場景輔助駕駛技術(shù)
    的頭像 發(fā)表于 06-06 09:54 ?1605次閱讀

    高性能計(jì)算面臨的芯片挑戰(zhàn)

    高性能計(jì)算(簡稱HPC)聽起來像是科學(xué)家在秘密實(shí)驗(yàn)室里才會(huì)用到的東西,但它實(shí)際上是當(dāng)今世界上最重要的技術(shù)之一。從預(yù)測(cè)天氣到研發(fā)新藥,甚至訓(xùn)練人工智能,高性能計(jì)算系統(tǒng)都能幫助解決普通
    的頭像 發(fā)表于 05-27 11:08 ?1141次閱讀
    <b class='flag-5'>高性能</b><b class='flag-5'>計(jì)算</b>面臨的芯片挑戰(zhàn)

    Synaptics發(fā)布高性能AI MCU,推動(dòng)邊緣計(jì)算新突破

    新突思科技發(fā)布SR系列高性能自適應(yīng)微控制器(MCU),基于Astra?原生AI平臺(tái),專為邊緣AI情境感知設(shè)計(jì)。該系列支持三種功耗模式(性能、超低功耗、持續(xù)運(yùn)行),搭載Arm Cortex-M55內(nèi)核
    的頭像 發(fā)表于 04-23 10:00 ?926次閱讀
    Synaptics發(fā)布<b class='flag-5'>高性能</b>AI MCU,<b class='flag-5'>推動(dòng)</b>邊緣<b class='flag-5'>計(jì)算</b>新突破

    RAKsmart高性能服務(wù)器集群:驅(qū)動(dòng)AI大語言模型開發(fā)的算力引擎

    RAKsmart高性能服務(wù)器集群憑借其創(chuàng)新的硬件架構(gòu)與優(yōu)化能力,成為支撐大語言模型開發(fā)的核心算力引擎。下面,AI部落小編帶您了解RAKsmart如何為AI開發(fā)者提供從模型訓(xùn)練到落地
    的頭像 發(fā)表于 04-15 09:40 ?735次閱讀

    研華科技式Edge AI產(chǎn)品助力工業(yè)智能化升級(jí)

    在2025慕尼黑上海電子設(shè)備展上,研華展示了其式Edge AI產(chǎn)品,助力工業(yè)智能化升級(jí)。通過邊緣計(jì)算與AI技術(shù)的深度融合,研華賦能智能制造,推動(dòng)
    的頭像 發(fā)表于 03-28 17:23 ?1472次閱讀