91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

存儲與GPU性能皆已成倍增長,IO表現(xiàn)為何遲遲不見好轉(zhuǎn)?

E4Life ? 來源:電子發(fā)燒友原創(chuàng) ? 作者:Leland ? 2021-07-09 17:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

存儲與GPU性能皆已成倍增長,IO表現(xiàn)為何遲遲不見好轉(zhuǎn)?

伴隨著HPC、自動駕駛、深度學(xué)習(xí)VR/AR需求的不斷增加,IO性能也在逐步凸顯瓶頸,尤其是GPU與存儲之間的讀寫。處理器速度已經(jīng)從KHz進(jìn)化至了GHz,VRAM從KB進(jìn)化至了GB,IO速度也從KB/s進(jìn)化至了GB/s,然而GB/s的大幅度改善從直觀角度來看依然像是MB/s。

比如在有線連接的VR應(yīng)用中,圖形需要經(jīng)過電腦進(jìn)行處理,再經(jīng)有線傳輸顯示在VR屏幕上,這就引發(fā)了高延遲和長讀取時(shí)間等問題。這不禁讓人開始遐想,在CPU、GPU和存儲都已經(jīng)革新?lián)Q代的情況下,我們是否真正有效地應(yīng)用了硬件性能?為此微軟和英偉達(dá)都提出了直接存儲的概念來改善IO的現(xiàn)狀。

微軟:Windows上的DirectStorage

微軟在不久前的Windows 11發(fā)布會上重點(diǎn)提到了DirectStorage技術(shù),這是一個(gè)最初為主機(jī)設(shè)計(jì)的DirectX API,如今微軟也將把這一技術(shù)帶到PC上。

在當(dāng)前NVMe SSD和PCIe技術(shù)的演進(jìn)下,存儲帶寬遠(yuǎn)超舊式的硬盤存儲技術(shù),過去10MB每秒的速度已經(jīng)達(dá)到數(shù)GB每秒。但PC上的圖形工作量也在逐步進(jìn)化,數(shù)據(jù)量的增加對于讀取提出了更高的要求。過去大量數(shù)據(jù)的讀取只需要少量的IO請求,但如今的圖形渲染會將材質(zhì)等資源分成小塊,只有在場景提出要求時(shí)載入所需的部分,如此一來雖然提高了效率,卻引入了更多IO請求。

當(dāng)前的GPU資源讀取流程 / 微軟

而目前的存儲API并沒有對大量IO請求作出優(yōu)化,因此拖累了NVMe,使得讀寫瓶頸愈發(fā)明顯。即便采用高端的PC硬件,也無法飽和利用存儲帶寬優(yōu)勢。除此之外,這些數(shù)據(jù)往往需要經(jīng)過壓縮傳輸下一個(gè)環(huán)節(jié),傳入內(nèi)存后,還要CPU進(jìn)行一部分解壓工作,最后再傳入GPU顯存里,這樣一來每個(gè)節(jié)點(diǎn)都存在效率損失。

而DirectStorage采用了全新的路徑,從存儲讀取的數(shù)據(jù)傳給內(nèi)存后,直接傳給GPU顯存。而GPU對于這些數(shù)據(jù)的解壓速度遠(yuǎn)快于CPU,所以極大地優(yōu)化了IO性能。

英偉達(dá):RTX IO和Magnum IO GPUDirect Storage

英偉達(dá)在RTX 30系列顯卡上引入了RTX IO,面向消費(fèi)市場,提升游戲場景下的讀取速度。英偉達(dá)稱RTX IO將與微軟的DirectStorage結(jié)合,與傳統(tǒng)硬盤下的存儲API相比,可將IO性能提高百倍。過去需要數(shù)十個(gè)CPU內(nèi)核的工作全部交由RTX GPU來處理。

值得一提的是,英偉達(dá)的RTX IO雖然也用到了微軟的DirectStorage,但該技術(shù)并沒有將數(shù)據(jù)傳輸?shù)絻?nèi)存,而是直接由SSD轉(zhuǎn)向GPU。微軟一名圖形開發(fā)者在GSL 2021大會上表示,未來DirectStorage的目標(biāo)也是繞過系統(tǒng)內(nèi)存。

GDS技術(shù) / 英偉達(dá)

除了消費(fèi)市場外,英偉達(dá)在HPC市場也推出了對應(yīng)的直接存儲技術(shù),Magnum IO GPUDirect Storage(GDS)。GDS技術(shù)同樣是一個(gè)繞過CPU的技術(shù),與消費(fèi)級GPU不同,HPC場景下往往要用到多塊GPU,如此一來受IO延遲和CPU的影響更大。GDS在本地存儲與GPU顯存之間建立直接的數(shù)據(jù)通道,消除了CPU引入的延遲和讀寫瓶頸。

GDS與CPU傳輸至GPU讀取性能對比 / 英偉達(dá)

在運(yùn)用GDS后,帶寬提升達(dá)到1.5倍,與傳統(tǒng)CPU回彈緩沖的數(shù)據(jù)路徑相比,CPU利用率也有2.8倍的提升。

目前英偉達(dá)已經(jīng)將這一技術(shù)加入到其HGX AI超算中,DDN、VAST和WEKA三家公司已經(jīng)開始了相關(guān)產(chǎn)品的量產(chǎn),而IBM、美光等五家廠商也在積極引入這一技術(shù)。三星、鎧俠、西數(shù)和戴爾等廠商也開始了GDS的早期集成與認(rèn)證計(jì)劃。

小結(jié)

直接存儲技術(shù)進(jìn)一步放大了GPU廠商與存儲廠商的優(yōu)勢,目前HPC市場前景巨大,英偉達(dá)在相關(guān)業(yè)務(wù)上的盈利已經(jīng)讓其看到了商機(jī)。不僅是GPU,英偉達(dá)采用Arm架構(gòu)的Grace CPU同樣引入了NVLink這樣的數(shù)據(jù)傳輸改善方案。在這樣的性能改善下,即便存儲方案不同,英偉達(dá)的GPU也很可能成為HPC應(yīng)用的首選。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6741

    瀏覽量

    107875
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5196

    瀏覽量

    135505
  • HPC
    HPC
    +關(guān)注

    關(guān)注

    0

    文章

    346

    瀏覽量

    24988
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4087

    瀏覽量

    99222
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    探索AFBR - S4N44P164M 4×4 NUV - MT硅光電倍增管陣列的卓越性能

    探索AFBR - S4N44P164M 4×4 NUV - MT硅光電倍增管陣列的卓越性能 在如今的電子工程領(lǐng)域,對于高精度、高靈敏度的光子檢測設(shè)備的需求日益增長。博通(Broadcom)的AFBR
    的頭像 發(fā)表于 12-30 16:10 ?1773次閱讀

    探索AFBR - S4N44P044M 2×2 NUV - MT硅光電倍增管陣列的卓越性能

    探索AFBR - S4N44P044M 2×2 NUV - MT硅光電倍增管陣列的卓越性能 在當(dāng)今的電子工程領(lǐng)域,對于高精度、高靈敏度的光探測器件的需求日益增長。Broadcom的AFBR
    的頭像 發(fā)表于 12-30 15:45 ?923次閱讀

    探索AFBR - S4N22P014M NUV - MT硅光電倍增管陣列的卓越性能

    探索AFBR-S4N22P014M NUV - MT硅光電倍增管陣列的卓越性能 在當(dāng)今的光電檢測領(lǐng)域,對于高精度、高靈敏度的單光子檢測需求日益增長。Broadcom的AFBR
    的頭像 發(fā)表于 12-30 15:30 ?417次閱讀

    NVIDIA RTX PRO 4000 Blackwell GPU性能測試

    Generation 的全面超越。那么,這款劃時(shí)代的專業(yè) GPU 在真實(shí)應(yīng)用場景中的表現(xiàn)究竟如何?今天,我們將通過深度實(shí)測,為您揭曉 NVIDIA RTX PRO 4000 Blackwell 相較于前代產(chǎn)品的性能躍遷。
    的頭像 發(fā)表于 12-29 15:30 ?1394次閱讀
    NVIDIA RTX PRO 4000 Blackwell <b class='flag-5'>GPU</b><b class='flag-5'>性能</b>測試

    康耐視機(jī)器視覺解決方案助力IMA E-COMMERCE提升電商訂單包裝

    在電商日訂單量成倍增長的今天,包裝不再是簡單的“裝箱”環(huán)節(jié),而是履約效率、運(yùn)輸成本與用戶體驗(yàn)的三重競技場。對于IMA E-COMMERCE而言,挑戰(zhàn)不僅來自包裝尺寸不精準(zhǔn)導(dǎo)致的運(yùn)輸浪費(fèi),更來自人工
    的頭像 發(fā)表于 12-25 16:48 ?952次閱讀

    性能網(wǎng)絡(luò)存儲設(shè)計(jì):NVMe-oF IP的實(shí)現(xiàn)探討

    。 該機(jī)制能夠根據(jù) IO 類型、SSD 當(dāng)前隊(duì)列深度、任務(wù)并行度動態(tài)選擇最優(yōu)NVMe傳輸隊(duì)列,避免隊(duì)列熱點(diǎn)(Queue Hotspot)與長尾延遲,有效提升NVMe層吞吐能力與指令并行度。在多流場景下
    發(fā)表于 12-19 18:45

    福田歐輝客車銷量實(shí)現(xiàn)翻倍增長的核心密碼

    2025年中國大中客市場競爭白熱化,福田歐輝客車憑借一份震撼行業(yè)的成績單強(qiáng)勢突圍:10月單月銷量同比暴漲179%,新能源車型增長289%,出口增長158%,前10月銷量持續(xù)領(lǐng)跑細(xì)分賽道,全年銷量劍指1.1萬輛,實(shí)現(xiàn)翻倍增長。這
    的頭像 發(fā)表于 12-02 16:56 ?880次閱讀

    全球前四!京東云云海AI存儲躋身IO500高性能存儲榜單

    存儲技術(shù),云海AI存儲不采用 PMEM 硬件,具備更強(qiáng)通用性的同時(shí)也實(shí)現(xiàn)了更低存儲成本。 IO500是全球高性能計(jì)算HPC領(lǐng)域最權(quán)威、最具影
    的頭像 發(fā)表于 11-27 14:51 ?377次閱讀
    全球前四!京東云云海AI<b class='flag-5'>存儲</b>躋身<b class='flag-5'>IO</b>500高<b class='flag-5'>性能</b><b class='flag-5'>存儲</b>榜單

    如何實(shí)現(xiàn)高效的RoCE網(wǎng)卡狀態(tài)采集與監(jiān)控?

    當(dāng)下大規(guī)模AI訓(xùn)練成為常態(tài),RoCEv2憑借高性能、低延遲與低CPU開銷的優(yōu)勢,已成為構(gòu)建智算中心的優(yōu)先選擇。然而,RoCE對網(wǎng)絡(luò)無損的嚴(yán)苛要求,配置不當(dāng)會放大擁塞,如 PFC、ECN、Buffer滯留等引發(fā)的高延遲、性能下降等
    的頭像 發(fā)表于 10-29 11:54 ?1094次閱讀
    如何實(shí)現(xiàn)高效的RoCE網(wǎng)卡狀態(tài)采集與監(jiān)控?

    霄云科技銀河存儲:重構(gòu)AI時(shí)代的存儲新范式

    在人工智能與高性能計(jì)算需求呈指數(shù)級增長的今天,數(shù)據(jù)存儲的效率與可靠性已成為算力釋放的關(guān)鍵支撐。上海霄云信息科技有限公司正式推出全新一代AI存儲
    的頭像 發(fā)表于 08-21 10:36 ?965次閱讀
    霄云科技銀河<b class='flag-5'>存儲</b>:重構(gòu)AI時(shí)代的<b class='flag-5'>存儲</b>新范式

    ADS:一直徘徊在高速電路設(shè)計(jì)的門口遲遲無法真正進(jìn)入

    一直徘徊在高速電路設(shè)計(jì)的門口遲遲無法真正進(jìn)入,希望能借此書真正翱翔于高速電路設(shè)計(jì)的領(lǐng)域
    發(fā)表于 08-21 08:31

    芯朋微電子PN7885系列60A超大電流E-Fuse介紹

    隨著人工智能(AI)浪潮的到來,數(shù)據(jù)中心迎來前所未有的變革。服務(wù)器的功率需求激增,超高的功率對供電系統(tǒng)的需求成倍增長,板上電源越來越多。防止輸入端涌入的電流使系統(tǒng)過載變得至關(guān)重要,否則高昂的停機(jī)成本變得不可接受!
    的頭像 發(fā)表于 07-10 14:50 ?1298次閱讀
    芯朋微電子PN7885系列60A超大電流E-Fuse介紹

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】+NVlink技術(shù)從應(yīng)用到原理

    前言 【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」書中的芯片知識是比較接近當(dāng)前的頂尖芯片水平的,同時(shí)包含了芯片架構(gòu)的基礎(chǔ)知識,但該部分知識比較晦澀難懂,或許是由于我一直從事的事芯片
    發(fā)表于 06-18 19:31

    硅光第六篇:多波長計(jì)

    現(xiàn)有光纖網(wǎng)絡(luò)及其基礎(chǔ)設(shè)施的基礎(chǔ)上,數(shù)據(jù)傳輸容量成倍增長成為可能。特別是在WDM(波分復(fù)用)與DWDM的應(yīng)用場景中,針對光源、光模塊以及光收發(fā)器等領(lǐng)域的產(chǎn)品,進(jìn)行波長
    的頭像 發(fā)表于 03-24 09:43 ?854次閱讀
    硅光第六篇:多波長計(jì)

    ?為什么GPU性能效率比峰值性能更關(guān)鍵

    在評估GPU性能時(shí),通常首先考察三個(gè)指標(biāo):圖形工作負(fù)載的紋理率(GPixel/s)、浮點(diǎn)運(yùn)算次數(shù)(FLOPS)以及它們能處理計(jì)算和AI工作負(fù)載的每秒8-bittera運(yùn)算次數(shù)(TOPS)。這些關(guān)鍵
    的頭像 發(fā)表于 03-13 08:34 ?894次閱讀
    ?為什么<b class='flag-5'>GPU</b><b class='flag-5'>性能</b>效率比峰值<b class='flag-5'>性能</b>更關(guān)鍵