91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

FPGA與GPU計算存儲加速對比

劉杰 ? 來源:zrl12123456 ? 作者:zrl12123456 ? 2022-08-02 08:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

硬件制造商正在將加速方法應(yīng)用于計算存儲,這是專門設(shè)計用于包含內(nèi)嵌計算元素的存儲。這種方法已經(jīng)被證明可以為分析和 AI 應(yīng)用提供優(yōu)異的性能。使用或者不使用機(jī)器學(xué)習(xí)輔助的分析以及驗證,都可以借助計算存儲器件進(jìn)行加速。這些器件提供了一個關(guān)鍵的優(yōu)勢,使得成本高昂的計算被卸載到存儲器件上,而不必在服務(wù)器 CPU 上完成。與標(biāo)準(zhǔn)的存儲/CPU 方法相比,通過計算存儲獲得的優(yōu)勢包括:

1. 借助應(yīng)用專用編程定制可編程硬件,獲得更高性能

2. 將計算任務(wù)從服務(wù)器卸載到存儲器件,釋放 CPU 資源

3. 數(shù)據(jù)與計算共址,降低數(shù)據(jù)傳輸需求

這種新穎的方法前景光明。不過,您應(yīng)根據(jù)具體用例評估這種方法,考量性能、成本、功耗和易用性。性價比和單位功耗性能在選擇加速硬件評估時,占據(jù)主要比率。在本文中,我們將研討單位功耗性能。

計算存儲功耗比較

在這個場景中,我們將比較以 CSV 數(shù)據(jù)讀取用例為主的三種工具:英偉達(dá) GPUDirect 存儲 和RAPIDS存儲,以及基于賽靈思技術(shù)的三星 SmartSSD 存儲。CSV 讀取在計算密集型流水線中起著重要的作用(參見圖 1)。

在下文中,我們將性能定義成 CSV 的處理速率,或處理“帶寬”。我們先快速回顧一下三種系統(tǒng)的運行方式。

英偉達(dá) GPUDirect 存儲

端到端滿足分析和 AI 需求

將 GPU 用作計算單元,緊貼基于 NVMe 的存儲器件布局 (GPUDirect)

使用 CUDA 進(jìn)行編程 (RAPIDS)

英偉達(dá)用其 CSV 數(shù)據(jù)讀取技術(shù)衡量相對于標(biāo)準(zhǔn) SSD 的性能提升。結(jié)果如圖 1 所示。使用 1 到 8 個加速器時,對應(yīng)的吞吐量是 4 到 23GB/s。

三星 SmartSSD 驅(qū)動器

將賽靈思 FPGA 用作計算單元

與存儲邏輯內(nèi)嵌駐留在同一個內(nèi)部 PCIe 互聯(lián)上

通過編程在存儲平臺上開展運算

賽靈思數(shù)據(jù)分析解決方案合作伙伴 Bigstream 與三星合作,為 Apache Spark 設(shè)計加速器,包括用于 CSV 和 Parquet 處理的 IP。SmartSSD 的測試使用單機(jī)模式的 CSV 解析引擎,以便開展比較。結(jié)果如圖 2 所示,使用 1 到 12 個加速器時,對應(yīng)的吞吐量是 4 到 23GB/s,同時也給出英偉達(dá)的結(jié)果(使用 1 到 8 個加速器)。請注意,本討論中的所有結(jié)果都按 x 軸上的加速器數(shù)量進(jìn)行參數(shù)化。

這些結(jié)果令人振奮,但在選擇您的解決方案時,請務(wù)必將功耗情況納入考慮。

圖 2:SmartSSD 驅(qū)動器的 CSV 解析性能結(jié)果

單位功耗性能比較

圖 3 顯示了將功耗考慮在內(nèi)后的分析結(jié)果。它們代表單位功耗達(dá)到的性能水平,根據(jù)上述討論中引用的相關(guān)材料,給出了以下假設(shè):

Tesla V100 GPU:最大功耗 200 瓦

SmartSSD 驅(qū)動器 FPGA:最大功耗 30 瓦

圖 3:CSV 解析的每瓦功耗帶寬比較

在這個場景下,計算表明,在全部使用 8 個加速器的情況下,SmartSSD 的單位功耗性能比 GPUDirect Storage 高 25 倍。

最終思考

計算存儲的優(yōu)勢在于能增強(qiáng)數(shù)據(jù)分析和 AI 應(yīng)用的性能。然而,要讓這種方法具備可實際部署的能力和實用性,就必須在評估時將功耗納入考慮。

針對用于 CSV 數(shù)據(jù)解析的兩種不同的計算存儲方法,我們已經(jīng)提出按功耗參數(shù)化的吞吐量性能曲線。結(jié)果顯示,在使用相似數(shù)量的加速器進(jìn)行比較時,SmartSSD 驅(qū)動器的單位功耗性能優(yōu)于 GPUDirect存儲方法。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1660

    文章

    22416

    瀏覽量

    636585
  • 驅(qū)動器
    +關(guān)注

    關(guān)注

    54

    文章

    9084

    瀏覽量

    155645
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5196

    瀏覽量

    135515
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    成功案例:象帝先計算技術(shù)與Imagination合作——面向現(xiàn)代圖形與計算工作負(fù)載的專業(yè)GPU

    為專業(yè)計算設(shè)計桌面GPU桌面GPU不僅用于游戲,還能加速從專業(yè)可視化、高級模擬到數(shù)據(jù)密集型計算在內(nèi)的多種現(xiàn)代工作負(fù)載。專業(yè)用戶需要能在多種應(yīng)
    的頭像 發(fā)表于 03-09 09:17 ?199次閱讀
    成功案例:象帝先<b class='flag-5'>計算</b>技術(shù)與Imagination合作——面向現(xiàn)代圖形與<b class='flag-5'>計算</b>工作負(fù)載的專業(yè)<b class='flag-5'>GPU</b>

    FPGA硬件加速卡設(shè)計原理圖:1-基于Xilinx XCKU115的半高PCIe x8 硬件加速卡 PCIe半高 XCKU115-3-FLVF1924-E芯片

    FPGA硬件加速, PCIe半高卡, XCKU115, 光纖采集卡, 信號計算板, 硬件加速
    的頭像 發(fā)表于 02-12 09:52 ?400次閱讀
    <b class='flag-5'>FPGA</b>硬件<b class='flag-5'>加速</b>卡設(shè)計原理圖:1-基于Xilinx XCKU115的半高PCIe x8 硬件<b class='flag-5'>加速</b>卡 PCIe半高 XCKU115-3-FLVF1924-E芯片

    FPGA+GPU異構(gòu)混合部署方案設(shè)計

    為滿足對 “納秒級實時響應(yīng)” 與 “復(fù)雜數(shù)據(jù)深度運算” 的雙重需求,“FPGA+GPU”異構(gòu)混合部署方案通過硬件功能精準(zhǔn)拆分與高速協(xié)同,突破單一硬件的性能瓶頸 ——FPGA聚焦低延遲實時交易鏈路,GPU承接高復(fù)雜度數(shù)據(jù)處理任務(wù),
    的頭像 發(fā)表于 01-13 15:20 ?364次閱讀

    RSoft GPU加速技術(shù)重塑光子元件設(shè)計效率革命

    設(shè)計效率。為了解決這個問題,RSoft 光子器件工具的 FullWAVE FDTD 模組中引入 GPU 加速,通過 NVIDIA GPU 的平行運算能力,使得模擬速度相比 CPU 計算
    的頭像 發(fā)表于 01-12 14:09 ?264次閱讀
    RSoft <b class='flag-5'>GPU</b><b class='flag-5'>加速</b>技術(shù)重塑光子元件設(shè)計效率革命

    沐曦股份GPU加速技術(shù)助力藥物研發(fā)降本增效

    沐曦股份科學(xué)計算團(tuán)隊近期取得突破性進(jìn)展,成功將主流分子動力學(xué)模擬引擎GROMACS中的FEP計算全流程部署于GPU執(zhí)行,并實現(xiàn)2.5倍性能提升,相關(guān)成果獲得GROMACS官方團(tuán)隊的高度認(rèn)可,該
    的頭像 發(fā)表于 12-02 15:58 ?760次閱讀

    嵌入式和FPGA的區(qū)別

    、光傳輸) 高性能計算(算法加速) 原型驗證(ASIC前期驗證) 軍事航天(抗輻射、高可靠需求) 未來發(fā)展趨勢 隨著技術(shù)的融合,我們看到嵌入式處理器與FPGA結(jié)合的SoC器件(如Xilinx
    發(fā)表于 11-19 06:55

    FPGAGPU加速的視覺SLAM系統(tǒng)中特征檢測器研究

    (Nvidia Jetson Orin與AMD Versal)上最佳GPU加速方案(FAST、Harris、SuperPoint)與對應(yīng)FPGA加速方案的性能,得出全新結(jié)論。
    的頭像 發(fā)表于 10-31 09:30 ?674次閱讀
    <b class='flag-5'>FPGA</b>和<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>的視覺SLAM系統(tǒng)中特征檢測器研究

    PCIe協(xié)議分析儀能測試哪些設(shè)備?

    ) 測試場景:驗證CPU與PCIe設(shè)備(如GPU、FPGA)之間的數(shù)據(jù)流,優(yōu)化任務(wù)調(diào)度和數(shù)據(jù)流。 應(yīng)用價值:在異構(gòu)計算環(huán)境中平衡計算資源,減少數(shù)據(jù)傳輸瓶頸。 二、
    發(fā)表于 07-25 14:09

    基于FPGA的壓縮算法加速實現(xiàn)

    本設(shè)計中,計劃實現(xiàn)對文件的壓縮及解壓,同時優(yōu)化壓縮中所涉及的信號處理和計算密集型功能,實現(xiàn)對其的加速處理。本設(shè)計的最終目標(biāo)是證明在充分并行化的硬件體系結(jié)構(gòu) FPGA 上實現(xiàn)該算法時,可以大大提高該算
    的頭像 發(fā)表于 07-10 11:09 ?2409次閱讀
    基于<b class='flag-5'>FPGA</b>的壓縮算法<b class='flag-5'>加速</b>實現(xiàn)

    AMD FPGA異步模式與同步模式的對比

    本文講述了AMD UltraScale /UltraScale+ FPGA 原生模式下,異步模式與同步模式的對比及其對時鐘設(shè)置的影響。
    的頭像 發(fā)表于 07-07 13:47 ?1652次閱讀

    硅谷GPU云服務(wù)器是什么意思?使用指南詳解

    硅谷GPU云服務(wù)器本質(zhì)上是一種IaaS(基礎(chǔ)設(shè)施即服務(wù))產(chǎn)品,它將物理服務(wù)器上的GPU資源通過虛擬化技術(shù)分割成可彈性調(diào)配的云服務(wù)。與普通CPU云服務(wù)器相比,GPU服務(wù)器最大的特點是搭載了NVIDIATesla、AMDInstin
    的頭像 發(fā)表于 06-16 09:41 ?602次閱讀

    Matlab與MWORKS軟件計算精度對比

    MWORKS軟件作為同元開發(fā)的Matlab替代產(chǎn)品,目前正在軍工企業(yè)及部分院校開始試用。結(jié)合去年開發(fā)算例,對兩個軟件在計算精度方面進(jìn)行了對比,請各位大神指導(dǎo)。 以《軌道交通系統(tǒng)動力學(xué)與Matlab
    發(fā)表于 06-07 16:57

    智算加速卡是什么東西?它真能在AI戰(zhàn)場上干掉GPU和TPU!

    隨著AI技術(shù)火得一塌糊涂,大家都在談"大模型"、"AI加速"、"智能計算",可真到了落地環(huán)節(jié),算力才是硬通貨。你有沒有發(fā)現(xiàn),現(xiàn)在越來越多的AI企業(yè)不光用GPU,也不怎么迷信TPU了?他們嘴里多了一個新詞兒——智算
    的頭像 發(fā)表于 06-05 13:39 ?1675次閱讀
    智算<b class='flag-5'>加速</b>卡是什么東西?它真能在AI戰(zhàn)場上干掉<b class='flag-5'>GPU</b>和TPU!

    GPU架構(gòu)深度解析

    GPU架構(gòu)深度解析從圖形處理到通用計算的進(jìn)化之路圖形處理單元(GPU),作為現(xiàn)代計算機(jī)中不可或缺的一部分,已經(jīng)從最初的圖形渲染專用處理器,發(fā)展成為強(qiáng)大的并行
    的頭像 發(fā)表于 05-30 10:36 ?1882次閱讀
    <b class='flag-5'>GPU</b>架構(gòu)深度解析