91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

全解GPU軟件生態(tài)、場景、發(fā)展與局限性

智能計算芯世界 ? 來源:智能計算芯世界 ? 2023-01-06 14:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

197bd122-8d8c-11ed-bfe3-dac502259ad0.png

GPU作為一種協(xié)處理器,傳統(tǒng)用途主要是處理圖像類并行計算任務(wù);計算機系統(tǒng)面對的計算任務(wù)有著復(fù)雜而不同的性能要求,當 CPU 無法滿足特定處理任務(wù)時,則需要一個針對性的協(xié)處理器輔助計算。GPU 就是針對圖像計算高并行度,高吞吐量,容忍高延遲而定制的并行處理器。

本文選自“從軟件算法生態(tài)看GPU發(fā)展與局限”,介紹GPU原理、GPU場景等,具體內(nèi)容如下:

第一章、GPU 簡介1.1、GPU是什么? 1.2、為什么需要GPU等協(xié)處理器? 1.3、GPU還能干什么? 1.4、GPU不適合干什么? 1.5、GPU總體市場現(xiàn)狀第二章、GPU 未來面臨挑戰(zhàn)應(yīng)用場景解析2.1 谷歌披露實用的全新人工智能專用協(xié)處理器:TPU 2.2 TPU 主要思路:針對人工智能算法需求裁剪計算精度 2.3 從谷歌 TPU 設(shè)計思路看人工智能硬件發(fā)展趨勢 2.4 GPU/FPGA 用于神經(jīng)網(wǎng)絡(luò)計算的弱點:片上網(wǎng)絡(luò)第三章、GPU 未來較適應(yīng)場景解析3.1 VR應(yīng)用:持續(xù)增長的優(yōu)勢領(lǐng)域 3.2 云計算/大數(shù)據(jù)應(yīng)用

3.3 GPU,云和游戲服務(wù)結(jié)合

第一章、GPU簡介

GPU其原始設(shè)計針對圖像計算的特性進行優(yōu)化,因此也能兼職一些與圖像計算特性接近的大規(guī)模并行標準浮點數(shù)計算任務(wù),如科學(xué)計算與數(shù)值模擬。但大規(guī)模并行計算并非一個籠統(tǒng)的概念,而是一個可以按照計算性能需求在6個維度上進行細分的大類別。因此GPU絕非解決大規(guī)模并行計算問題的萬金油,無法很好的支持與圖形計算特性相差較大的并行計算任務(wù)。

1.1、GPU 是什么?

GPU其他名稱有顯示核心、視覺處理器、顯示芯片。顧名思義,GPU最主要的應(yīng)用場景就是處理圖像顯示計算。計算機圖像顯示流程見圖,在這個過程中CPU決定了顯示內(nèi)容,而GPU則決定了顯示的質(zhì)量如何。像GPU這類輔助CPU完成特定功能芯片統(tǒng)稱“協(xié)處理器”,“協(xié)”字表明了GPU在計算機體系中處于從屬地位。

19ab6cde-8d8c-11ed-bfe3-dac502259ad0.png

GPU芯片可根據(jù)與CPU的關(guān)系分為獨立GPU和集成GPU。獨立GPU通常圖形處理能力更高一些,但也有成本更高,功耗和發(fā)熱較大等問題。近年集成式GPU流行于移動計算平臺如筆記本和智能手機。例如高通的智能手機芯片通常將CPU和一個功能較弱的GPU以及其他協(xié)處理器通過SoC(System on Chip,片上系統(tǒng))技術(shù)組合在一起。集成GPU圖形計算性能相對獨立GPU較弱但功耗/成本均針對了移動計算平臺的需求做了優(yōu)化,將長期占據(jù)移動計算市場。

19c36fe6-8d8c-11ed-bfe3-dac502259ad0.png

1.2、為什么需要 GPU 等協(xié)處理器?

在計算機系統(tǒng)中,之所以出現(xiàn)GPU等協(xié)處理器,歸根到底在于沒有一種芯片設(shè)計方案能夠滿足所有不同類別計算任務(wù)所需求的全部性能指標:

計算精度;

計算并行度;

計算延遲;

計算吞吐量;

并行進程之間的交互復(fù)雜度;

計算實時性要求;

魚和熊掌不可兼得;在設(shè)計計算機芯片中,以上六個指標不可能在有限的資源約束下同時滿足。圖的雷達圖比較了CPU的設(shè)計偏向(藍線)以及圖形計算的要求(紅線),越靠近外圈則表示要求高/性能好,如計算延遲低、計算吞吐量大。

19df970c-8d8c-11ed-bfe3-dac502259ad0.png

我們可以發(fā)現(xiàn)CPU設(shè)計的一部分偏好,如并行進程交互能力強,低計算延遲是圖形計算所不需要的;但圖形計算要求的高計算并行度,高計算吞吐量是CPU所不能提供的。將CPU應(yīng)用在圖形處理中會造成一部分性能被浪費,而另一些性能CPU無法滿足要求(雷達圖上紅線和藍線的顯著差異);這提供了GPU這種針對圖形技術(shù)優(yōu)化芯片性能指標的協(xié)處理器的生存空間。 在廣義計算系統(tǒng)體系中,其他類別的協(xié)處理器,如DSP,F(xiàn)PGA,BP等協(xié)處理器之所以獨立存在,均因為其所處理的特定計算任務(wù)在計算指標雷達圖中與CPU以及其他協(xié)處理器差異過大。一個協(xié)處理器產(chǎn)業(yè)是否有足夠的市場空間主要取決于其針對的計算任務(wù)在性能雷達圖中是否獨特(否則會被CPU等“兼職”),以及這種計算任務(wù)是否有足夠大市場需求。

1.3、GPU 還能干什么?

GPU生產(chǎn)廠商針對圖形處理的性能要求將資源分配強化兩個特定指標:計算并行度和計算吞吐量。除了圖形計算以外,還有一些計算任務(wù)的性能雷達圖落在GPU的性能范圍內(nèi)或相差不甚太遠(見圖),比如數(shù)值仿真模擬、金融類計算、搜索引擎、數(shù)據(jù)挖掘等。

1a0f49fc-8d8c-11ed-bfe3-dac502259ad0.png

正因看中拓展GPU在特殊計算任務(wù)的應(yīng)用前景,主流的GPU廠商紛紛推出軟硬件結(jié)合的并行編程解決方案。例如Nvidia推出閉源的CUDA并行計算平臺,而AMD推出了基于開放性O(shè)penCL標準的Stream技術(shù)。這類技術(shù)在軟件上提供一個定制的編譯器,將計算任務(wù)盡可能分解成可獨立并行執(zhí)行的小組件(術(shù)語為“線程”);在硬件上對GPU進行小幅度修改,少量提高其在延遲/并行交互等傳統(tǒng)弱項的性能。 雖然GPU的并行計算能力與金融數(shù)據(jù)處理需求存在一定匹配(圖4中紅線和藍線相近),但金融核心賬本計算中需要遠超過一般計算平臺的精度。GPU內(nèi)部搭載的2進制計算單元無法保障賬本分毫不差;金融業(yè)的核心賬本計算業(yè)務(wù)長期依賴搭載10進制計算單元的IBM Power系列高端處理器。如果改造GPU使其搭載10進制硬件計算單元,則其又無法適應(yīng)圖形計算的需求。這個案例充分說明:并非所有并行計算任務(wù)就一定適合GPU計算,而需要根據(jù)實際情況區(qū)分。

1.4、GPU 不適合干什么?

GPU屬于大規(guī)模并行計算芯片的一個子類;但其并不能解決所有的大規(guī)模并行計算任務(wù)。大規(guī)模并行計算芯片可粗略劃分為兩大組成部分:

1)并行計算單元,數(shù)目從數(shù)個至數(shù)千個不等,完成“線程”計算;

2)NoC(Network on Chip,片上通訊網(wǎng)絡(luò)),負責在計算單元之間傳遞數(shù)據(jù); 針對不同的計算需求場景,大規(guī)模并行計算芯片的設(shè)計思路大體有兩個方向: 1)處理單元優(yōu)化:包括增減處理器單元數(shù)量或改變處理器單元內(nèi)部的結(jié)構(gòu)等; 2)NoC網(wǎng)絡(luò)優(yōu)化:更改網(wǎng)絡(luò)拓撲、網(wǎng)絡(luò)路由算法、優(yōu)化網(wǎng)絡(luò)控制機制等; 這兩個方向上的優(yōu)化需要分享芯片上有限的資源;強化一個方向的性能/增加某個方向的資源分配往往就意味著需要犧牲另一個方向的性能。 多核CPU、GPU、FPGA是常見的并行計算架構(gòu),它們的資源分配傾向示意圖見圖。

1a2602c8-8d8c-11ed-bfe3-dac502259ad0.png

GPU將主要資源分配給了圖形常用計算單元,如浮點數(shù)的乘法和加法,而采用了最簡單的片上網(wǎng)絡(luò)拓撲:樹狀NoC網(wǎng)絡(luò),在基本計算單元之間傳遞數(shù)據(jù),見圖; 這種片上網(wǎng)絡(luò)的優(yōu)缺點分別是:

優(yōu)點1:消耗的資源最??;

缺點1:通過讀寫片上存儲的方式傳遞數(shù)據(jù),速度較慢;

缺點2:樹根結(jié)點容易因通訊堵塞成為瓶頸,如圖中紅線和藍線分別表示A計算節(jié)點向B,C向D傳遞數(shù)據(jù),兩個傳遞過程在根節(jié)點和二級共享節(jié)點交匯,當片上數(shù)據(jù)傳遞頻繁時,樹狀拓撲NoC極易發(fā)生堵塞問題。

1a38f7de-8d8c-11ed-bfe3-dac502259ad0.png

GPU之所以采用樹狀拓撲結(jié)構(gòu),概因其“主業(yè)”-圖形計算僅有少量情形需要在計算節(jié)點之間做復(fù)雜數(shù)據(jù)通信,因此采用樹狀拓撲以外的方案是純粹的浪費。但樹狀拓撲結(jié)構(gòu)限制了相當多類別的大規(guī)模并行計算任務(wù)在GPU上發(fā)揮,換句話說,下列這些并行計算任務(wù)并不是GPU擴展的強項:

帶有較多分支判斷類的并行計算任務(wù),典型任務(wù)如人機交互、電腦和環(huán)境交互中的邏輯判斷計算等;

并行計算中帶有較多串行成分,以及反饋算法的并行計算任務(wù),典型例子如控制系統(tǒng)計算任務(wù);

帶有網(wǎng)狀結(jié)構(gòu)數(shù)據(jù)流的并行計算。典型案例為FFT(傅里葉分析)計算任務(wù),CUDA中的FFT優(yōu)化后可以提供相對CPU約10倍的提速,但當FFT長度超過某個門限后GPU的提升性能就發(fā)生下滑(資料來源:NV官網(wǎng))。DSP芯片往往針對FFT的算法特性提供定制優(yōu)化,沒有GPU存在的問題,因此手機SoC中往往由DSP而不是GPU處理FFT這種網(wǎng)狀大規(guī)模并行計算。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11285

    瀏覽量

    225125
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5199

    瀏覽量

    135523
  • 計算機圖像
    +關(guān)注

    關(guān)注

    2

    文章

    5

    瀏覽量

    2382

原文標題:全解GPU軟件生態(tài)、場景、發(fā)展與局限性

文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    飛騰D3000M主板打破性能局限性,成為工控發(fā)展最新選擇

    隨著工業(yè)4.0轉(zhuǎn)型持續(xù)深入,工控系統(tǒng)作為智能制造的“中樞神經(jīng)”,正面臨著算力不足、能效失衡、接口適配單一等痛點,嚴重制約著各行業(yè)智能升級的步伐。
    的頭像 發(fā)表于 02-06 14:05 ?212次閱讀
    飛騰D3000M主板打破性能<b class='flag-5'>局限性</b>,成為工控<b class='flag-5'>發(fā)展</b>最新選擇

    米爾RK3576成功上車!ROS2 Humble生態(tài)系統(tǒng)體驗

    同性能x86平臺 生態(tài)完整:Ubuntu+ROS2+豐富外設(shè)驅(qū)動 未來計劃 進一步優(yōu)化GPU驅(qū)動,提升3D渲染性能 集成SLAM、導(dǎo)航等實際機器人應(yīng)用棧 推動在AGV、服務(wù)機器人等場景的落地
    發(fā)表于 01-15 18:30

    法拉電容最大耐壓標準

    文章討論了超級電容在高壓場景中的局限性,強調(diào)串聯(lián)風險、電壓管理策略及不同場景下的應(yīng)用差異。
    的頭像 發(fā)表于 01-11 09:37 ?286次閱讀
    法拉電容最大耐壓標準

    平臺耦與生態(tài)聚合:中服云工業(yè)物聯(lián)網(wǎng)技術(shù)的戰(zhàn)略破局與行業(yè)重塑

    工業(yè)物聯(lián)網(wǎng)正站在新的十字路口。隨著中國制造業(yè)數(shù)字化轉(zhuǎn)型進入深水區(qū),傳統(tǒng)以硬件為中心的工業(yè)物聯(lián)網(wǎng)模式日益顯露出局限性。在這個關(guān)鍵節(jié)點上,中服云作為國內(nèi)工業(yè)互聯(lián)網(wǎng)領(lǐng)域的創(chuàng)新者,提出了一種全新的解決方案
    的頭像 發(fā)表于 01-05 11:49 ?212次閱讀

    超級電容為什么密度低?

    超級電容能量密度低主要由電極材料和電解質(zhì)的局限性所致。
    的頭像 發(fā)表于 11-24 09:22 ?318次閱讀
    超級電容為什么密度低?

    數(shù)字療法的前沿創(chuàng)新:從軟件驅(qū)動到智能醫(yī)療新生態(tài)

    局限性、提升慢性病管理依從性的關(guān)鍵力量。 ? 數(shù)字療法是以軟件程序為核心、循證醫(yī)學(xué)為基礎(chǔ)的醫(yī)療干預(yù)手段,通過AI、VR、XR等數(shù)字技術(shù),為用戶提供疾病治療、健康管理及康復(fù)支持服務(wù)。 概念界定與演進:從“連接”到“干預(yù)”的范式
    的頭像 發(fā)表于 11-20 08:18 ?3823次閱讀

    PPEC Workbench 平臺拓撲覆蓋,滿足各類電源開發(fā)需求

    、DC-AC、AC-DC 等基本變換類型,還涵蓋了針對特定場景的定制化拓撲架構(gòu)。傳統(tǒng)拓撲開發(fā)模式存在顯著局限性: ▌知識壁壘高: 拓撲原理與應(yīng)用知識分散,新手難以系統(tǒng)掌握品類拓撲,入門周期長。 ▌工具
    發(fā)表于 10-23 11:44

    深入解析米爾志T536核心板的實時性技術(shù)突破

    ;lt; 10ms&lt; 200μs產(chǎn)線停機、效率下降 二、五大實時方案深度對比:原理、優(yōu)劣與適用場景2.1 標準Linux內(nèi)核的局限性工作原理:基于完全公平調(diào)度器(CFS),采用紅黑
    發(fā)表于 10-17 17:41

    格靈深瞳三項成果獲得國際頂級學(xué)術(shù)會議認可

    以O(shè)penAI CLIP為代表的多模態(tài)預(yù)訓(xùn)練模型,為安防、電商等應(yīng)用場景提供了強大的跨模態(tài)理解基礎(chǔ),但也存在多種技術(shù)局限性
    的頭像 發(fā)表于 09-15 14:43 ?1372次閱讀

    RVSP線纜有哪些缺點或者局限性

    RVSP線纜雖然具有抗干擾能力強、柔軟易彎曲等優(yōu)點,但在實際應(yīng)用中也存在一些缺點和局限性,以下是詳細分析: 一、機械性能局限性 抗拉強度不足 RVSP線纜的銅芯導(dǎo)體較細,且采用軟銅線結(jié)構(gòu),雖然提高了
    的頭像 發(fā)表于 08-22 09:53 ?734次閱讀

    UPS電源—UPS電源優(yōu)化電力質(zhì)量局限大揭秘

    在工業(yè)自動化及眾多關(guān)鍵領(lǐng)域,UPS(不間斷電源)作為電力保障的重要設(shè)備,對于提升電力質(zhì)量起到了至關(guān)重要的作用。然而,任何技術(shù)都有其局限性,UPS電源在優(yōu)化電力質(zhì)量方面也不例外。以下是對UPS電源優(yōu)化電力質(zhì)量局限性的詳細分析.
    的頭像 發(fā)表于 08-05 19:51 ?791次閱讀
    UPS電源—UPS電源優(yōu)化電力質(zhì)量<b class='flag-5'>局限</b>大揭秘

    SOLIDWORKS2025實時預(yù)覽功能突破傳統(tǒng)CAD軟件的設(shè)計局限

    在工程設(shè)計領(lǐng)域,計算機輔助設(shè)計(CAD)軟件一直是工程師們不可或缺的工具。然而,傳統(tǒng)CAD軟件在設(shè)計過程中的一些局限性,如查找和修改設(shè)計元素的繁瑣過程,常常限制了設(shè)計師的創(chuàng)造力和工作效率
    的頭像 發(fā)表于 07-31 10:54 ?748次閱讀

    從微米級零件到百米建筑:自由維度掃描對固定式方案的尺度測量能力降維打擊

    在三維測量領(lǐng)域,固定式方案曾是主流選擇,但面對從微米級零件到百米建筑的尺度測量需求時,其局限性日益凸顯。自由維度掃描憑借靈活的架構(gòu)與先進技術(shù),突破了測量尺度的限制,在尺度測量中展現(xiàn)出對固定式方案
    的頭像 發(fā)表于 07-17 09:28 ?424次閱讀
    從微米級零件到百米建筑:自由維度掃描對固定式方案的<b class='flag-5'>全</b>尺度測量能力降維打擊

    什么是網(wǎng)絡(luò)變壓器?chiplan和網(wǎng)變應(yīng)用差異

    問題,Chip?LAN方案應(yīng)運而生。Chip?LAN方案通過創(chuàng)新的設(shè)計和制造工藝,提供了一種更高效、更緊湊且更具成本優(yōu)勢的替代方案。本文將詳細介紹Chip?LAN方案的技術(shù)特點、優(yōu)勢、應(yīng)用場景以及未來的發(fā)展趨勢。 一、傳統(tǒng)網(wǎng)絡(luò)變壓器的
    的頭像 發(fā)表于 06-12 09:12 ?1216次閱讀

    FinFET技術(shù)在晶圓制造中的優(yōu)勢

    本文通過介紹傳統(tǒng)平面晶體管的局限性,從而引入FinFET技術(shù)的原理、工藝和優(yōu)勢。
    的頭像 發(fā)表于 04-14 17:23 ?1663次閱讀
    FinFET技術(shù)在晶圓制造中的優(yōu)勢