91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文詳談AI邊緣推理與數(shù)據(jù)中心的差異和應(yīng)用

如意 ? 來(lái)源:OFweek電子工程網(wǎng) ? 作者:電子工程世界 ? 2020-09-19 11:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

雖然推理加速器最初用于數(shù)據(jù)中心,但它們已經(jīng)迅速發(fā)展到應(yīng)用程序的邊緣推理,如自動(dòng)駕駛醫(yī)學(xué)成像。通過(guò)這種轉(zhuǎn)變,客戶發(fā)現(xiàn),同樣的加速器,在數(shù)據(jù)中心處理圖像很順利,但移到邊緣推斷方面卻顯得糟糕。其實(shí)原因很簡(jiǎn)單:一個(gè)處理數(shù)據(jù)池,而另一個(gè)處理的是數(shù)據(jù)流。

當(dāng)你在batch = 1時(shí)進(jìn)行批處理時(shí),池子里待處理的batch就會(huì)很多。在數(shù)據(jù)中心,客戶通常是數(shù)據(jù)的處理池,比如被標(biāo)記的照片。其目標(biāo)是用最少的資源和功耗以及最佳的延遲來(lái)處理盡可能多的照片。

另一方面,邊緣推斷應(yīng)用程序需要處理數(shù)據(jù)流。我們通常的相機(jī)每秒拍攝30幀,每幀通常是200萬(wàn)像素。通常情況下,每幅圖像需要33毫秒,每秒大約30幀。當(dāng)你有一個(gè)圖像從一個(gè)流進(jìn)來(lái),它如何被處理取決于它需要做什么。

例如,使用推理進(jìn)行零售分析的商店可能會(huì)計(jì)算給定時(shí)間排隊(duì)的人數(shù)。在這個(gè)例子中,他們真的不需要幾個(gè)小時(shí)甚至幾天的結(jié)果。然而,如果你駕駛一輛使用自動(dòng)駕駛功能的汽車,你只有毫秒來(lái)處理圖像,否則你可能會(huì)撞到人。雖然在這兩個(gè)例子中,相機(jī)每3毫秒生成1幀圖像,但使用的推理加速器非常不同。

讓我們看看數(shù)據(jù)流發(fā)生了什么。

首先,您需要清理圖像以去除諸如光線條紋之類的東西,然后應(yīng)用推理。當(dāng)推理完成后,您需要采取一個(gè)行動(dòng),根據(jù)你正在處理的活動(dòng),所有這些都需要在特定的時(shí)間內(nèi)發(fā)生。如果你不需要幾個(gè)小時(shí)的結(jié)果,你可以對(duì)圖像進(jìn)行批處理。在這種情況下,延遲就無(wú)關(guān)緊要了。重要的是用最少的成本和能量處理最多的圖像。

最常犯的一個(gè)錯(cuò)誤就是在選擇邊緣推斷解決方案時(shí)沒(méi)有考慮延遲和流媒體吞吐量。比方說(shuō),你有一臺(tái)每秒能處理30幀的推理加速器,另一臺(tái)每秒能處理15幀。

大多數(shù)人自然而然地認(rèn)為每秒30幀的解決方案更好——其實(shí)你錯(cuò)了。

每秒30幀的加速器可能會(huì)獲得比較可觀的吞吐量,原因是它有三個(gè)引擎,每個(gè)引擎都有不同的延遲。最典型的是英偉達(dá)Xavier推理加速器。Xavier的深度學(xué)習(xí)引擎處理圖像大約需要300毫秒,GPU大約需要90毫秒。如果客戶有兩個(gè)深度學(xué)習(xí)引擎+GPU都在運(yùn)行,他們可能會(huì)在數(shù)據(jù)池中獲得顯著的吞吐量。

但是,如果它需要從數(shù)據(jù)流一次處理一個(gè)圖像,它就不能有效地使用深度學(xué)習(xí)引擎,吞吐量會(huì)顯著下降。在這種情況下,你需要觀察哪個(gè)執(zhí)行單元的延遲最短,即GPU的延遲為90毫秒。分割成1000毫秒就是每秒的幀數(shù),這意味著這個(gè)吞吐量實(shí)際上只有每秒10幀(而不是宣傳的每秒30幀)。

x Logix購(gòu)買了一臺(tái)Xavier AGX,并將其配置為NX模式(該軟件測(cè)量芯片的功率,當(dāng)功率超過(guò)15W時(shí),會(huì)調(diào)低芯片的時(shí)鐘,以防止芯片過(guò)熱)。

然后,我們通過(guò)Nvidia Xavier NX軟件流運(yùn)行三個(gè)模型(YOLOv3加上我們客戶的兩個(gè)模型),并在芯片上運(yùn)行,測(cè)量每張圖像的延遲。我們還通過(guò)自己的InferX X1性能評(píng)估器運(yùn)行了相同的模型。

顯然,Nvidia不能為我們自己客戶的機(jī)型發(fā)布基準(zhǔn)測(cè)試,但YOLOv3的數(shù)據(jù)是在Xavier AGX上發(fā)布的,而不是在NX上發(fā)布的——而且他們發(fā)布的數(shù)據(jù)是使用GPU和兩個(gè)DL加速器的綜合吞吐量。對(duì)于Batch= 1,GPU有可接受的延遲。

不同的領(lǐng)域?qū)?yīng)不同的處理器

關(guān)注自動(dòng)駕駛和航空航天等應(yīng)用程序的客戶要處理數(shù)據(jù)流,所以可能只關(guān)心流吞吐量。即使它們是空閑的,它們也不能利用運(yùn)行較慢的執(zhí)行單元,因?yàn)樗鼈冃枰谙乱粋€(gè)圖像可用之前處理第一個(gè)圖像。在這些應(yīng)用程序中,要跟上圖像流是至關(guān)重要的,因?yàn)槿绻贿@樣做,就需要存儲(chǔ)越來(lái)越多的數(shù)據(jù)。如果應(yīng)用程序是自動(dòng)駕駛,這將延長(zhǎng)延遲時(shí)間,并可能導(dǎo)致嚴(yán)重后果。

總之,如果你正在研究推理加速器,請(qǐng)明白它們是為什么而優(yōu)化的。

今年推出的大多數(shù)推斷加速器都是為ResNet-50進(jìn)行優(yōu)化設(shè)計(jì)的,本人認(rèn)為是一個(gè)糟糕基準(zhǔn)測(cè)試,因?yàn)樗褂昧诵D像,比如224×224。

對(duì)于像自動(dòng)駕駛這樣的應(yīng)用程序,一般是需要處理200萬(wàn)像素的1440×1440級(jí)別的圖像。對(duì)于這些應(yīng)用程序,YOLOv3是一個(gè)更好的基準(zhǔn)測(cè)試。

我們也開(kāi)始看到與ResNet-50和YOLOv3有著截然不同的新模型。在生物醫(yī)學(xué)工程或醫(yī)學(xué)成像等市場(chǎng),他們處理不同類型的傳感器,而非行人目標(biāo)的檢測(cè)和識(shí)別,他們以一種非常不同的方式使用神經(jīng)網(wǎng)絡(luò)。在YOLOv3上運(yùn)行良好的加速器可能在這些模型上運(yùn)行得更好。

簡(jiǎn)單介紹一下YOLOv3,它是YOLO (You Only Look Once)系列目標(biāo)檢測(cè)算法中的第三版,相比之前的算法,尤其是針對(duì)小目標(biāo),精度有顯著提升。下面我們就來(lái)看看在算法中究竟有哪些提升。

YOLOv3算法

首先如上圖所示,在訓(xùn)練過(guò)程中對(duì)于每幅輸入圖像,YOLOv3會(huì)預(yù)測(cè)三個(gè)不同大小的3D tensor,對(duì)應(yīng)著三個(gè)不同的scale。設(shè)計(jì)這三個(gè)scale的目的就是為了能夠檢測(cè)出不同大小的物體。在這里我們以13x13的tensor為例做一個(gè)簡(jiǎn)單講解。對(duì)于這個(gè)scale,原始輸入圖像會(huì)被分成分割成13x13的grid cell,每個(gè)grid cell對(duì)應(yīng)著3D tensor中的1x1x255這樣一個(gè)長(zhǎng)條形voxel。255這個(gè)數(shù)字來(lái)源于(3x(4+1+80)),其中的數(shù)字代表bounding box的坐標(biāo),物體識(shí)別度(objectness score),以及相對(duì)應(yīng)的每個(gè)class的confidence,具體釋義見(jiàn)上圖。

其次,如果訓(xùn)練集中某一個(gè)ground truth對(duì)應(yīng)的bounding box中心恰好落在了輸入圖像的某一個(gè)grid cell中(如圖中的紅色grid cell),那么這個(gè)grid cell就負(fù)責(zé)預(yù)測(cè)此物體的bounding box,于是這個(gè)grid cell所對(duì)應(yīng)的objectness score就被賦予1,其余的grid cell則為0。此外,每個(gè)grid cell還被賦予3個(gè)不同大小的prior box。在學(xué)習(xí)過(guò)程中,這個(gè)grid cell會(huì)逐漸學(xué)會(huì)如何選擇哪個(gè)大小的prior box,以及對(duì)這個(gè)prior box進(jìn)行微調(diào)(即offset/coordinate)。但是grid cell是如何知道該選取哪個(gè)prior box呢?在這里作者定義了一個(gè)規(guī)則,即只選取與ground truth bounding box的IOU重合度最高的哪個(gè)prior box。

上面說(shuō)了有三個(gè)預(yù)設(shè)的不同大小的prior box,但是這三個(gè)大小是怎么計(jì)算得來(lái)的呢?作者首先在訓(xùn)練前,提前將COCO數(shù)據(jù)集中的所有bbox使用K-means clustering分成9個(gè)類別,每3個(gè)類別對(duì)應(yīng)一個(gè)scale,這樣總共3個(gè)scale。這種關(guān)于box大小的先驗(yàn)信息極大地幫助網(wǎng)絡(luò)準(zhǔn)確的預(yù)測(cè)每個(gè)Box的offset/coordinate,因?yàn)閺闹庇^上,大小合適的box將會(huì)使網(wǎng)絡(luò)更快速精準(zhǔn)地學(xué)習(xí)。
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    18

    文章

    5654

    瀏覽量

    75041
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39866

    瀏覽量

    301520
  • 應(yīng)用程序
    +關(guān)注

    關(guān)注

    38

    文章

    3344

    瀏覽量

    60278
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    數(shù)據(jù)中心缺電,英偉達(dá)又有新動(dòng)作!

    電子發(fā)燒友網(wǎng)報(bào)道(/李彎彎)近日,英偉達(dá)宣布將舉辦場(chǎng)私人峰會(huì),邀請(qǐng)聚焦數(shù)據(jù)中心電力問(wèn)題的初創(chuàng)公司參會(huì),共同應(yīng)對(duì)可能阻礙人工智能發(fā)展的電力難題。當(dāng)下,大模型訓(xùn)練與推理對(duì)算力的需求呈指
    的頭像 發(fā)表于 12-14 00:06 ?1.3w次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>缺電,英偉達(dá)又有新動(dòng)作!

    高通挑戰(zhàn)英偉達(dá),發(fā)布768GB內(nèi)存AI推理芯片,“出征”AI數(shù)據(jù)中心

    電子發(fā)燒友網(wǎng)報(bào)道(/莫婷婷)隨著生成式AI應(yīng)用的爆發(fā)式增長(zhǎng),數(shù)據(jù)中心對(duì)高效、低成本、低功耗AI推理能力的需求急劇上升。高通憑借其在移動(dòng)計(jì)算
    的頭像 發(fā)表于 10-29 10:36 ?3656次閱讀
    高通挑戰(zhàn)英偉達(dá),發(fā)布768GB內(nèi)存<b class='flag-5'>AI</b><b class='flag-5'>推理</b>芯片,“出征”<b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b>

    高通挑戰(zhàn)英偉達(dá)!發(fā)布768GB內(nèi)存AI推理芯片,“出征”AI數(shù)據(jù)中心

    電子發(fā)燒友網(wǎng)報(bào)道(/莫婷婷)隨著生成式AI應(yīng)用的爆發(fā)式增長(zhǎng),數(shù)據(jù)中心對(duì)高效、低成本、低功耗AI推理能力的需求急劇上升。高通憑借其在移動(dòng)計(jì)算
    的頭像 發(fā)表于 10-29 09:14 ?6474次閱讀
    高通挑戰(zhàn)英偉達(dá)!發(fā)布768GB內(nèi)存<b class='flag-5'>AI</b><b class='flag-5'>推理</b>芯片,“出征”<b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b>

    邊緣AI算力臨界點(diǎn):深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價(jià)值

    ” 。 隨著DeepSeek、LLaMA等開(kāi)源模型的輕量化演進(jìn),以及具身智能、工業(yè)質(zhì)檢對(duì)實(shí)時(shí)性的嚴(yán)苛要求,AI計(jì)算正在從云數(shù)據(jù)中心擴(kuò)散到離數(shù)據(jù)源頭最近的物理世界。在這背景下,
    發(fā)表于 03-10 14:19

    國(guó)產(chǎn)數(shù)據(jù)中心AI芯片企業(yè)

    電子發(fā)燒友網(wǎng)報(bào)道(/李彎彎)在全球科技競(jìng)爭(zhēng)日益激烈的背景下,數(shù)據(jù)中心AI芯片已成為各國(guó)科技企業(yè)爭(zhēng)奪的戰(zhàn)略高地。隨著嚴(yán)格的芯片出口管制政策實(shí)施,國(guó)產(chǎn)數(shù)據(jù)中心
    的頭像 發(fā)表于 02-09 09:07 ?5142次閱讀

    1分鐘帶你了解數(shù)據(jù)中心供電架構(gòu) #電子元器件 #數(shù)據(jù)中心 #供電架構(gòu)

    數(shù)據(jù)中心
    沛城芯動(dòng)力
    發(fā)布于 :2026年02月03日 15:39:04

    128周才能交貨!AI狂潮下,全球數(shù)據(jù)中心排隊(duì)等變壓器?

    電子發(fā)燒友網(wǎng)報(bào)道(/莫婷婷)AI加速落地,算力需求呈指數(shù)級(jí)增長(zhǎng)。以大模型訓(xùn)練、推理服務(wù)為代表的AI應(yīng)用,推動(dòng)全球數(shù)據(jù)中心規(guī)模持續(xù)擴(kuò)張。據(jù)I
    的頭像 發(fā)表于 01-30 09:06 ?2534次閱讀

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)

    合作案例,成為AI數(shù)據(jù)中心升級(jí)的關(guān)鍵推動(dòng)者。 、技術(shù)實(shí)力:AI光模塊的研發(fā)與量產(chǎn)先鋒 睿海光電作為全球AI光模塊的領(lǐng)先品牌,專注于為
    發(fā)表于 08-13 19:01

    PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?

    數(shù)據(jù)中心的整體可靠性。以下是其核心作用及具體應(yīng)用場(chǎng)景的詳細(xì)分析:、性能優(yōu)化:突破帶寬瓶頸,提升計(jì)算效率 鏈路帶寬利用率分析 場(chǎng)景:在AI訓(xùn)練集群中,GPU通過(guò)PCIe與CPU交換數(shù)據(jù)
    發(fā)表于 07-29 15:02

    中型數(shù)據(jù)中心應(yīng)用平臺(tái)與差分晶體振蕩器參數(shù)對(duì)照中型數(shù)據(jù)中心應(yīng)用平臺(tái)與差分晶體振蕩器參數(shù)對(duì)照

    中型數(shù)據(jù)中心對(duì)高頻、低抖動(dòng)、寬溫與多電壓晶振的需求日益提升,F(xiàn)CO系列差分晶體振蕩器憑借豐富封裝、輸出邏輯選擇與優(yōu)異相位抖動(dòng)性能,為網(wǎng)絡(luò)、存儲(chǔ)、服務(wù)器與邊緣系統(tǒng)提供穩(wěn)定的時(shí)鐘解決方案。FCO-2L 到 FCO-7L 系列,已成為新一代
    發(fā)表于 07-10 14:11

    中型數(shù)據(jù)中心中的差分晶體振蕩器應(yīng)用與匹配方案

    核心網(wǎng)絡(luò)、存儲(chǔ)、通信與計(jì)算節(jié)點(diǎn)。 通過(guò)精準(zhǔn)選型與合理布線,這些高性能差分晶體振蕩器可有效提升數(shù)據(jù)中心設(shè)備間的時(shí)鐘致性與傳輸效率,是構(gòu)建穩(wěn)定、可靠、高吞吐量數(shù)據(jù)中心的關(guān)鍵器件。
    發(fā)表于 07-01 16:33

    華為AI WAN在智算邊緣推理網(wǎng)絡(luò)中的關(guān)鍵優(yōu)勢(shì)

    此前, 2025年3月24日至27日,MPLS&SRv6 AI Net World Congress 2025在法國(guó)巴黎會(huì)議中心舉辦。華為數(shù)據(jù)通信IP標(biāo)準(zhǔn)化高級(jí)代表李呈發(fā)表了題為“AI
    的頭像 發(fā)表于 04-09 09:53 ?1161次閱讀

    適用于數(shù)據(jù)中心AI時(shí)代的800G網(wǎng)絡(luò)

    ,成為新AI數(shù)據(jù)中心的核心驅(qū)動(dòng)力。 AI時(shí)代的兩大數(shù)據(jù)中心AI工廠與
    發(fā)表于 03-25 17:35

    華為全新升級(jí)星河AI數(shù)據(jù)中心網(wǎng)絡(luò)

    在華為中國(guó)合作伙伴大會(huì)2025期間,以 “星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時(shí)代新動(dòng)能”為主題的數(shù)據(jù)中心網(wǎng)絡(luò)分論壇圓滿落幕。本次論壇匯聚了來(lái)自全國(guó)的300多位客戶和伙伴,共同探討
    的頭像 發(fā)表于 03-24 14:46 ?1110次閱讀

    Cadence顛覆AI數(shù)據(jù)中心設(shè)計(jì)

    日前舉辦的英偉達(dá) GTC 2025 開(kāi)發(fā)者大會(huì)匯聚了眾多行業(yè)精英,共同探討人工智能的未來(lái)。而人工智能正在重塑全球數(shù)據(jù)中心的格局。據(jù)預(yù)測(cè),未來(lái)將有 1 萬(wàn)億美元用于 AI 驅(qū)動(dòng)的數(shù)據(jù)中心升級(jí)。然而
    的頭像 發(fā)表于 03-21 15:43 ?1175次閱讀