91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

不要相信報告的深度學(xué)習(xí)TOPS指標(biāo)

蕭藹晨 ? 來源:njlbdz ? 作者:njlbdz ? 2022-07-15 16:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能公司通常會關(guān)注一個標(biāo)準(zhǔn):每秒更多 tera 操作 (TOPS)。不幸的是,當(dāng)硅制造商宣傳他們的 TOPS 指標(biāo)時,他們并沒有真正提供準(zhǔn)確的指導(dǎo)。在大多數(shù)情況下,被炒作的數(shù)字并不是真正的 TOPS,而是峰值 TOPS。換句話說,你認(rèn)為你在卡中獲得的 TOPS 數(shù)字實際上是芯片在一個非常完美的世界中表現(xiàn)的最佳情況。

我將討論行業(yè)因錯誤標(biāo)記性能指標(biāo)而造成的問題,并解釋用戶如何獨立評估現(xiàn)實世界的 TOPS。

人造上衣與真上衣

AI 應(yīng)用程序開發(fā)人員通常會通過衡量芯片制造商發(fā)布的 TOPS 性能數(shù)據(jù)是否足以支持他們的項目來開始進(jìn)行盡職調(diào)查。

假設(shè)您嘗試在 U-Net 神經(jīng)網(wǎng)絡(luò)上以 10 fps(每秒幀數(shù))重新制作全高清圖像。由于 U-Net 操作每張圖像需要 3 TOPS,簡單的數(shù)學(xué)表示您需要 30 TOPS 才能以所需的 FPS 完成項目。因此,在購買芯片時,您會假設(shè)聲稱運(yùn)行 50、40 甚至 32 TOPS 的卡對項目來說是安全的。在一個完美的世界里,是的,但你很快就會發(fā)現(xiàn)這張卡很少能達(dá)到廣告的數(shù)字。而且我們不是在談?wù)搩H僅幾滴TOPS;計算效率可低至 10%。

雖然調(diào)整神經(jīng)網(wǎng)絡(luò)以從卡中獲得更好的性能當(dāng)然是可能的,但您幾乎不可能接近供應(yīng)商列出的峰值 TOPS。試圖獲得 60% 或 70% 的計算效率將耗費(fèi)大量時間。如果神經(jīng)網(wǎng)絡(luò)發(fā)生任何變化,您將不得不回到原點重新優(yōu)化所有內(nèi)容——但它甚至可能不適用于您的應(yīng)用程序。這個問題對于小批量處理尤其明顯;你會很幸運(yùn)能獲得超過 15% 的峰值 TOPS。

計算效率

此時,您可能想知道如何計算真正的 TOPS。這很簡單!

要了解特定卡將提供多少真實 TOPS,您首先需要確定該卡的計算效率。理想情況下,這可以通過簡單地在目標(biāo)卡上運(yùn)行所需的神經(jīng)網(wǎng)絡(luò)來完成。但是,您可能沒有該卡。您仍然可以通過查看供應(yīng)商的營銷數(shù)據(jù)的詳細(xì)信息來進(jìn)行估算。通??梢垣@得像 ResNet50(或類似的)這樣的神經(jīng)網(wǎng)絡(luò)的性能數(shù)據(jù)。假設(shè)這是一個典型的 ResNet50 實現(xiàn),您可以找到計算單個圖像的每秒千兆操作數(shù)(GOPS,而不是 TOPS)。然后,只需將其乘以供應(yīng)商宣傳的每秒圖像數(shù) (IPS),瞧!您就有了更真實的 TOPS 或“真實”TOPS。

效率只是 real 除以峰值 TOPS 的比率,或者:

峰值 TOPS x 計算效率 = 實際 TOPS

這個公式使用戶能夠在購買任何東西之前比較卡在運(yùn)行神經(jīng)網(wǎng)絡(luò)時的真實效率。您可以使用所需的 TOPS 重用效率,看看它是否符合您的需求。雖然功率和批量大小等因素會影響結(jié)果,但如果您知道卡的效率,則此公式可以很好地估計其在實際用例中的實際性能。當(dāng)然,供應(yīng)商發(fā)布的神經(jīng)網(wǎng)絡(luò)的 IPS 仍然可以質(zhì)疑,但至少估計比比較你真正需要的 TOPS 和一張卡的峰值 TOPS 更好。

還值得注意的是,這不僅僅是 GPU 問題。大多數(shù)專業(yè) ASIC 的實際效率非常低,即使他們的營銷促進(jìn)了高效率。只需使用 IPS、已知的網(wǎng)絡(luò) GOPS 和簡單的乘法運(yùn)算,您就可以了解一個真實的數(shù)字。

高效的替代品

盡管 GPU 和 ASIC 都在效率和性能上苦苦掙扎,但有一種替代解決方案不涉及這些芯片中的任何一個。

2020 年 10 月的 MLPerf 結(jié)果表明,與推理加速相結(jié)合的 FPGA 比其他替代方案的效率要高得多,因此可以更接近其他芯片制造商宣傳的最高 TOPS 數(shù)。

pYYBAGLO9LqAb-1dAACNdthL3nw757.jpg


比較不同架構(gòu)下每個發(fā)布的 TOPS 數(shù)據(jù)的每秒幀數(shù) (FPS)(來源:Mipsology)

FPGA 不僅在計算方面更高效,而且在計算硅片使用方面也更高效。從本質(zhì)上講,這些卡“事半功倍”,從而以一小部分成本獲得更好的神經(jīng)網(wǎng)絡(luò)性能。

值得重復(fù)一遍:買家不應(yīng)該因為 TOPS 營銷炒作而墮落。這是一個夸大的性能數(shù)字,大多數(shù)神經(jīng)網(wǎng)絡(luò)在現(xiàn)實條件下永遠(yuǎn)不會看到。相反,利用這個公式:

峰值 TOPS x 計算效率 = 實際 TOPS

這樣做將幫助您快速、輕松、準(zhǔn)確地將您的性能需求與芯片的實際性能進(jìn)行比較,而不是任何夸大的供應(yīng)商聲稱。

——Ludovic Larzul 是 Mipsology 的創(chuàng)始人兼首席執(zhí)行官。



審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4839

    瀏覽量

    108052
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40642

    瀏覽量

    302302
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    【智能檢測】基于AI深度學(xué)習(xí)與飛拍技術(shù)的影像測量系統(tǒng):實現(xiàn)高效精準(zhǔn)的全自動光學(xué)檢測與智能制造數(shù)據(jù)閉環(huán)

    內(nèi)容概要:文檔內(nèi)容介紹了中圖儀器(Chotest)影像測量儀融合人工智能深度學(xué)習(xí)與飛拍技術(shù)的自動化檢測解決方案。系統(tǒng)通過AI深度學(xué)習(xí)實現(xiàn)抗干擾能力強(qiáng)、自適應(yīng)高的智能尋邊,精準(zhǔn)識別復(fù)
    發(fā)表于 03-31 17:11

    邊緣AI算力臨界點:深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價值

    310P芯片的底層架構(gòu),深度剖析這款產(chǎn)品的技術(shù)細(xì)節(jié)、算力門檻及其在實際產(chǎn)業(yè)落地中的真實價值。 一、176TOPS的產(chǎn)業(yè)門檻:為何這是邊緣算力的新起點? AI硬件的核心指標(biāo)始終是算力,但不同層級的算力決定
    發(fā)表于 03-10 14:19

    資料] 汽車軟件質(zhì)量躍遷的系統(tǒng)性路徑:基于ISO 26262標(biāo)準(zhǔn)的單元測試體系重構(gòu)與中日實踐深度對比(2026學(xué)術(shù)研究報告

    各位伙伴,請問一個問題,[資料] 汽車軟件質(zhì)量躍遷的系統(tǒng)性路徑:基于ISO 26262標(biāo)準(zhǔn)的單元測試體系重構(gòu)與中日實踐深度對比(2026學(xué)術(shù)研究報告),這份數(shù)據(jù)誰有源參考文獻(xiàn),有酬感謝
    發(fā)表于 01-08 10:09

    機(jī)器學(xué)習(xí)深度學(xué)習(xí)中需避免的 7 個常見錯誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作一段時間,機(jī)器學(xué)習(xí)深度學(xué)習(xí)中都存在一些我們需要時刻關(guān)注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發(fā)諸多麻煩!只要我們密切關(guān)注數(shù)據(jù)、模型架構(gòu)
    的頭像 發(fā)表于 01-07 15:37 ?297次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>和<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個常見錯誤與局限性

    算力高達(dá) 1570 TOPS!支持多硬盤的高算力服務(wù)器 CSB2-N10

    CSB2-N10服務(wù)器內(nèi)置10個分布式計算節(jié)點,單節(jié)點可提供6-157TOPS算力,可選瑞芯微、算能、NVIDIA等平臺。支持主流AI大模型的私有化部署、多種深度學(xué)習(xí)框架。擁有2個萬兆網(wǎng)口、2千兆網(wǎng)
    的頭像 發(fā)表于 01-06 16:33 ?640次閱讀
    算力高達(dá) 1570 <b class='flag-5'>TOPS</b>!支持多硬盤的高算力服務(wù)器 CSB2-N10

    穿孔機(jī)頂頭檢測儀 機(jī)器視覺深度學(xué)習(xí)

    LX01Z-DG626穿孔機(jī)頂頭檢測儀采用深度學(xué)習(xí)技術(shù),能夠?qū)崿F(xiàn)頂頭狀態(tài)的在線實時檢測,頂頭丟失報警,頂頭異常狀態(tài)報警等功能,響應(yīng)迅速,異常狀態(tài)視頻回溯,檢測頂頭溫度,配備吹掃清潔系統(tǒng),維護(hù)周期長
    發(fā)表于 12-22 14:33

    算力高達(dá) 1100 TOPS!內(nèi)置 Jetson AGX Orin 模組的高算力服務(wù)器

    CSB1-N4AGXOrin最高可配置4個NVIDIAJetsonAGXOrin(64GB)計算節(jié)點,算力最高1100TOPS(INT8)。支持主流AI大模型的私有化部署、多種深度學(xué)習(xí)框架。擁有4個
    的頭像 發(fā)表于 12-17 16:31 ?719次閱讀
    算力高達(dá) 1100 <b class='flag-5'>TOPS</b>!內(nèi)置 Jetson AGX Orin 模組的高算力服務(wù)器

    從直流到高頻:深度解析電流探頭的關(guān)鍵性能指標(biāo)與選型指南

    深度解析電流探頭的關(guān)鍵性能指標(biāo)與選型指南
    的頭像 發(fā)表于 12-17 14:54 ?465次閱讀

    如何深度學(xué)習(xí)機(jī)器視覺的應(yīng)用場景

    深度學(xué)習(xí)視覺應(yīng)用場景大全 工業(yè)制造領(lǐng)域 復(fù)雜缺陷檢測:處理傳統(tǒng)算法難以描述的非標(biāo)準(zhǔn)化缺陷模式 非標(biāo)產(chǎn)品分類:對形狀、顏色、紋理多變的產(chǎn)品進(jìn)行智能分類 外觀質(zhì)量評估:基于學(xué)習(xí)的外觀質(zhì)量標(biāo)準(zhǔn)判定 精密
    的頭像 發(fā)表于 11-27 10:19 ?281次閱讀

    算力高達(dá) 275 TOPS!EC-AGXOrin 邊緣計算主機(jī)

    采用NVIDIAJetsonAGXOrin(64GB)模組,算力可達(dá)275TOPS,支持多種AI大模型和深度學(xué)習(xí)框架。支持22路1080P視頻解碼。配置工業(yè)級全鋁合金外殼、兩個散熱風(fēng)扇設(shè)計,7×24
    的頭像 發(fā)表于 10-21 16:33 ?1924次閱讀
    算力高達(dá) 275 <b class='flag-5'>TOPS</b>!EC-AGXOrin 邊緣計算主機(jī)

    如何在機(jī)器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

    圖 1:基于深度學(xué)習(xí)的目標(biāo)檢測可定位已訓(xùn)練的目標(biāo)類別,并通過矩形框(邊界框)對其進(jìn)行標(biāo)識。 在討論人工智能(AI)或深度學(xué)習(xí)時,經(jīng)常會出現(xiàn)“神經(jīng)網(wǎng)絡(luò)”、“黑箱”、“標(biāo)注”等術(shù)語。這些概
    的頭像 發(fā)表于 09-10 17:38 ?997次閱讀
    如何在機(jī)器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>神經(jīng)網(wǎng)絡(luò)

    深度學(xué)習(xí)對工業(yè)物聯(lián)網(wǎng)有哪些幫助

    深度學(xué)習(xí)作為人工智能的核心分支,通過模擬人腦神經(jīng)網(wǎng)絡(luò)的層級結(jié)構(gòu),能夠自動從海量工業(yè)數(shù)據(jù)中提取復(fù)雜特征,為工業(yè)物聯(lián)網(wǎng)(IIoT)提供了從數(shù)據(jù)感知到智能決策的全鏈路升級能力。以下從技術(shù)賦能、場景突破
    的頭像 發(fā)表于 08-20 14:56 ?1144次閱讀

    自動駕駛中Transformer大模型會取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4319次閱讀
    自動駕駛中Transformer大模型會取代<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>嗎?

    當(dāng)深度學(xué)習(xí)遇上嵌入式資源困境,特征空間如何破局?

    近年來,隨著人工智能(AI)技術(shù)的迅猛發(fā)展,深度學(xué)習(xí)(Deep Learning)成為最熱門的研究領(lǐng)域之一。在語音識別、圖像識別、自然語言處理等領(lǐng)域,深度學(xué)習(xí)取得了顯著成果。從原理上看
    發(fā)表于 07-14 14:50 ?1295次閱讀
    當(dāng)<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>遇上嵌入式資源困境,特征空間如何破局?