91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在推理引擎中去除TOPS的頂部

星星科技指導(dǎo)員 ? 來(lái)源:嵌入式計(jì)算設(shè)計(jì) ? 作者:Geoff Tate ? 2022-12-01 15:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著 AI 的爆炸式增長(zhǎng),人們開(kāi)始高度關(guān)注能夠提供 AI 所需性能的新型專(zhuān)用推理引擎。因此,在過(guò)去的六個(gè)月里,我們看到了一系列神經(jīng)推理硬件的發(fā)布,所有這些都有望提供比市場(chǎng)上任何其他產(chǎn)品更好的加速。然而,挑戰(zhàn)在于沒(méi)有人真正知道如何從另一個(gè)衡量一個(gè)。這是一項(xiàng)新技術(shù),像任何新技術(shù)一樣,我們需要指標(biāo),我們需要真正重要的指標(biāo)。

一切都與吞吐量有關(guān)

當(dāng)推理引擎的性能出現(xiàn)時(shí),供應(yīng)商會(huì)拋出基準(zhǔn)測(cè)試,引用TOPS(Tera-Operations/second)性能和TOPS/Watt等內(nèi)容。研究這些數(shù)字的系統(tǒng)/芯片設(shè)計(jì)人員很快意識(shí)到這些數(shù)字通常毫無(wú)意義。真正重要的是推理引擎可以為模型、圖像大小、批量大小和過(guò)程以及 PVT(過(guò)程/電壓/溫度)條件提供多少吞吐量。這是衡量其性能的第一標(biāo)準(zhǔn),但令人驚訝的是,很少有供應(yīng)商提供它。

TOPS最大的問(wèn)題是,當(dāng)一家公司說(shuō)他們的發(fā)動(dòng)機(jī)做X TOPS時(shí),他們通常會(huì)引用這個(gè)而不說(shuō)明條件是什么。在不知道這些信息的情況下,他們錯(cuò)誤地認(rèn)為X TOPS意味著它可以執(zhí)行X萬(wàn)億次操作。實(shí)際上,報(bào)價(jià) 130 TOPS 的公司可能只能提供 27 TOPS 的可用吞吐量。

另一個(gè)正在使用但不太常見(jiàn)的基準(zhǔn)測(cè)試是ResNet-50。這個(gè)基準(zhǔn)的問(wèn)題在于,大多數(shù)引用它的公司都沒(méi)有給出批量大小。當(dāng)他們不提供這一點(diǎn)時(shí),芯片設(shè)計(jì)人員可以假設(shè)這將是一個(gè)大批量大小,以最大限度地提高他們的硬件利用率百分比。這使得 ResNet-50 作為基準(zhǔn)測(cè)試不是很有幫助。相比之下,例如,YOLOv3 需要 100 倍以上的操作來(lái)處理 200 萬(wàn)像素的圖像。硬件利用率在“現(xiàn)實(shí)世界”模型上將面臨更大的挑戰(zhàn)。

如何正確測(cè)量神經(jīng)推理引擎

在評(píng)估神經(jīng)推理引擎時(shí),有幾個(gè)關(guān)鍵事項(xiàng)需要考慮。以下是最重要的考慮因素以及它們真正重要的原因。

定義什么是操作:一些供應(yīng)商將乘法(通常為 INT 8 乘以 INT 8)計(jì)為一個(gè)運(yùn)算,將累加(加法,通常為 INT 32)計(jì)為一個(gè)運(yùn)算。因此,單個(gè)乘法累加等于 2 個(gè)運(yùn)算。但是,一些供應(yīng)商在其TOPS規(guī)范中包含其他類(lèi)型的操作,因此必須在開(kāi)始時(shí)進(jìn)行澄清。

詢(xún)問(wèn)操作條件是什么:如果供應(yīng)商在沒(méi)有提供條件的情況下給出 TOPS,他們通常使用室溫、標(biāo)稱(chēng)電壓和典型工藝。通常他們會(huì)提到他們指的是哪個(gè)工藝節(jié)點(diǎn),但不同供應(yīng)商的運(yùn)行速度不同,大多數(shù)工藝都提供 2、3 或更高的標(biāo)稱(chēng)電壓。由于性能是頻率的函數(shù),而頻率是電壓的函數(shù),因此芯片設(shè)計(jì)人員在0.9V下可以獲得比0.6V時(shí)兩倍以上的性能。頻率因條件/假設(shè)而異。有關(guān)此方面的更多信息,請(qǐng)參閱本應(yīng)用筆記。

查看批量大小:即使供應(yīng)商提供了最壞情況的TOPS,芯片設(shè)計(jì)人員也需要弄清楚所有這些操作是否真的有助于計(jì)算他們的神經(jīng)網(wǎng)絡(luò)模型。實(shí)際上,實(shí)際利用率可能非常低,因?yàn)闆](méi)有推理引擎始終對(duì)所有 MAC 具有 100% 的利用率。這就是為什么批量大小很重要的原因。批處理是為給定層加載權(quán)重并同時(shí)處理多個(gè)數(shù)據(jù)集。這樣做的原因是提高吞吐量,但放棄的是更長(zhǎng)的延遲。ResNet-50 有超過(guò) 2000 萬(wàn)個(gè)權(quán)重;YOLOv3 有超過(guò) 6000 萬(wàn)個(gè)權(quán)重;并且必須獲取每個(gè)權(quán)重并將其加載到每個(gè)圖像的MAC結(jié)構(gòu)中。有太多的權(quán)重,無(wú)法將它們?nèi)狂v留在 MAC 結(jié)構(gòu)中。

查找您的 MAC 利用率:并非所有神經(jīng)網(wǎng)絡(luò)的行為都相同。您需要以所需的批大小找出要部署的神經(jīng)網(wǎng)絡(luò)模型的神經(jīng)推理引擎的實(shí)際 MAC 利用率。

深入了解 TOPS

如果你是一個(gè)正在研究神經(jīng)推理引擎的設(shè)計(jì)師,希望這篇文章能闡明要尋找什么。請(qǐng)記住,吞吐量才是最重要的。重要的是不要陷入無(wú)意義的基準(zhǔn)測(cè)試,如TOPS和ResNet-50,除非你知道要問(wèn)的事情。首先提出以下問(wèn)題:在批量大小= A和XYZ PVT條件下,特定模型(例如YOLOv3)可以處理多少圖像/秒。一旦你開(kāi)始指定條件和假設(shè),你就會(huì)開(kāi)始了解任何神經(jīng)推理在現(xiàn)實(shí)世界中的表現(xiàn)。歸根結(jié)底,這才是最重要的。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    463

    文章

    54024

    瀏覽量

    466390
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4838

    瀏覽量

    107856
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39866

    瀏覽量

    301525
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    邊緣AI算力臨界點(diǎn):深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價(jià)值

    310P芯片的底層架構(gòu),深度剖析這款產(chǎn)品的技術(shù)細(xì)節(jié)、算力門(mén)檻及其實(shí)際產(chǎn)業(yè)落地中的真實(shí)價(jià)值。 一、176TOPS的產(chǎn)業(yè)門(mén)檻:為何這是邊緣算力的新起點(diǎn)? AI硬件的核心指標(biāo)始終是算力,但不同層級(jí)的算力決定
    發(fā)表于 03-10 14:19

    新品 | AI Pyramid AI Pyramid-Pro,面向本地推理與智能交互的高性能AI PC

    AIPyramid是一款金字塔形狀的高性能AIPC,專(zhuān)為本地AI推理與邊緣智能應(yīng)用而生。內(nèi)置AxeraAX8850SoC,集成八核Cortex-A55處理器與24TOPS@INT8NPU,輕松應(yīng)對(duì)
    的頭像 發(fā)表于 02-06 17:24 ?3665次閱讀
    新品 | AI Pyramid AI Pyramid-Pro,面向本地<b class='flag-5'>推理</b>與智能交互的高性能AI PC

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對(duì)當(dāng)前大型推理模型(LRM)進(jìn)行了深刻的剖析,超越了表面的性能宣傳,直指其技術(shù)本質(zhì)和核心局限。以下是基于原文的詳細(xì)技術(shù)原理、關(guān)鍵
    的頭像 發(fā)表于 01-19 15:33 ?521次閱讀
    LLM<b class='flag-5'>推理</b>模型是如何<b class='flag-5'>推理</b>的?

    QDPAK頂部散熱封裝簡(jiǎn)介

    QDPAK頂部散熱器件是一種表貼器件產(chǎn)品。相對(duì)于傳統(tǒng)表貼產(chǎn)品只能從底部進(jìn)行散熱的方式,頂部散熱器件分離了電氣路徑和熱流路徑,尤其適合在高功率密度的應(yīng)用,如AI服務(wù)器電源和車(chē)載充電器等應(yīng)用。而英飛凌
    的頭像 發(fā)表于 12-18 17:08 ?779次閱讀
    QDPAK<b class='flag-5'>頂部</b>散熱封裝簡(jiǎn)介

    思必馳場(chǎng)景化推理AI重塑智能交互

    AI技術(shù)從“感知”走向“認(rèn)知”的今天,推理能力正成為推動(dòng)人工智能向更高階躍遷的核心引擎。
    的頭像 發(fā)表于 12-12 11:31 ?750次閱讀

    澎峰科技完成OpenAI最新開(kāi)源推理模型適配

    澎峰科技現(xiàn)已完成 OpenAI 最新開(kāi)源推理模型 gpt-oss-20b DeepFusion 大模型一體機(jī)上的原生適配與優(yōu)化,用戶(hù)可一鍵啟用這顆“小而強(qiáng)悍”的新引擎,本地享受企
    的頭像 發(fā)表于 08-14 11:34 ?1415次閱讀

    積算科技上線(xiàn)赤兔推理引擎服務(wù),創(chuàng)新解鎖FP8大模型算力

    的模型輕量化部署方案。用戶(hù)通過(guò)遠(yuǎn)程算力平臺(tái)預(yù)置的模型鏡像與AI工具,僅需50%的GPU算力即可解鎖大模型推理、企業(yè)知識(shí)庫(kù)搭建、智能體開(kāi)發(fā),加速大模型智能問(wèn)答、報(bào)告生成、客服助手、智能體等典型行業(yè)場(chǎng)景的落地。 ? 赤兔推理
    的頭像 發(fā)表于 07-30 21:44 ?922次閱讀

    基于米爾瑞芯微RK3576開(kāi)發(fā)板部署運(yùn)行TinyMaix:超輕量級(jí)推理框架

    本文將介紹基于米爾電子MYD-LR3576開(kāi)發(fā)平臺(tái)部署超輕量級(jí)推理框架方案:TinyMaix 摘自?xún)?yōu)秀創(chuàng)作者-短笛君 TinyMaix 是面向單片機(jī)的超輕量級(jí)的神經(jīng)網(wǎng)絡(luò)推理庫(kù),即 TinyML
    發(fā)表于 07-25 16:35

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    模態(tài)的技術(shù)特性,DeepSeek正加速推動(dòng)AI金融、政務(wù)、科研及網(wǎng)絡(luò)智能化等關(guān)鍵領(lǐng)域的深度應(yīng)用。 信而泰:AI推理引擎賦能網(wǎng)絡(luò)智能診斷新范式信而泰深度整合DeepSeek-R1大模型系統(tǒng),構(gòu)建了新一代
    發(fā)表于 07-16 15:29

    大模型推理顯存和計(jì)算量估計(jì)方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型各個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而,大模型的推理過(guò)程對(duì)顯存和計(jì)算資源的需求較高,給實(shí)際應(yīng)用帶來(lái)了挑戰(zhàn)。為了解決這一問(wèn)題,本文將探討大模型推理顯存和計(jì)算量的估計(jì)
    發(fā)表于 07-03 19:43

    芯原超低能耗NPU可為移動(dòng)端大語(yǔ)言模型推理提供超40 TOPS算力

    芯原股份今日宣布其超低能耗且高性能的神經(jīng)網(wǎng)絡(luò)處理器(NPU)IP現(xiàn)已支持移動(dòng)端進(jìn)行大語(yǔ)言模型(LLM)推理,AI算力可擴(kuò)展至40 TOPS以上。該高能效NPU架構(gòu)專(zhuān)為滿(mǎn)足移動(dòng)平臺(tái)日益增長(zhǎng)的生成式
    的頭像 發(fā)表于 06-11 10:47 ?884次閱讀

    6TOPS算力NPU加持!RK3588如何重塑8K顯示的邊緣計(jì)算新邊界

    ,RK3588都能快速解析復(fù)雜的8K視頻流。以交通監(jiān)控為例,傳統(tǒng)設(shè)備處理8K分辨率的交通視頻時(shí),往往難以實(shí)時(shí)識(shí)別車(chē)牌和行人動(dòng)作,而RK3588憑借6TOPS的強(qiáng)大算力,不僅能夠?qū)崟r(shí)解碼8K視頻,還能同步
    發(fā)表于 04-18 15:32

    谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?

    Cloud 客戶(hù)開(kāi)放,將提供 256 芯片集群以及 9,216 芯片集群兩種配置選項(xiàng)。 ? 核心亮點(diǎn)層面,Ironwood 堪稱(chēng)谷歌首款專(zhuān)門(mén)為 AI 推理精心設(shè)計(jì)的 TPU 芯片,能夠有力支持大規(guī)模思考
    的頭像 發(fā)表于 04-12 00:57 ?3755次閱讀

    詳解 LLM 推理模型的現(xiàn)狀

    領(lǐng)域的最新研究進(jìn)展,特別是自DeepSeekR1發(fā)布后興起的推理時(shí)間計(jì)算擴(kuò)展相關(guān)內(nèi)容。LLM中實(shí)施和改進(jìn)推理簡(jiǎn)單來(lái)說(shuō),基于LLM的推理模型是一種旨在通過(guò)生成中間
    的頭像 發(fā)表于 04-03 12:09 ?1638次閱讀
    詳解 LLM <b class='flag-5'>推理</b>模型的現(xiàn)狀

    OpenHarmony5.0系統(tǒng)怎么去除鎖屏直接進(jìn)入界面?教你2步搞定

    本文介紹OpenHarmony5.0Release操作系統(tǒng)下,去除鎖屏開(kāi)機(jī)后直接進(jìn)入界面的方法。觸覺(jué)智能PurplePiOH鴻蒙開(kāi)發(fā)板演示,搭載了瑞芯微RK3566四核處理器,1TOPS算力NPU
    的頭像 發(fā)表于 03-12 18:51 ?1161次閱讀
    OpenHarmony5.0系統(tǒng)怎么<b class='flag-5'>去除</b>鎖屏直接進(jìn)入界面?教你2步搞定