91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基準(zhǔn)分?jǐn)?shù)突出了廣泛的機(jī)器學(xué)習(xí)推理性能

張艷 ? 來(lái)源:Lucia_nie ? 作者:Lucia_nie ? 2022-07-21 10:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

繼今年早些時(shí)候發(fā)布的訓(xùn)練基準(zhǔn)分?jǐn)?shù)之后,MLPerf 發(fā)布了其推理基準(zhǔn)的第一組基準(zhǔn)分?jǐn)?shù)。

與目前有 5 家公司的 63 份參賽作品的訓(xùn)練輪相比,更多的公司提交了基于 MobileNet、ResNet、Yolo 等神經(jīng)網(wǎng)絡(luò)架構(gòu)的推理結(jié)果??偣灿衼?lái)自 14 個(gè)組織的 500 多個(gè)分?jǐn)?shù)進(jìn)行了驗(yàn)證。這包括來(lái)自幾家初創(chuàng)公司的數(shù)據(jù),而一些知名初創(chuàng)公司仍然明顯缺席。

在封閉的部門,其嚴(yán)格的條件可以直接比較系統(tǒng),結(jié)果顯示性能差異為 5 個(gè)數(shù)量級(jí),并且在估計(jì)的功耗方面跨越三個(gè)數(shù)量級(jí)。在開(kāi)放部門中,提交可以使用一系列模型,包括低精度實(shí)現(xiàn)。

Nvidia 在封閉部門的所有類別中都獲得了商用設(shè)備的第一名。其他領(lǐng)先者包括數(shù)據(jù)中心類別的 Habana Labs、谷歌和英特爾,而 Nvidia 在邊緣類別中與英特爾和高通競(jìng)爭(zhēng)。

pYYBAGLXT8uAc4TSAAEshK1KHAk991.jpg

英偉達(dá)用于數(shù)據(jù)中心推理的 EGX 平臺(tái)(圖片:英偉達(dá))

Moor Insights and Strategy 分析師 Karl Freund 表示:“Nvidia 是唯一一家擁有生產(chǎn)芯片、軟件、可編程性和人才的公司,可以發(fā)布跨 MLPerf 范圍內(nèi)的基準(zhǔn)測(cè)試,并在幾乎所有類別中獲勝?!?“GPU 的可編程性為未來(lái)的 MLPerf 版本提供了獨(dú)特的優(yōu)勢(shì)……我認(rèn)為這展示了 [Nvidia] 實(shí)力的廣度,以及挑戰(zhàn)者的利基性質(zhì)。但隨著時(shí)間的推移,許多挑戰(zhàn)者會(huì)變得成熟,因此英偉達(dá)需要繼續(xù)在硬件和軟件方面進(jìn)行創(chuàng)新?!?/p>

Nvidia 發(fā)布的圖表顯示了其對(duì)結(jié)果的解釋,在商用設(shè)備的封閉部門的所有四個(gè)場(chǎng)景中,它都位居第一。

這些場(chǎng)景代表不同的用例。離線和服務(wù)器場(chǎng)景用于數(shù)據(jù)中心的推理。離線場(chǎng)景可能代表大量圖片的離線照片標(biāo)記并測(cè)量純吞吐量。服務(wù)器場(chǎng)景代表一個(gè)用例,其中包含來(lái)自不同用戶的多個(gè)請(qǐng)求,在不可預(yù)測(cè)的時(shí)間提交請(qǐng)求,并在固定時(shí)間測(cè)量吞吐量。邊緣場(chǎng)景是單流,它對(duì)單個(gè)圖像進(jìn)行推理,例如在手機(jī)應(yīng)用程序中,以及多流,它測(cè)量可以同時(shí)推理多少個(gè)圖像流,用于多攝像頭系統(tǒng)。

公司可以為選定的機(jī)器學(xué)習(xí)模型提交結(jié)果,這些模型在四種場(chǎng)景中的每一種中執(zhí)行圖像分類、對(duì)象檢測(cè)和語(yǔ)言翻譯。

數(shù)據(jù)中心結(jié)果

“從數(shù)據(jù)中心的結(jié)果來(lái)看,Nvidia 在服務(wù)器和離線類別的所有五個(gè)基準(zhǔn)測(cè)試中均名列前茅,”Nvidia 加速計(jì)算產(chǎn)品管理總監(jiān) Paresh Kharya 說(shuō)?!霸谏逃媒鉀Q方案中,我們的 Turing GPU 的性能優(yōu)于其他所有人?!?/p>

Kharya 強(qiáng)調(diào)了這樣一個(gè)事實(shí),即英偉達(dá)是唯一一家在數(shù)據(jù)中心類別的所有五個(gè)基準(zhǔn)模型中提交結(jié)果的公司,而對(duì)于服務(wù)器類別(這是更困難的情況),英偉達(dá)的性能相對(duì)于其競(jìng)爭(zhēng)對(duì)手有所提高。

pYYBAGLXT9CAY9DfAADuOqQxTLg534.jpg

選定的數(shù)據(jù)中心基準(zhǔn)測(cè)試結(jié)果來(lái)自封閉部門,在商用設(shè)備類別中處于領(lǐng)先地位。結(jié)果顯示相對(duì)于每個(gè)加速器的 Nvidia 分?jǐn)?shù)。X 代表“未提交結(jié)果”(圖片:Nvidia)

英偉達(dá)在數(shù)據(jù)中心領(lǐng)域最接近的競(jìng)爭(zhēng)對(duì)手是擁有Goya 推理芯片的以色列初創(chuàng)公司 Habana Labs 。

分析師 Karl Freund 表示:“Habana 是唯一一個(gè)全面生產(chǎn)高性能芯片的挑戰(zhàn)者,當(dāng)下一個(gè) MLPerf 套件有望包含功耗數(shù)據(jù)時(shí),它應(yīng)該會(huì)做得很好?!?/p>

Habana Labs 在接受 EETimes 采訪時(shí)指出,基準(zhǔn)分?jǐn)?shù)純粹基于性能——功耗不是衡量標(biāo)準(zhǔn),實(shí)用性也不是(例如考慮解決方案是被動(dòng)冷卻還是水冷),成本也不是。

poYBAGLXT9mAV4bIAAD-pxpLakQ911.jpg

Habana Labs PCIe 卡采用 Goya 推理芯片(圖片:Habana Labs)

Habana 還使用開(kāi)放分區(qū)來(lái)展示其低延遲能力,比封閉分區(qū)進(jìn)一步限制延遲,并為多流場(chǎng)景提交結(jié)果。

邊緣計(jì)算結(jié)果

在邊緣基準(zhǔn)測(cè)試中,Nvidia 贏得了所有四個(gè)在封閉部門提交商用解決方案的類別。高通的 Snapdragon 855 SoC 和英特爾的 Xeon CPU 在單流類別中落后于英偉達(dá),高通和英特爾都沒(méi)有提交更困難的多流場(chǎng)景的結(jié)果。

poYBAGLXT9-AeURxAADPVeR-l4A989.jpg

選定的邊緣基準(zhǔn)測(cè)試結(jié)果來(lái)自封閉部門,在商用設(shè)備類別中處于領(lǐng)先地位。結(jié)果顯示相對(duì)于每個(gè)加速器的 Nvidia 分?jǐn)?shù)。X 代表“未提交結(jié)果”(圖片:Nvidia)

“預(yù)覽”系統(tǒng)(尚未商業(yè)化)的結(jié)果將阿里巴巴 T-Head 的含光芯片與英特爾的 Nervana NNP-I、Hailo-8和 Centaur Technologies 的參考設(shè)計(jì)進(jìn)行了對(duì)比。與此同時(shí),研發(fā)類別的特色是一家隱秘的韓國(guó)初創(chuàng)公司 Furiosa AI,對(duì)此我們知之甚少。

MLPerf 網(wǎng)站上提供了最近的推理分?jǐn)?shù)以及早期的訓(xùn)練分?jǐn)?shù)。



審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    今日看點(diǎn):消息稱 AMD、高通考慮導(dǎo)入 SOCAMM 內(nèi)存;曦望發(fā)布新一代推理GPU芯片啟望S3

    推理深度定制的GPGPU芯片。其單芯片推理性能提升5倍,支持從FP16到FP8、FP6、FP4等多精度靈活切換,釋放低精度推理效率,這種設(shè)計(jì)更貼合當(dāng)前MoE和長(zhǎng)上下文模型在推理階段的需
    發(fā)表于 01-28 11:09 ?1046次閱讀

    DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 與 x86 平臺(tái)交付可規(guī)?;母?b class='flag-5'>性能 OCR 能力

    落地過(guò)程中,企業(yè)逐漸意識(shí)到:** 制約 OCR 應(yīng)用進(jìn)一步擴(kuò)展的核心因素,已不再是模型準(zhǔn)確率本身,而是整體推理性能與部署成本。 具體來(lái)說(shuō),規(guī)?;?OCR 應(yīng)用主要面臨以下幾方面挑戰(zhàn): 吞吐量(FPS)不足 ,難以支撐高并發(fā)或多路輸入場(chǎng)景; 推理時(shí)
    的頭像 發(fā)表于 01-22 21:02 ?167次閱讀
    DeepX OCR:以 DeepX NPU 加速 PaddleOCR <b class='flag-5'>推理</b>,在 ARM 與 x86 平臺(tái)交付可規(guī)模化的高<b class='flag-5'>性能</b> OCR 能力

    通過(guò)NVIDIA Jetson AGX Thor實(shí)現(xiàn)7倍生成式AI性能

    Jetson Thor 平臺(tái)還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構(gòu)的新 NVFP4 格式,有助于進(jìn)一步優(yōu)化推理性能。該平臺(tái)同時(shí)支持推測(cè)解碼等新技術(shù),為在邊緣端加速生成式 AI 工作負(fù)載提供了新的途徑。
    的頭像 發(fā)表于 10-29 16:53 ?1444次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑:一方面,針對(duì)需
    的頭像 發(fā)表于 10-21 11:04 ?1200次閱讀

    利用NVIDIA DOCA GPUNetIO技術(shù)提升MoE模型推理性能

    在第三屆 NVIDIA DPU 中國(guó)黑客松競(jìng)賽中,我們見(jiàn)證了開(kāi)發(fā)者與 NVIDIA 網(wǎng)絡(luò)技術(shù)的深度碰撞。在 23 支參賽隊(duì)伍中,有 5 支隊(duì)伍脫穎而出,展現(xiàn)了在 AI 網(wǎng)絡(luò)、存儲(chǔ)和安全等領(lǐng)域的創(chuàng)新突破。
    的頭像 發(fā)表于 09-23 15:25 ?1037次閱讀

    使用NVIDIA NVLink Fusion技術(shù)提升AI推理性能

    本文詳細(xì)闡述了 NVIDIA NVLink Fusion 如何借助高效可擴(kuò)展的 NVIDIA NVLink scale-up 架構(gòu)技術(shù),滿足日益復(fù)雜的 AI 模型不斷增長(zhǎng)的需求。
    的頭像 發(fā)表于 09-23 14:45 ?940次閱讀
    使用NVIDIA NVLink Fusion技術(shù)提升AI<b class='flag-5'>推理性能</b>

    使用OpenVINO將PP-OCRv5模型部署在Intel顯卡上

    是一個(gè)用于優(yōu)化和部署人工智能(AI)模型,提升AI推理性能的開(kāi)源工具集合,不僅支持以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為核心組件的預(yù)測(cè)式AI模型(Predictive AI),還支持以Transformer為核心組件的生成式AI模型(Generative AI)。
    的頭像 發(fā)表于 09-20 11:17 ?1255次閱讀
    使用OpenVINO將PP-OCRv5模型部署在Intel顯卡上

    DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4471次閱讀
    DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    華為亮相2025金融AI推理應(yīng)用落地與發(fā)展論壇

    創(chuàng)新技術(shù)——UCM推理記憶數(shù)據(jù)管理器,旨在推動(dòng)AI推理體驗(yàn)升級(jí),提升推理性價(jià)比,加速AI商業(yè)正循環(huán)。同時(shí),華為攜手中國(guó)銀聯(lián)率先在金融典型場(chǎng)景開(kāi)展UCM技術(shù)試點(diǎn)應(yīng)用,并聯(lián)合發(fā)布智慧金融AI推理
    的頭像 發(fā)表于 08-15 09:45 ?1241次閱讀

    中軟國(guó)際智算中心成功完成華為EP方案驗(yàn)證

    在大模型邁向規(guī)?;瘧?yīng)用的新階段,推理性能成為決定AI落地成敗的關(guān)鍵因素。中軟國(guó)際智算中心積極響應(yīng)國(guó)產(chǎn)智算體系建設(shè)戰(zhàn)略,率先完成華為昇騰“大規(guī)模專家并行”(EP)推理方案驗(yàn)證,在DeepSeek-R1模型推理任務(wù)中實(shí)現(xiàn)3倍單卡吞吐
    的頭像 發(fā)表于 07-14 14:54 ?1427次閱讀

    大模型推理顯存和計(jì)算量估計(jì)方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而,大模型的推理過(guò)程對(duì)顯存和計(jì)算資源的需求較高,給實(shí)際應(yīng)用帶來(lái)了挑戰(zhàn)。為了解決這一問(wèn)題,本文將探討大模型推理顯存和
    發(fā)表于 07-03 19:43

    邊緣計(jì)算中的機(jī)器學(xué)習(xí):基于 Linux 系統(tǒng)的實(shí)時(shí)推理模型部署與工業(yè)集成!

    你好,旅行者!歡迎來(lái)到Medium的這一角落。在本文中,我們將把一個(gè)機(jī)器學(xué)習(xí)模型(神經(jīng)網(wǎng)絡(luò))部署到邊緣設(shè)備上,利用從ModbusTCP寄存器獲取的實(shí)時(shí)數(shù)據(jù)來(lái)預(yù)測(cè)一臺(tái)復(fù)古音頻放大器的當(dāng)前健康狀況。你將
    的頭像 發(fā)表于 06-11 17:22 ?1010次閱讀
    邊緣計(jì)算中的<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>:基于 Linux 系統(tǒng)的實(shí)時(shí)<b class='flag-5'>推理</b>模型部署與工業(yè)集成!

    如何在Ollama中使用OpenVINO后端

    /GPU/NPU)為模型推理提供了高效的加速能力。這種組合不僅簡(jiǎn)化了模型的部署和調(diào)用流程,還顯著提升了推理性能,特別適合需要高性能和易用性的場(chǎng)景。
    的頭像 發(fā)表于 04-14 10:22 ?1585次閱讀

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時(shí)降低了擴(kuò)展測(cè)試時(shí)計(jì)算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優(yōu)化將
    的頭像 發(fā)表于 03-20 15:03 ?1280次閱讀

    從零復(fù)現(xiàn),全面開(kāi)源:360 Light-R1-14B/7B帶來(lái)端側(cè)AI平權(quán)時(shí)刻

    14B開(kāi)源颶風(fēng),360掀起端側(cè)推理性能革命
    的頭像 發(fā)表于 03-16 10:47 ?1116次閱讀
    從零復(fù)現(xiàn),全面開(kāi)源:360 Light-R1-14B/7B帶來(lái)端側(cè)AI平權(quán)時(shí)刻