91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Transformer的興起:提高實時視覺處理的準確度

lPCU_elecfans ? 來源:電子發(fā)燒友網(wǎng) ? 2023-01-12 11:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2017 年在 Google的一篇研究論文中首次提出了Transformer模型,它最初是為自然語言處理 (NLP) 任務而設計的。最近,研究人員將Transformer應用在了視覺應用領域(在過去十年中由卷積神經網(wǎng)絡 (CNNs) 占據(jù)主導地位),并獲得了有趣的結果。事實證明,Transformer對圖像分類和物體檢測等視覺任務的適應性令人驚訝。這些結果為Transformer贏得了在視覺任務中與 CNN 比肩的地位。這些任務旨在提高機器對環(huán)境的理解,以用于情境感知視頻推理等未來應用。

2012 年,名為 AlexNet 的卷積神經網(wǎng)絡(CNN)贏得了 ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽 (ILSVRC),這是一項年度計算機視覺競賽。任務是讓您的機器學習并“分類”1000 個不同的圖像(基于 ImageNet 數(shù)據(jù)集)。AlexNet 實現(xiàn)了 15.3% 的 top-5 錯誤率。往屆的獲勝者是基于傳統(tǒng)編程模型,實現(xiàn)的 top-5 錯誤率大約是 26%(見圖 1)。在這之后,CNN 一直占據(jù)統(tǒng)治地位。2016 年和 2017 年,獲勝的 CNN 實現(xiàn)了比人類更高的準確度。大多數(shù)參與者實現(xiàn)了超過 95% 的準確度,促使 ImageNet 在 2018 年推出一項難度更高的全新挑戰(zhàn)。CNN 在 ILSVRC 挑戰(zhàn)賽中的統(tǒng)治地位推動了人們大量研究如何將 CNN 應用于實時視覺應用。在準確度不斷提高的同時,ResNet 和 EfficientNet 分別于 2015 年和 2020 年將效率提升了 10 倍。實時視覺應用不僅需要準確度,還需要更高的性能(推理/秒或每秒幀數(shù) (fps))、縮小模型尺寸(提高帶寬),以及功率和面積效率。

903444dc-918a-11ed-bfe3-dac502259ad0.png

圖 1:ILSVRC 結果凸顯了 AlexNet(一種卷積神經網(wǎng)絡)帶來了顯著提高的視覺分類準確度。

分類是更復雜、更有用的視覺應用的基石。這些視覺應用包括對象檢測(在二維圖像中找到對象的位置)、語義分割(對圖像中的每個像素進行分組/標記)和全景分割(識別對象位置以及對每個對象中的每個像素進行標記/分組)。2017 年 Google Brain 的論文中首次介紹的Transformer旨在改進遞歸神經網(wǎng)絡 (RNN) 和長短時記憶 (LSTM),用于翻譯、問答和對話式 AI 等 NLP 任務。RNN 和 LSTM 已用于處理順序數(shù)據(jù)(即數(shù)字化語言和語音),但其架構不易并行化,因此通常具有非常有限的帶寬,難以訓練。Transformer的結構與 RNN 和 LSTM 相比具有幾個優(yōu)勢。與必須按順序讀取一串文本的 RNN 和 LSTM 不同,Transformer明顯更易并行化,并且可以同時以完整的單詞順序讀取,從而更好地學習文本字符串中單詞之間的上下文關系。

2018年底,谷歌提出了預訓練模型雙向編碼表征Transformer(BERT),其在多項NLP任務上均取得了突破性的進展,大受歡迎,以至于被納入 MLCommons 的 MLPerf 神經網(wǎng)絡推理基準測試套件中。除了準確度高之外,Transformer還更容易被訓練,使大型Transformer成為可能。MTM、GPT-3、T5、ALBERT、RoBERTa、T5、Switch AS 只是處理 NLP 任務的一些大型轉換器。由 OpenAI 于 2020 年推出的生成預訓練Transformer3 (GPT-3) 使用深度學習來生成類似人類的文本,準確度很高,以至于很難判定該文本是否由人類編寫。

像 BERT 這樣的Transformer可以成功地應用于其他應用領域,并具有極具前景的嵌入式使用效果??梢栽趶V泛的數(shù)據(jù)上訓練并應用于各種應用的 AI 模型被稱為基礎模型。在其中的視覺領域,Transformer取得了令人驚嘆的成就。

應用于視覺的Transformer

2021 年發(fā)生了一些非凡的事情。Google Brain 團隊將其Transformer模型應用于圖像分類。一連串單詞和二維圖像之間存在很大差異,但 Google Brain 團隊將圖像切成小塊,將這些小塊圖像中的像素放入矢量中,并將矢量饋送到Transformer中。結果令人驚訝。在不對模型進行任何修改的情況下,Transformer在分類方面的準確度優(yōu)于最先進的 CNN。雖然準確度不是實時視覺應用的唯一指標(功率、成本、面積)和推理/秒也很重要),但這在視覺領域中堪稱一項重大成果。

905ac83c-918a-11ed-bfe3-dac502259ad0.png

圖 2:Transformer和 CNN 結構對比

比較 CNN 和Transformer對了解其類似結構很有幫助。在圖 2 中,Transformer的結構由圖像左側的方框組成。為了進行比較,我們使用與 ResNet 中發(fā)現(xiàn)的結構類似的典型 CNN 結構來繪制 CNN 的類似結構。ResNet 是具有逐元素加法的 1x1 卷積。我們發(fā)現(xiàn)Transformer的前饋部分在功能上與 CNN 的 1x1 卷積相同。這些是矩陣乘法運算,可在特征圖中的每個點上應用線性轉換。

Transformer和 CNN 之間的區(qū)別在于兩者如何混合來自相鄰像素的信息。這發(fā)生在Transformer的多頭注意力和卷積網(wǎng)絡的 3x3 卷積中。對于CNN,混合的信息基于每個像素的固定空間位置,如圖 3 中所示。對于 3x3 卷積,使用相鄰像素(中心像素周圍的九個像素)計算加權和。

9076490e-918a-11ed-bfe3-dac502259ad0.png

圖 3:說明 CNN 的卷積和Transformer的注意力網(wǎng)絡在混合其他令牌/像素的特征方面有何差異。

Transformer的注意力機制不僅基于位置,還基于學習屬性來混合數(shù)據(jù)。在訓練期間,Transformer可以學習關注其他像素。注意力網(wǎng)絡具有更強的學習和表達更復雜關系的能力。

推出視覺Transformer轉換器和偏移窗口Transformer

專門用于視覺任務的新型Transformer正在興起。專門從事圖像分類的視覺Transformer (ViT) 現(xiàn)在正在準確度方面擊敗 CNN(盡管要實現(xiàn)這種準確度,ViT需要用非常大的數(shù)據(jù)集進行訓練)。ViT 還需要更多的計算,這會降低其 fps 性能。

Transformer也正在應用于對象檢測和語義分割。Swin(偏移窗口)Transformer為對象檢測 (COCO) 和語義分割 (ADE20K) 提供了最先進的準確度。雖然 CNN 通常應用于靜態(tài)圖像,但由于對以前或將來的幀不了解,轉換器可以應用于視頻幀。SWIN 的變體可直接應用于視頻,用于動作分類等用途。將Transformer的注意力分別應用于時間和空間,為 Kinetics-400 和 Kinetics-600 動作分類基準測試提供了最先進的結果。

Apple 于 2022 年初推出的 MobileViT(圖 4)提供了Transformer和CNN的有趣組合。MobileViT 結合了Transformer和 CNN 功能,為針對移動應用程序的視覺分類創(chuàng)建了輕量級模型。與僅使用 CNN 的 MobileNet 相比,這種Transformer和CNN的組合使相同尺寸的模型(6M 系數(shù))的準確度提高了 3%。盡管 MobileViT 的性能優(yōu)于 MobileNet,但它仍然慢于當今支持 CNN 但沒有針對Transformer進行優(yōu)化的手機上的 CNN 實現(xiàn)。要想利用Transformer的優(yōu)勢,未來的視覺 AI 加速器將需要更好的Transformer支持。

908a50a2-918a-11ed-bfe3-dac502259ad0.png

圖 4:MobileViT:輕量、通用和移動友好型視覺Transformer(圖片來源:https://arxiv.org/abs/2110.02178)

盡管Transformer在視覺任務方面取得了成功,但卷積網(wǎng)絡不太可能很快消失。這兩種方法之間仍然存在權衡,Transformer具有更高的準確度,但 fps 性能低得多,需要更多的計算和數(shù)據(jù)移動。為了規(guī)避兩者的弱點,將Transformer和 CNN 相結合可以產生具有巨大前景的靈活解決方案。

Transformer的實現(xiàn)盡管在架構上存在相似之處,但無法讓專門為 CNN 設計的加速器有效地執(zhí)行Transformer。至少需要考慮架構增強,以處理注意力機制。

新思科技 的 ARC NPX6 NPU IP 是 AI 加速器的一個例子,該加速器旨在高效處理 CNN 和Transformer。NPX6 的計算單元(圖 5)包括卷積加速器,該加速器旨在處理對 CNN 和Transformer都至關重要的矩陣乘法。張量加速器也至關重要,因為它旨在處理所有其他非卷積張量算子集架構 (TOSA) 運算,包括Transformer運算。

909d2a88-918a-11ed-bfe3-dac502259ad0.png

圖 5:新思科技 ARC NPX6 NPU IP

總結

視覺Transformer已經取得了快速進步,并將繼續(xù)保持。這些基于注意力的網(wǎng)絡在準確度方面優(yōu)于僅支持 CNN 的網(wǎng)絡。將視覺Transformer與卷積相結合的模型在推理(如 MobileViT)方面更高效,并提高了性能效率。這種新型神經網(wǎng)絡模型正在開啟解決未來 AI 任務的大門,例如完全視覺感知,其需要的知識單靠視覺可能不易獲取。Transformer與 CNN 相結合,引領著新一代 AI 的發(fā)展。選擇同時支持 CNN 和Transformer的架構,對于新興 AI 應用的 SoC 成功至關重要。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:Transformer的興起:提高實時視覺處理的準確度

文章出處:【微信號:elecfans,微信公眾號:電子發(fā)燒友網(wǎng)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Transformer如何讓自動駕駛變得更聰明?

    ]自動駕駛中常提的Transformer本質上是一種神經網(wǎng)絡結構,最早在自然語言處理里火起來。與卷積神經網(wǎng)絡(CNN)或循環(huán)神經網(wǎng)絡(RNN)不同,Transformer能夠自動審視所有輸入信息,并動態(tài)判斷哪些部分更為關鍵,同時
    的頭像 發(fā)表于 11-19 18:17 ?2317次閱讀

    電能質量在線監(jiān)測裝置的諧波測量準確度受哪些因素影響?

    電能質量在線監(jiān)測裝置的諧波測量準確度,是硬件性能、算法設計、外部環(huán)境、運維管理等多因素共同作用的結果,任何一個環(huán)節(jié)的偏差都可能導致測量誤差。以下從 硬件核心組件、算法處理邏輯、外部干擾環(huán)境、運維管理
    的頭像 發(fā)表于 10-15 16:55 ?758次閱讀

    電能質量在線監(jiān)測裝置的諧波測量準確度有多高?

    現(xiàn)代電能質量在線監(jiān)測裝置的諧波測量準確度已達到國際領先水平,其核心指標可通過 硬件精度、算法優(yōu)化、標準合規(guī)性 三個維度綜合評估,以下是具體分析: 一、核心技術指標與行業(yè)標準 誤差范圍的分級標準 根據(jù)
    的頭像 發(fā)表于 10-15 16:26 ?515次閱讀

    電磁干擾對電能質量在線監(jiān)測裝置的精度等級和準確度有哪些具體影響?

    ?電磁干擾(EMI)是影響電能質量在線監(jiān)測裝置 精度等級穩(wěn)定性 和 測量準確度 的核心環(huán)境因素之一,其影響通過干擾裝置內部硬件電路、信號傳輸鏈路及數(shù)據(jù)處理過程實現(xiàn),最終直接反映在關鍵測量參數(shù)的偏差上
    的頭像 發(fā)表于 09-18 10:29 ?1266次閱讀
    電磁干擾對電能質量在線監(jiān)測裝置的精度等級和<b class='flag-5'>準確度</b>有哪些具體影響?

    溫度對電能質量在線監(jiān)測裝置的精度等級和準確度有哪些具體影響?

    ?溫度對電能質量在線監(jiān)測裝置的 精度等級 (出廠規(guī)定的誤差范圍)和 準確度 (實際測量值與真值的偏差)的影響,主要通過改變裝置核心部件的參數(shù)特性實現(xiàn),最終可能導致實際測量誤差超出精度等級規(guī)定的范圍
    的頭像 發(fā)表于 09-18 10:27 ?834次閱讀
    溫度對電能質量在線監(jiān)測裝置的精度等級和<b class='flag-5'>準確度</b>有哪些具體影響?

    電能質量在線監(jiān)測裝置的精度等級和準確度的關系是否受測量參數(shù)的影響?

    電能質量在線監(jiān)測裝置的精度等級和準確度的關系 會顯著受測量參數(shù)影響 ,核心原因在于:不同電能質量參數(shù)(如電壓有效值、諧波、閃變、暫升 / 暫降)的 測量原理復雜、硬件依賴、算法要求 存在本質差異
    的頭像 發(fā)表于 09-12 10:02 ?717次閱讀
    電能質量在線監(jiān)測裝置的精度等級和<b class='flag-5'>準確度</b>的關系是否受測量參數(shù)的影響?

    環(huán)境因素對電能質量在線監(jiān)測裝置的精度等級和準確度的影響程度有多大?

    環(huán)境因素對電能質量在線監(jiān)測裝置的影響程度,核心體現(xiàn)為準確度偏離標稱精度等級的 “量化幅度”—— 在標準規(guī)定的環(huán)境范圍內(如 IEC 61000-4-30、GB/T 19862-2016),影響通常
    的頭像 發(fā)表于 09-11 18:01 ?978次閱讀
    環(huán)境因素對電能質量在線監(jiān)測裝置的精度等級和<b class='flag-5'>準確度</b>的影響程度有多大?

    如何查詢電能質量在線監(jiān)測裝置的精度等級和準確度的關系受哪些環(huán)境因素影響?

    要查詢電能質量在線監(jiān)測裝置的精度等級和準確度的關系受哪些環(huán)境因素影響,可通過以下系統(tǒng)化方法實現(xiàn): 一、查閱國際與國家標準中的環(huán)境要求 IEC 61000 系列標準 IEC 61000-4-30
    的頭像 發(fā)表于 09-11 17:54 ?892次閱讀
    如何查詢電能質量在線監(jiān)測裝置的精度等級和<b class='flag-5'>準確度</b>的關系受哪些環(huán)境因素影響?

    電能質量在線監(jiān)測裝置的精度等級和準確度的關系是否受環(huán)境因素影響?

    電能質量在線監(jiān)測裝置的精度等級和準確度的關系 會受環(huán)境因素顯著影響 ,核心原因在于:環(huán)境因素雖不改變精度等級本身(固定的出廠標稱),但會直接改變準確度(實際測量偏差),進而打破 “精度等級作為準確度
    的頭像 發(fā)表于 09-11 17:34 ?899次閱讀
    電能質量在線監(jiān)測裝置的精度等級和<b class='flag-5'>準確度</b>的關系是否受環(huán)境因素影響?

    電能質量在線監(jiān)測裝置的精度等級與準確度的關系

    要理解電能質量在線監(jiān)測裝置(以下簡稱 “監(jiān)測裝置”)的 精度等級 與 準確度 的關系,需先明確兩者的核心定義,再從 “設計目標 - 實際表現(xiàn)”“條件性 - 驗證性” 兩個維度拆解其關聯(lián)與差異,最終
    的頭像 發(fā)表于 09-11 17:29 ?1294次閱讀
    電能質量在線監(jiān)測裝置的精度等級與<b class='flag-5'>準確度</b>的關系

    關于CAPSENSE?每個 Vref 電壓的準確度的疑問求解

    我認為CAPSENSE?在感應電容時使用 Vref 電壓值。 根據(jù)組件數(shù)據(jù)表,Vref 電壓值根據(jù) VDDA 設置而變化。 PSoC? 4 電容式感應 ( CAPSENSE? ) 您能否告訴我們每個 Vref 電壓(從 1.2V 到 2.743V)的準確度?
    發(fā)表于 07-15 07:35

    電能表的準確度如何定義?

    電能表
    電幫主
    發(fā)布于 :2025年06月04日 10:07:55

    基于RK3576開發(fā)板的yolov11-track多目標跟蹤部署教程

    YOLO11是 Ultralytics YOLO系列實時物體檢測器的最新版本,重新定義了在尖端準確度、速度和效率方面的可能性。在前幾代 YOLO 版本的顯著進步基礎上,YOLO11 在架構和訓練方法上引入了重大改進,使其成為廣泛計算機
    的頭像 發(fā)表于 05-24 15:07 ?2571次閱讀
    基于RK3576開發(fā)板的yolov11-track多目標跟蹤部署教程

    電工儀表準確度等級詳解

    一、準確度等級的定義 以下是“JJF1001-2011通用計量術語”對準確度準確度等級的相關定義: 1、測量準確度 measurement accuracy,sccuracy
    的頭像 發(fā)表于 05-19 10:20 ?5330次閱讀
    電工儀表<b class='flag-5'>準確度</b>等級詳解

    利用隔離式精密信號鏈保持數(shù)據(jù)采集的準確度

    數(shù)字時代改變了解決問題的范式,將智能引入邊緣可以應對全新的復雜挑戰(zhàn)。數(shù)據(jù)采集(DAQ)系統(tǒng)成為了邊緣智能的核心。在數(shù)據(jù)采集領域,準確度和可靠性至關重要。為確保達到高準確度和完整性,隔離式精密信號鏈的重要性不容忽視。
    的頭像 發(fā)表于 03-17 14:43 ?1443次閱讀