91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用于視覺(jué)識(shí)別的Transformer風(fēng)格的ConvNet

CVer ? 來(lái)源:AIWalker ? 作者:AIWalker ? 2022-11-30 14:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文旨在通過(guò)充分利用卷積探索一種更高效的編碼空域特征的方式:通過(guò)組合ConvNet與ViT的設(shè)計(jì)理念,本文利用卷積調(diào)制操作對(duì)自注意力進(jìn)行了簡(jiǎn)化,進(jìn)而構(gòu)建了一種新的ConvNet架構(gòu)Conv2Former。ImageNet分類、COCO檢測(cè)以及ADE20K分割任務(wù)上的實(shí)驗(yàn)結(jié)果表明:所提Conv2Former取得了優(yōu)于主流ConvNet(如ConvNeXt)、ViT(如Swin Transformer)的性能。

本文方案

26a273c4-706d-11ed-8abf-dac502259ad0.jpg

上圖給出了本文方案架構(gòu)示意圖,類似ConvNeXt、SwinT,Conv2Former采用了金字塔架構(gòu),即含四個(gè)階段、四種不同尺寸的特征,相鄰階段之間通過(guò)Patch Embedding模塊(其實(shí)就是一個(gè)卷積核與stride均為的卷積)進(jìn)行特征空間分辨率與通道維度的惡變換。下表給出了不同大小Conv2Former的超參配置,

26bec1f0-706d-11ed-8abf-dac502259ad0.jpg

核心模塊

26cf68ac-706d-11ed-8abf-dac502259ad0.jpg

上圖給出了經(jīng)典模塊的架構(gòu)示意圖,從經(jīng)典的殘差模塊到自注意力模塊,再到新一代卷積模塊。自注意力模塊可以表示為如下形式:

盡管注意力可以更好的編碼空域相關(guān)性,但其計(jì)算復(fù)雜性隨N而爆炸性增長(zhǎng)。

本文則旨在對(duì)自注意力進(jìn)行簡(jiǎn)化:采用卷積特征對(duì)V進(jìn)行調(diào)制。假設(shè)輸入,所提卷積調(diào)制模塊描述如下:

需要注意的是:上式中表示Hadamard乘積。上述卷積調(diào)制模塊使得每個(gè)位置的元素與其近鄰相關(guān),而通道間的信息聚合則可以通過(guò)線性層實(shí)現(xiàn)。下面給出了該核心模塊的實(shí)現(xiàn)代碼。

classConvMod(nn.Module):
def__init__(self,dim):
super().__init__()
self.norm=LayerNorm(dim,eps=1e-6,data_format='channel_first')
self.a=nn.Sequential(
nn.Conv2d(dim,dim,1),
nn.GELU(),
nn.Conv2d(dim,dim,11,padding=5,groups=dim)
)
self.v=nn.Conv2d(dim,dim,1)
self.proj=nn.Conv2d(dim,dim,1)

defforward(self,x):
B,C,H,W=x.shape
x=self.norm(x)
a=self.a(x)
v=self.v(x)
x=a*v
x=self.proj(x)
returnx

微觀設(shè)計(jì)理念

Larger Kernel than 如何更好的利用卷積對(duì)于CNN設(shè)計(jì)非常重要!自從VGG、ResNet以來(lái),卷積成為ConvNet的標(biāo)準(zhǔn)選擇;Xception引入了深度分離卷積打破了該局面;再后來(lái),ConvNeXt表明卷積核從3提升到7可以進(jìn)一步改善模型性能。然而,當(dāng)不采用重參數(shù)而進(jìn)一步提升核尺寸并不會(huì)帶來(lái)性能性能提升,但會(huì)導(dǎo)致更高計(jì)算負(fù)擔(dān)。

作者認(rèn)為:ConvNeXt從大于卷積中受益極小的原因在于使用空域卷積的方式。對(duì)于Conv2Former,從到,伴隨核尺寸的提升可以觀察到Conv2Former性能一致提升。該現(xiàn)象不僅發(fā)生在Conv2Former-T(),同樣在Conv2Former-B得到了體現(xiàn)()。考慮到模型效率,作者將默認(rèn)尺寸設(shè)置為。

Weighting Strategy 正如前面圖示可以看到:作者采用Depthwise卷積的輸出對(duì)特征V進(jìn)行加權(quán)調(diào)制。需要注意的是,在Hadamard乘積之前并未添加任務(wù)規(guī)范化層(如Sigmoid、),而這是取得優(yōu)異性能的重要因素(類似SENet添加Sigmoid會(huì)導(dǎo)致性能下降超0.5%)。

Normalization and Activations 對(duì)于規(guī)范化層,作者參考ViT與ConvNeXt采用了Layer Normalization,而非卷積網(wǎng)絡(luò)中常用的Batch Normalization;對(duì)于激活層,作者采用了GELU(作者發(fā)現(xiàn),LN+GELU組合可以帶來(lái)0.1%-0.2%的性能提升)。

本文實(shí)驗(yàn)

26e4184c-706d-11ed-8abf-dac502259ad0.jpg

上述兩表給出了ImageNet分類任務(wù)上不同方案的性能對(duì)比,從中可以看到:

  • 在tiny-size(<30M)方面,相比ConvNeXt-T與SwinT-T,Conv2Former-T分別取得了1.1%與1.7%的性能提升。值得稱道的是,Conv2Former-N僅需15M參數(shù)量+2.2GFLOPs取得了與SwinT-T(28M參數(shù)量+4.5GFLOPs)相當(dāng)?shù)男阅堋?/p>

  • 在base-size方面,相比ConvNeXt-B與SwinT-B,Conv2Former-B仍取得了0.6%與0.9%的性能提升。

  • 相比其他主流模型,在相近大小下,所提Conv2Former同樣表現(xiàn)更優(yōu)。值得一提的是,相比EfficientNet-B7,Conv2Former-B精度稍有(84.4% vs 84.3%),但計(jì)算量大幅減少(15G vs 37G)。

  • 當(dāng)采用ImageNet-22K預(yù)訓(xùn)練后,Conv2Former的性能可以進(jìn)一步提升,同時(shí)仍比其他方案更優(yōu)。Conv2Former-L甚至取得了87.7% 的優(yōu)異指標(biāo)。

271576d0-706d-11ed-8abf-dac502259ad0.jpg

采用大核卷積是一種很直接的輔助CNN構(gòu)建長(zhǎng)程相關(guān)性的方法,但直接使用大核卷積使得所提模型難以優(yōu)化。從上表可以看到:當(dāng)不采用其他訓(xùn)練技術(shù)(如重參數(shù)、稀疏權(quán)值)時(shí),Conv2Former采用時(shí)已可取得更好的性能;當(dāng)采用更大的核時(shí),Conv2Former取得了進(jìn)一步的性能提升

272609be-706d-11ed-8abf-dac502259ad0.jpg

上表給出了COCO檢測(cè)任務(wù)上不同方案的性能對(duì)比,從中可以看到:

  • 在tiny-size方面,相比SwinT-T與ConvNeXt-T,Conv2Former-T取得了2% 的檢測(cè)指標(biāo)提升,實(shí)例分割指標(biāo)提升同樣超過(guò)1%;

  • 當(dāng)采用Cascade Mask R-CNN框架時(shí),Conv2Former仍具有超1%的性能提升。

  • 當(dāng)進(jìn)一步增大模型時(shí),性能優(yōu)勢(shì)則變得更為明顯;

27420dc6-706d-11ed-8abf-dac502259ad0.jpg

上表給出了ADE20K分割任務(wù)上的性能對(duì)比,從中可以看到:

  • 在不同尺度模型下,Conv2Former均具有比SwinT與ConvNeXt更優(yōu)的性能;

  • 相比ConvNeXt,在tiny尺寸方面性能提升1.3%mIoU,在base尺寸方面性能提升1.1%;

  • 當(dāng)進(jìn)一步提升模型尺寸,Conv2Former-L取得了54.3%mIoU,明顯優(yōu)于Swin-L與ConvNeXt-L。

一點(diǎn)疑惑解析

到這里,關(guān)于Conv2Former的介紹也就結(jié)束了。但是,心里仍有一點(diǎn)疑惑存在:Conv2Former與VAN的區(qū)別到底是什么呢?關(guān)于VAN的介紹可參考筆者之前的分享:《優(yōu)于ConvNeXt,南開&清華開源基于大核注意力的VAN架構(gòu)》。

先來(lái)看一下兩者的定義,看上去兩者并無(wú)本質(zhì)上的區(qū)別(均為點(diǎn)乘操作),均為大核卷積注意力

  • VAN:

  • Conv2Former

2756254a-706d-11ed-8abf-dac502259ad0.jpg

結(jié)合作者開源代碼,筆者繪制了上圖,左圖為Conv2Former核心模塊,右圖為VAN核心模塊。兩者差別還是比較明顯的!

  • 雖然大核卷積注意力均是其核心,但Conv2Former延續(xù)了自注意力的設(shè)計(jì)范式,大核卷積注意力是其核心;而VAN則是采用傳統(tǒng)Bottleneck設(shè)計(jì)范式大核卷積注意力的作用類似于SE。

  • 從大核卷積內(nèi)在機(jī)理來(lái)看,Conv2Former僅考慮了的空域建模,而VAN則同時(shí)考慮了空域與通道兩個(gè)維度;

  • 在規(guī)范化層方面,Conv2Former采用了Transformer一貫的LayerNorm,而VAN則采用了CNN一貫的BatchNorm;

  • 值得一提的是:兩者在大核卷積注意力方面均未使用Sigmoid激活函數(shù)。兩者均發(fā)現(xiàn):使用Sigmoid激活會(huì)導(dǎo)致0.2%左右的性能下降。

2766b16c-706d-11ed-8abf-dac502259ad0.jpg

為更好對(duì)比Conv2Former與VAN的性能,特匯總上表(注:GFLOPs列僅匯總了)在Image輸入時(shí)的計(jì)算量Net-1K上的指標(biāo)進(jìn)行了對(duì)比,可以看到:在同等參數(shù)量前提下,兩者基本相當(dāng),差別僅在0.1%。此外,考慮到作者所提到的“LN+GELU的組合可以帶來(lái)0.1%-0.2%的性能提升”,兩者就算是打成平手了吧,哈哈。


		
			

審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模塊
    +關(guān)注

    關(guān)注

    7

    文章

    2837

    瀏覽量

    53303
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    1039

    瀏覽量

    56993
  • 視覺(jué)識(shí)別
    +關(guān)注

    關(guān)注

    3

    文章

    111

    瀏覽量

    17366

原文標(biāo)題:超越ConvNeXt!Conv2Former:用于視覺(jué)識(shí)別的Transformer風(fēng)格的ConvNet

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    華秋輸出的GERBER別的軟件無(wú)法正確識(shí)別

    ,卡住了。 這個(gè)是華秋識(shí)別的,可以看到是正確的。 下面是AD,KICAD、工廠錫膏機(jī)識(shí)別的,都一樣的,統(tǒng)一少了太多東東。
    發(fā)表于 12-17 10:46

    UV紫外相機(jī)在工業(yè)視覺(jué)檢測(cè)中的應(yīng)用

    UV紫外相機(jī)通過(guò)捕捉紫外信號(hào)和激發(fā)熒光反應(yīng),解決常規(guī)相機(jī)無(wú)法識(shí)別的隱形缺陷和標(biāo)記,廣泛應(yīng)用于工業(yè)視覺(jué)檢測(cè)。
    的頭像 發(fā)表于 10-21 09:45 ?465次閱讀

    無(wú)人機(jī)AI視覺(jué)行為識(shí)別系統(tǒng)

    無(wú)人機(jī)AI視覺(jué)行為識(shí)別系統(tǒng) 隨著無(wú)人機(jī)技術(shù)的快速發(fā)展和計(jì)算機(jī)視覺(jué)領(lǐng)域的突破性進(jìn)展,無(wú)人機(jī)AI視覺(jué)行為識(shí)別系統(tǒng)應(yīng)運(yùn)而生。傳統(tǒng)監(jiān)控系統(tǒng)受限于固定
    的頭像 發(fā)表于 07-04 16:53 ?1077次閱讀

    基于LockAI視覺(jué)識(shí)別模塊:C++人臉識(shí)別

    = face_system.Predict(input_mat); 作用:FaceRecognitionSystem類中的一個(gè)函數(shù),用于實(shí)現(xiàn)人臉識(shí)別。 參數(shù)說(shuō)明: input_mat:要識(shí)別的圖像
    發(fā)表于 07-01 12:01

    基于LockAI視覺(jué)識(shí)別模塊:C++人臉識(shí)別

    本文基于RV1106做成的LockAI視覺(jué)識(shí)別模塊,采用LZ-Picodet模型訓(xùn)練的人臉檢測(cè)模型LZ-Face,以及ArcFace人臉識(shí)別模型,實(shí)現(xiàn)人臉識(shí)別系統(tǒng)。
    的頭像 發(fā)表于 07-01 10:09 ?848次閱讀
    基于LockAI<b class='flag-5'>視覺(jué)</b><b class='flag-5'>識(shí)別</b>模塊:C++人臉<b class='flag-5'>識(shí)別</b>

    基于LockAI視覺(jué)識(shí)別模塊:手寫數(shù)字識(shí)別

    1.1 手寫數(shù)字識(shí)別簡(jiǎn)介 手寫數(shù)字識(shí)別是一種利用計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)技術(shù)自動(dòng)識(shí)別手寫數(shù)字的過(guò)程。它通過(guò)圖像預(yù)處理、特征提取和模型訓(xùn)練來(lái)實(shí)現(xiàn)高效準(zhǔn)確的數(shù)字
    發(fā)表于 06-30 16:45

    基于LockAI視覺(jué)識(shí)別模塊:手寫數(shù)字識(shí)別

    手寫數(shù)字識(shí)別是一種經(jīng)典的模式識(shí)別和圖像處理問(wèn)題,旨在通過(guò)計(jì)算機(jī)自動(dòng)識(shí)別用戶手寫的數(shù)字。本文將教會(huì)你如何使用基于RV1106的LockAI視覺(jué)識(shí)別
    的頭像 發(fā)表于 06-30 15:44 ?1127次閱讀
    基于LockAI<b class='flag-5'>視覺(jué)</b><b class='flag-5'>識(shí)別</b>模塊:手寫數(shù)字<b class='flag-5'>識(shí)別</b>

    基于LockAI視覺(jué)識(shí)別模塊:C++條碼識(shí)別

    條碼識(shí)別視覺(jué)模塊經(jīng)常使用到的功能之一,經(jīng)常用于識(shí)別超市的貨物信息。本文我們將演示如何基于瑞芯微RV1106的LockAI視覺(jué)
    發(fā)表于 05-27 10:26

    基于LockAI視覺(jué)識(shí)別模塊:C++條碼識(shí)別

    條碼識(shí)別視覺(jué)模塊經(jīng)常使用到的功能之一,經(jīng)常用于識(shí)別超市的貨物信息。本文我們將演示如何基于瑞芯微RV1106的LockAI視覺(jué)
    的頭像 發(fā)表于 05-27 09:32 ?835次閱讀
    基于LockAI<b class='flag-5'>視覺(jué)</b><b class='flag-5'>識(shí)別</b>模塊:C++條碼<b class='flag-5'>識(shí)別</b>

    基于LockAI視覺(jué)識(shí)別模塊:C++二維碼識(shí)別

    二維碼識(shí)別視覺(jué)模塊經(jīng)常使用到的功能之一。我們將演示如何使用基于瑞芯微RV1106的LockAI視覺(jué)識(shí)別模塊進(jìn)行二維碼識(shí)別。
    的頭像 發(fā)表于 05-26 09:42 ?1022次閱讀
    基于LockAI<b class='flag-5'>視覺(jué)</b><b class='flag-5'>識(shí)別</b>模塊:C++二維碼<b class='flag-5'>識(shí)別</b>

    基于LockAI視覺(jué)識(shí)別模塊:C++同時(shí)識(shí)別輪廓和色塊

    1.項(xiàng)目簡(jiǎn)介1.1色塊識(shí)別的重要性顏色特征提?。侯伾且环N重要的視覺(jué)特征,尤其在背景較為單一的情況下,能夠快速區(qū)分目標(biāo)區(qū)域。應(yīng)用場(chǎng)景:廣泛應(yīng)用于機(jī)器人導(dǎo)航、工業(yè)自動(dòng)化、物體跟蹤等領(lǐng)域。HSV顏色空間
    的頭像 發(fā)表于 05-23 16:41 ?997次閱讀
    基于LockAI<b class='flag-5'>視覺(jué)</b><b class='flag-5'>識(shí)別</b>模塊:C++同時(shí)<b class='flag-5'>識(shí)別</b>輪廓和色塊

    rfid技術(shù)是如何應(yīng)用在集裝箱自動(dòng)識(shí)別的呢?

    在現(xiàn)代集裝箱物流管理中,快速、準(zhǔn)確地識(shí)別集裝箱號(hào)碼是提升港口、堆場(chǎng)和海關(guān)運(yùn)作效率的關(guān)鍵。隨著技術(shù)的發(fā)展,RFID(射頻識(shí)別)技術(shù)與OCR視覺(jué)識(shí)別相結(jié)合,為集裝箱自動(dòng)
    的頭像 發(fā)表于 04-18 10:13 ?917次閱讀
    rfid技術(shù)是如何應(yīng)用在集裝箱自動(dòng)<b class='flag-5'>識(shí)別的</b>呢?

    支持實(shí)時(shí)物體識(shí)別的視覺(jué)人工智能微處理器RZ/V2MA數(shù)據(jù)手冊(cè)

    。此外,利用了 DRP技術(shù)高靈活性特點(diǎn)的 OpenCV 加速器,除了可進(jìn)行人工智能推理的圖像預(yù)處理之外,還能在單芯片上實(shí)現(xiàn)人工智能范疇之外的高速圖像處理。 *附件:支持實(shí)時(shí)物體識(shí)別的視覺(jué)人工智能微處理器RZ V2MA數(shù)據(jù)手冊(cè).pdf 特征 中央處理器(CPU)和雙倍
    的頭像 發(fā)表于 03-18 18:12 ?930次閱讀
    支持實(shí)時(shí)物體<b class='flag-5'>識(shí)別的</b><b class='flag-5'>視覺(jué)</b>人工智能微處理器RZ/V2MA數(shù)據(jù)手冊(cè)

    用于實(shí)時(shí)人類和物體識(shí)別的視覺(jué)-AI ASSP人工智能微處理器RZ/V2M數(shù)據(jù)手冊(cè)

    影響的穩(wěn)定圖像,從而實(shí)現(xiàn)高的人工智能識(shí)別精度。憑借這些特點(diǎn),RZ/V2M實(shí)現(xiàn)了低功耗,這對(duì)嵌入式設(shè)備來(lái)說(shuō)是一個(gè)挑戰(zhàn),使散熱措施更加容易。由于不再需要散熱器和冷卻風(fēng)扇,設(shè)備可以小型化,BOM成本可以降低。其結(jié)果是,它是廣泛的嵌入式市場(chǎng)中視覺(jué)AI應(yīng)用的理想選擇,包
    的頭像 發(fā)表于 03-14 17:41 ?950次閱讀
    <b class='flag-5'>用于</b>實(shí)時(shí)人類和物體<b class='flag-5'>識(shí)別的</b><b class='flag-5'>視覺(jué)</b>-AI ASSP人工智能微處理器RZ/V2M數(shù)據(jù)手冊(cè)

    人工智能視覺(jué)識(shí)別技術(shù)的應(yīng)用領(lǐng)域及場(chǎng)景

    人工智能視覺(jué)識(shí)別技術(shù)的應(yīng)用領(lǐng)域及場(chǎng)景
    的頭像 發(fā)表于 03-14 11:41 ?2985次閱讀