91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

全卷積網絡也可以實現(xiàn)E2E檢測

工程師鄧生 ? 來源:機器之心Pro ? 作者:王劍鋒 ? 2020-12-09 16:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

目標檢測是計算機視覺領域的一個基礎研究主題,它利用每張圖像的預定義類標簽來預測邊界框。大多數主流檢測器使用的是基于錨的標簽分配和非極大值抑制(NMS)等手動設計。近來,很多研究者提出方法通過距離感知和基于分布的標簽分類來消除預定義的錨框集。盡管這些方法取得了顯著的進展和優(yōu)越的性能,但拋棄手動設計的 NMS 后處理可能阻礙完全的端到端訓練。

基于這些問題,研究人員相繼提出了 Learnable NMS、Soft NMS 和 CenterNet 等,它們能夠提升重復刪除效果,但依然無法提供有效的端到端訓練策略。之后,F(xiàn)acebook AI 研究者提出的 DETR 將 Transformer 用到了目標檢測任務中,還取得了可以媲美 Faster R-CNN 的效果。但是,DETR 的訓練時間卻大大延長,在小目標上的性能也相對較低。

所以,在本文中,來自曠視科技和西安交通大學的研究者提出了一個新穎問題:全卷積網絡是否可以實現(xiàn)良好的端到端目標檢測效果?并從標簽分配和網絡架構兩個方面回答并驗證了這一問題。

論文鏈接:https://arxiv.org/pdf/2012.03544.pdf

項目代碼:https://github.com/Megvii-BaseDetection/DeFCN (內部代碼遷移 + 審查中,后續(xù)放出)

具體而言,研究者基于 FCOS,首次在 dense prediction 上利用全卷積結構做到 E2E,即無 NMS 后處理。研究者首先分析了常見的 dense prediction 方法(如 RetinaNet、FCOS、ATSS 等),并且認為 one-to-many 的 label assignment 是依賴 NMS 的關鍵。受到 DETR 的啟發(fā),研究者設計了一種 prediction-aware one-to-one assignment 方法。

此外,研究者還提出了 3D Max Filtering 以增強 feature 在 local 區(qū)域的表征能力,并提出用 one-to-many auxiliary loss 加速收斂。本文方法基本不修改模型結構,不需要更長的訓練時間,可以基于現(xiàn)有 dense prediction 方法平滑過渡。本文方法在無 NMS 的情況下,在 COCO 數據集上達到了與有 NMS 的 FCOS 相當的性能;在代表了密集場景的 CrowdHuman 數據集上,本文方法的 recall 超越了依賴 NMS 方法的理論上限。

整體方法流程如下圖所示:

58435d70f13d4b55a7a25b9abb0d4ecf.png

One-to-many vs. one-to-one

自 anchor-free 方法出現(xiàn)以來,NMS 作為網絡中最后一個 heuristic 環(huán)節(jié),一直是實現(xiàn) E2E dense prediction 的最大阻礙。但其實可以發(fā)現(xiàn),從 RPN、SSD、RetinaNet 等開始,大家一直遵循著這樣一個流程:先對每個目標生成多個預測(one-to-many),再將多個預測去重(many-to-one)。所以,如果不對前一步 label assignment 動刀,就必須要保留去重的環(huán)節(jié),即便去重的方法不是 NMS,也會是 NMS 的替代物(如 RelationNet,如 CenterNet 的 max pooling)。

3a8fafac2e164ab58d8783826bf0d1c8.png

那直接做 one-to-one assignment 的方法是否存在呢?其實是有的。上古時代有一個方法叫 MultiBox,對每個目標和每個預測做了 bipartite matching,DETR 其實就是將該方法的網絡換成了 Transformer。此外還有一個大家熟知的方法:YOLO,YOLO 也是對每個目標只匹配一個 grid[1] ,只不過它是采用中心點做的匹配,而且有 ignore 區(qū)域。

Prediction-aware one-to-one

于是接下來的問題就是,在 dense prediction 上能不能只依賴 one-to-one label assignment,比較完美地去掉 NMS?研究者首先基于去掉 centerness 分支的 FCOS,統(tǒng)一網絡結構和訓練方法,用 Focal Loss + GIoU Loss,做了如下分析實驗:

fa8012f59c394bfa839079e104466d43.png

研究者設計了兩種 hand-crafted one-to-one assignment 方法,分別模仿 RetinaNet(基于 anchor box)和 FCOS(基于 center 點),盡可能做最小改動,發(fā)現(xiàn)已經可以將有無 NMS 的 mAP 差距縮小到 4 個點以內。

但研究者認為手工設計的 label assignment 規(guī)則會較大地影響 one-to-one 的性能,比方說 center 規(guī)則對于一個偏心的物體就不夠友好,而且在這種情況下 one-to-one 規(guī)則會比 one-to-many 規(guī)則的魯棒性更差。所以認為規(guī)則應該是 prediction-aware 的。研究者首先嘗試了 DETR 的思路,直接采用 loss 做 bipartite matching 的 cost[2] ,發(fā)現(xiàn)無論是絕對性能還是有無 NMS 的差距,都得到了進一步的改善。

但他們知道,loss 和 metrics 往往并不一致,它常常要為優(yōu)化問題做一些妥協(xié)(比如做一些加權等等)。也就是說,loss 并不一定是 bipartite matching 的最佳 cost。因而研究者提出了一個非常簡單的 cost:

190a2ef8f8264f3793efc8105be7b978.png

看起來稍微有點復雜,但其實就是用網絡輸出的 prob 代表分類,網絡輸出和 gt 的 IoU 代表回歸,做了加權幾何平均,再加一個類似于 inside gt box 的空間先驗。加權幾何平均和空間先驗在后面都分別做了 ablation。

這就是研究者提出的 POTO 策略,它進一步地提升了無 NMS 下的性能,也側面驗證了 loss 并不一定是最好的 cost[3]。但從 Table 1 中也發(fā)現(xiàn)了,POTO 的性能依舊不能匹敵 one-to-many+NMS 組合。研究者認為問題出在兩個方面:

one-to-one 需要網絡輸出的 feature 非常 sharp,這對 CNN 提出了較嚴苛的要求(這也是 Transformer 的優(yōu)勢);

one-to-many 帶來了更強的監(jiān)督和更快的收斂速度。

于是分別用 3D Max Filtering 和 one-to-many auxiliary loss 緩解如上問題。

3D Max Filtering

f0ddb745d5af443eb3a226ff591ada8e.png

如 Figure 3 所示,這個模塊只采用了卷積、插值、max pooling 3d,速度非???,也不需要寫 cuda kernel。

One-to-many auxiliary loss

針對第二點監(jiān)督不夠強、收斂速度慢,研究者依舊采用 one-to-many assignment 設計了 auxiliary loss 做監(jiān)督,該 loss 只包含分類 loss,沒有回歸 loss。assignment 本身沒什么可說的,appendix 的實驗也表明多種做法都可以 work。這里想提醒大家的是注意看 Figure 2 的乘法,它是 auxiliary loss 可以 work 的關鍵。在乘法前的一路加上 one-to-many auxiliary loss,乘法后是 one-to-one 的常規(guī) loss。由于 1*0=0,1*1=1,所以只需要大致保證 one-to-one assignment 的正樣本在 one-to-many 中依然是正樣本即可。

實驗

最主要的實驗結果已經在 Table 1 中呈現(xiàn)了,此外還有一些 ablation 實驗。

80c704d7ae0b4f93b1b7e79538c2bedc.png

這里 highlight 幾點:

α越低,分類權重越大,有無 NMS 的差距越小,但絕對性能也會降低 [4];α太高也不好,后續(xù)所有實驗用α=0.8;

在α合理的情況下,空間先驗不是必須的,但空間先驗能夠在匹配過程中幫助排除不好的區(qū)域,提升絕對性能;研究者在 COCO 實驗中采用 center sampling radius=1.5,在 CrowdHuman 實驗中采用 inside gt box[5];

加權幾何平均數(Mul)[6]比加權算術平均數(Add)[7]更好。

去掉 NMS 的最大收益其實是 crowd 場景,這在 COCO 上并不能很好地體現(xiàn)出來。所以又在 CrowdHuman 上做了實驗如下:

17ec52d698d8427c98f0f6dc7b38221a.png

請注意 CrowdHuman 的 ground-truth 做 NMS threshold=0.6,只有 95.1% 的 Recall,這也是 NMS 方法的理論上限。而本文方法沒有采用 NMS,于是輕易超越了這一上限。

研究者還做了其它一些實驗和分析,歡迎看原文。

可視化

經過以上改進,研究者成功把 one-to-one 的性能提升到了與 one-to-many+NMS 方法 comparable 的水平。此外還可視化了 score map,可以發(fā)現(xiàn) FCN 是有能力學出非常 sharp 的表示的,這也是很讓研究者驚奇的一點。

結果圖中比較明顯的改善出現(xiàn)在多峰 case 上。比如兩個物體有一定的 overlap(但又沒有特別重合),這個時候 one-to-many+NMS 方法經常出現(xiàn)的情況是,除了兩個物體分別出了一個框之外,在兩個物體中間也出了一個框,這個框與前兩個框的 IoU 不足以達到 NMS threshold,但置信度又比較高。這類典型的多峰問題在 POTO 中得到了較大的緩解。

Others

有些人可能比較關心訓練時間,因為潛意識里在 dense prediction 上做 bipartite matching 應該是很慢的。然而實際上依賴于 scipy 對 linear_sum_assignment 的優(yōu)化,實際訓練時間僅僅下降了 10% 左右。

如果對這一時間依然敏感,可以用 topk(k=1)代替 bipartite matching;在 dense prediction 里 top1 實際上是 bipartite matching 的近似解 [8] 。相似地,k》1 的情況對應了 one-to-many 的一種新做法,研究者也對此做了一些工作,后續(xù)可能會放出來。

責任編輯:PSY

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 檢測
    +關注

    關注

    5

    文章

    4873

    瀏覽量

    94215
  • 計算機視覺
    +關注

    關注

    9

    文章

    1715

    瀏覽量

    47672
  • 全卷積網絡
    +關注

    關注

    0

    文章

    7

    瀏覽量

    2355
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    深入解析 ISL8488E/8489E/8490E/8491E RS - 485/RS - 422 收發(fā)器

    深入解析 ISL8488E/8489E/8490E/8491E RS - 485/RS - 422 收發(fā)器 在工業(yè)自動化、安防網絡等眾多領域
    的頭像 發(fā)表于 03-12 15:05 ?134次閱讀

    探索 HMC652LP2E - HMC655LP2E 寬帶固定衰減器家族

    探索 HMC652LP2E - HMC655LP2E 寬帶固定衰減器家族 在電子工程師的日常工作中,選擇合適的衰減器對于實現(xiàn)電路的精確性能至關重要。今天,我們就來深入了解一下 HMC652LP
    的頭像 發(fā)表于 03-04 16:35 ?149次閱讀

    探索HMC656LP2E - HMC658LP2E寬頻固定衰減器家族

    探索HMC656LP2E - HMC658LP2E寬頻固定衰減器家族 在電子工程領域,寬頻固定衰減器是不可或缺的組件,它們在各種高頻應用中發(fā)揮著關鍵作用。今天,我們來深入了解一下HMC656LP2E
    的頭像 發(fā)表于 03-03 16:55 ?596次閱讀

    瑞薩E1/E20仿真器:設計、調試與使用解析

    瑞薩E1/E20仿真器:設計、調試與使用解析 在嵌入式系統(tǒng)開發(fā)中,仿真器是不可或缺的工具,它能幫助工程師高效地進行硬件調試和程序開發(fā)。瑞薩的E1/
    的頭像 發(fā)表于 02-11 17:05 ?681次閱讀

    E5092A矢量網絡分析儀實現(xiàn)多端口測試

    E5092A 是一款可配置的多端口測試儀,專為與4 端口矢量網絡分析儀(如 E5070B/E5071C/E5080A)配合使用而設計,能夠擴
    的頭像 發(fā)表于 02-10 17:08 ?166次閱讀
    <b class='flag-5'>E</b>5092A矢量<b class='flag-5'>網絡</b>分析儀<b class='flag-5'>實現(xiàn)</b>多端口測試

    Renesas E1/E20 仿真器:設計與調試解析

    Renesas E1/E20 仿真器:設計與調試解析 在嵌入式系統(tǒng)開發(fā)的廣闊領域中,仿真器扮演著至關重要的角色,它是工程師們調試和優(yōu)化代碼的得力助手。Renesas E1/
    的頭像 發(fā)表于 02-09 10:30 ?549次閱讀

    探索CYTVII-B-E-100-SO評估板:功能、操作與連接解析

    -100-SO 評估板.pdf 評估板簡介 CYTVII-B-E-100-SO評估板,被稱為“CPU板”,是一款用于評估CYT2B75CABES Traveo? II設備的平臺。它既可以
    的頭像 發(fā)表于 12-19 10:30 ?406次閱讀

    TUSB2E221 USB 2.0-eUSB2 雙路中繼器:設計與應用解析

    TUSB2E221 USB 2.0-eUSB2 雙路中繼器:設計與應用解析 在電子設備飛速發(fā)展的今天,USB接口的應用無處不在。TUSB2E221作為一款雙路eUSB
    的頭像 發(fā)表于 12-15 17:05 ?1453次閱讀

    CNN卷積神經網絡設計原理及在MCU200T上仿真測試

    CNN算法簡介 我們硬件加速器的模型為Lenet-5的變型,網絡粗略分共有7層,細分共有13層。包括卷積,最大池化層,激活層,扁平層,連接層。下面是各層作用介紹: 卷積層:提取
    發(fā)表于 10-29 07:49

    卷積運算分析

    的數據,故設計了ConvUnit模塊實現(xiàn)單個感受域規(guī)模的卷積運算. 卷積運算:不同于數學當中提及到的卷積概念,CNN神經網絡中的
    發(fā)表于 10-28 07:31

    基于E203 RISC-V的音頻信號處理系統(tǒng) -協(xié)處理器的乘累加過程

    。 硬件加速簡介 圖1 乘積累加運算單元 乘積累加運算單元電路,類似于DSP中的MAC指令,能夠快速的實現(xiàn) C=B+AB格式的運算功能 圖2 卷積運算單元 卷積
    發(fā)表于 10-28 06:18

    華為攜手伙伴發(fā)布教育行業(yè)E2E園區(qū)安全建網標準

    GITEX GLOBAL 2025期間,華為聯(lián)合IEEE及行業(yè)客戶發(fā)布《教育行業(yè)E2E園區(qū)安全建網標準》(以下簡稱《標準》)。該標準為教育機構構建安全、智能的園區(qū)網絡提供了權威技術指引,標志著教育網絡安全建設進入了標準化與規(guī)范化
    的頭像 發(fā)表于 10-17 11:23 ?1061次閱讀

    深入理解PTP:高精度時間同步的核心原理

    PTP實現(xiàn)高精度的核心在于其精密的測量機制和對網絡延遲的細致處理。我們以常見的端到端 (End-to-End, E2E) 延遲請求-響應機制為例,來剖析PTP的“對表”藝術。
    的頭像 發(fā)表于 09-01 17:41 ?2331次閱讀
    深入理解PTP:高精度時間同步的核心原理

    CS8396E單聲道R類音頻功率放大器

    為4Ω的負載提供最高2X22W@1%的恒定功率,通過FB管腳,CS8396E在單節(jié)鋰電供電情況下,最高可以設置到9.5V輸出電壓,實現(xiàn)2X9
    的頭像 發(fā)表于 06-13 14:19 ?1069次閱讀
    CS8396<b class='flag-5'>E</b>單聲道R類音頻功率放大器

    Broadcom HEDS-9930 (E2/E2L) 評估板與AEDR_9930E2光學編碼器數據手冊

    Broadcom HEDS-9930 (E2/E2L) 評估板與AEDR_9930E2光學編碼器數據手冊
    的頭像 發(fā)表于 05-21 19:01 ?1124次閱讀
    Broadcom HEDS-9930 (<b class='flag-5'>E2</b>/<b class='flag-5'>E2</b>L) 評估板與AEDR_9930<b class='flag-5'>E2</b>光學編碼器數據手冊