亚洲黑人无码久草视频免费的,免费无码观看视频,亚洲色图资源网亚洲精品在

介紹一下我們組前段時(shí)間的一個(gè)微小工作

Fully Sparse 3D Object Detection (NeurIPS 2022)

Authors：Lue Fan，王峰, 王乃巖，Zhaoxiang Zhang

論文：https://arxiv.org/abs/2207.10035

代碼已經(jīng)開(kāi)源在：

https://github.com/tusen-ai/SST

長(zhǎng)話短說(shuō)，我們提出了一種基于激光雷達(dá)的全稀疏3D物體檢測(cè)器，在Waymo數(shù)據(jù)集和Argoverse 2數(shù)據(jù)集上都達(dá)到了不錯(cuò)的精度和速度。下面是一個(gè)簡(jiǎn)要的介紹。

一、導(dǎo)言

目前以SECOND，PointPillars以及CenterPoint為代表的主流一階段點(diǎn)云物體檢測(cè)器都或多或少依賴致密特征圖（dense feature map）。這些方法基本都會(huì)把稀疏體素特征“拍成“dense BEV feature map。這樣做可以沿用2D檢測(cè)器的很多套路，取得了非常不錯(cuò)的性能。但是由于dense feature map的計(jì)算量和檢測(cè)范圍的平方成正比，使得這些檢測(cè)器很難scale up到大范圍long-range檢測(cè)場(chǎng)景中。比如新出的Argoverse 2數(shù)據(jù)集具有[-200, 200] x [-200, 200]的理論檢測(cè)范圍，比常用的不超過(guò)[-75. 75] x [-75, 75]的范圍大了許多。于是便引出了本文想解決的一個(gè)痛點(diǎn)問(wèn)題：

如何去掉這些dense feature map，把檢測(cè)器做成fully sparse的，以此高效地實(shí)現(xiàn) long-range LiDAR detection？

這里補(bǔ)一句：全稀疏其實(shí)并不是一個(gè)新概念，在點(diǎn)云物體檢測(cè)發(fā)展的早期，以PointRCNN為代表的眾多純point-based 方法天生就是全稀疏的。但由于Neighborhood query和FPS的存在，純point-based方法在大規(guī)模點(diǎn)云數(shù)據(jù)上的效率不是很理想。這就導(dǎo)致純point-based方法在點(diǎn)云規(guī)模較大的benchmark上性能表現(xiàn)不佳（沒(méi)辦法用較大的模型和分辨率。）

而去掉dense feature map的一個(gè)直接問(wèn)題就是會(huì)導(dǎo)致物體中心特征的缺失（center feature missing）。這是由于點(diǎn)云常常分布在物體的側(cè)表面，對(duì)于大物體尤其如此。在dense detector中，多層的卷積會(huì)把物體邊緣的有效特征擴(kuò)散到物體中心，因此這些檢測(cè)器不存在直接的中心特征缺失問(wèn)題，可以使用已被證明非常有效的center assignment。下圖展示了特征擴(kuò)散的過(guò)程：

為了解決在全稀疏結(jié)構(gòu)下中心特征缺失的問(wèn)題，我們有一個(gè)基本想法：

既然中心特征缺失了，那么就不依靠中心特征做預(yù)測(cè)，而是依靠物體整體的有效特征做預(yù)測(cè)。

二、方法

順著上面的基本想法，一個(gè)具體的思路就是先把物體分割出來(lái)，再將物體當(dāng)作一個(gè)整體，并用稀疏的方式提取特征。第一步的分割在全稀疏的結(jié)構(gòu)下很好實(shí)現(xiàn)，接下來(lái)物體特征的提取也可以通過(guò)眾多成熟的point-based方法實(shí)現(xiàn)。那么我們的方法就呼之欲出了：

sparse voxel encoder作為backbone和segmentor來(lái)分割物體并預(yù)測(cè)每個(gè)點(diǎn)所對(duì)應(yīng)的物體中心

對(duì)預(yù)測(cè)出來(lái)的眾多中心點(diǎn)進(jìn)行聚類，得到一個(gè)一個(gè)的instance。這一步類似VoteNet，但我們采用了connected component labeling的方式來(lái)聚類，這一點(diǎn)其實(shí)對(duì)大物體性能挺重要的。

對(duì)于每一個(gè)instance用稀疏的方式提取整體特征，并進(jìn)行該instance外接框的reasoning。

前兩步都很簡(jiǎn)單直接，但第三步稍有麻煩。對(duì)instance提取特征最常用的選擇就是在instance內(nèi)部做point-based operation, 但是之前提到這類方法效率較低。因此我們?cè)噲D規(guī)避其中諸如neighborhood query和FPS這種比較耗時(shí)的操作。我們的想法是，既然已經(jīng)得到了一個(gè)個(gè)instance，何不直接將instance作為一個(gè)一個(gè)獨(dú)立neighborhood group，扔掉進(jìn)一步的ball query或者KNN操作。

這樣做實(shí)質(zhì)上是把instance當(dāng)成了“voxel”來(lái)處理，因?yàn)閕nstance和voxel本質(zhì)上都屬于對(duì)整個(gè)點(diǎn)云的一種non-overlapping劃分。那么我們就可以直接套用提取單個(gè)體素特征那一套方案來(lái)提取instance特征，比如Dynamic VFE。具體而言，就是對(duì)instance內(nèi)的每個(gè)點(diǎn)做MLP，再做instance-wise的pooling得到instance feature。instance feature又可以重新assign到instance內(nèi)部的每個(gè)point上，這一過(guò)程可以不斷重復(fù)。這本質(zhì)上是多個(gè)簡(jiǎn)單的PointNet疊加，也可以換成其他更強(qiáng)力的操作。值得強(qiáng)調(diào)的是，由于3D空間里instance之間天然不會(huì)重疊（正如同voxel），以上的pooling操作可以通過(guò)torch中scatter operation來(lái)高效地動(dòng)態(tài)實(shí)現(xiàn)（無(wú)需對(duì)每個(gè)組進(jìn)行padding或者設(shè)置點(diǎn)數(shù)上限）。

得到最終的instance feature之后，直接預(yù)測(cè)對(duì)應(yīng)instance的外接框和類別即可，我們將整個(gè)對(duì)instance進(jìn)行處理的模塊稱之為 Sparse Instance Recognition （SIR）。

方法總體框架如下圖所示：

Overall Pipeline

這其中還包含著一些后續(xù)操作，比如對(duì)重新分割出比聚類得到的更準(zhǔn)確的instance，感興趣的讀者可以查看原文。

三、結(jié)果

提出的方法在Waymo的單幀單模型標(biāo)準(zhǔn)賽道上達(dá)到了SOTA的性能

Waymo validation 上的性能，截圖不全，感興趣的讀者可查看原論文

同時(shí)也在新出的Argoverse 2數(shù)據(jù)集上超越了主流的CenterPoint（雖然還沒(méi)幾個(gè)人刷。。）。

值得多提一嘴的是我們的方法在長(zhǎng)距離檢測(cè)上有巨大的效率優(yōu)勢(shì)，如下圖所示

這是用SST backbone測(cè)的，用SparseConv的backbone效果更佳

四、一些特性

我們的方法不受sparse backbone的類型限制，比如文中我們就使用了sparse transformer和sparse conv兩種結(jié)構(gòu)。這一點(diǎn)使得FSD可以作為sparse backbone方面研究的一個(gè)strong baseline。

該方法雖然暫時(shí)聚焦在檢測(cè)任務(wù)，但已經(jīng)有了multi task的影子，可以把segmentation和detection一體化。

前向速度很快，再加上收斂也極快，Waymo上訓(xùn)練6個(gè)epoch就可以達(dá)到準(zhǔn)sota水平。這在8 x 3090上只需要不到半天時(shí)間，其他方法達(dá)到相同性能可能需要至少2天的訓(xùn)練時(shí)間。這應(yīng)該會(huì)給大家的快速實(shí)驗(yàn)迭代提供很大便利。

我們相信稀疏化是將來(lái)的一個(gè)趨勢(shì)。在很多場(chǎng)景下，sparse feature都比相比笨重的dense feature map具有更高的可操作性和靈活性，歡迎大家試用我們的模型。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴