人妻激情麻豆综合 ,婷婷七月av老鸭窝国产AV

Nullmax感知部總監(jiān)兼計算機視覺首席科學(xué)家成二康博士，前段時間做客汽車之心·行家說欄目，就行泊一體的感知能力話題進行了分享。

當(dāng)中，成二康博士就自動駕駛的數(shù)據(jù)閉環(huán)以及虛擬樣本生成等數(shù)據(jù)話題進行了概括性的介紹，并對當(dāng)前備受關(guān)注的BEV感知，尤其是BEV + Transformer技術(shù)架構(gòu)，從總結(jié)和實踐兩方面進行了簡明易懂的闡述。

我們將成二康博士分享的主體內(nèi)容進行了整理，本篇是關(guān)于BEV + Transformer的精簡介紹。目前，Nullmax已經(jīng)完成了BEV感知的一系列工作，并在量產(chǎn)項目開始了相關(guān)技術(shù)的運用。

行泊一體是一個很熱的話題，簡單來講就是用一個域控或者嵌入式平臺同時實現(xiàn)行車、泊車兩大功能。因此，行泊一體的方案對于整個系統(tǒng)的感知架構(gòu)也有著極高的要求。

比如，需要處理包括相機、毫米波雷達等多個傳感器的輸入，需要支持行泊一體中的融合、定位、規(guī)劃和感知等多個任務(wù)。尤其是視覺感知方面，需要支持360度覆蓋的相機配置，為下游的規(guī)劃、控制任務(wù)輸出目標(biāo)檢測、車道線檢測等感知結(jié)果。

為此，Nullmax開發(fā)了一套強大的感知架構(gòu)，它最大的優(yōu)勢就在于可以同時融合時間、空間信息，很好地支持多傳感器、多任務(wù)的協(xié)同工作。

在整個感知架構(gòu)的設(shè)計中，Nullmax對BEV + Transformer的技術(shù)架構(gòu)進行了充分的考慮，在技術(shù)研發(fā)和項目落地兩方面同步進行了大量工作，取得了不錯進展。

在自動駕駛中，BEV（鳥瞰圖）視角下的感知輸出，能夠更好地為規(guī)劃、控制等下游任務(wù)服務(wù)，因此設(shè)計一個BEV-AI的技術(shù)架構(gòu)，對于行泊一體方案來說很有意義。

這個架構(gòu)的輸入，是多個相機拍攝的圖像，輸出則是自動駕駛的一系列任務(wù)，當(dāng)中包含了動態(tài)障礙物的檢測和預(yù)測，靜態(tài)場景的理解，以及這兩個基礎(chǔ)之上的一系列下游規(guī)控任務(wù)。

當(dāng)中的挑戰(zhàn)就在于：圖像是二維的平面空間，但是BEV空間以及自動駕駛的車體坐標(biāo)系是三維的立體空間，如何才能去實現(xiàn)圖像空間和三維空間的影射？

1、BEV-CNN架構(gòu)

在傳統(tǒng)的CNN（卷積神經(jīng)網(wǎng)絡(luò)）層面，天然的想法就是去做純粹的端到端方法。輸入一張圖片，直接輸出三維結(jié)果，不利用相機參數(shù)。

但是，相機對三維世界的成像遵循著一些原理，相機參數(shù)其實也能派上用場。比如，三維世界中的一個點，它可以通過相機的外參投到相機的三維坐標(biāo)系中，然后再通過透視變換投到圖像平面，完成3D到2D的轉(zhuǎn)換。

在CNN當(dāng)中，利用相機參數(shù)和成像原理，實現(xiàn)3D和2D信息關(guān)聯(lián)的方法可以總結(jié)為兩種。一種是在后端，利用3D到2D的投影，即一個光心射線上面所有的3D點都會投影到一個2D像素上，完成3D和2D信息的關(guān)聯(lián)。知名的OFT算法，就是這一類方法的代表性工作。

另外一種是在前端，讓每一個像素學(xué)習(xí)三維深度的分布，把2D空間lift成3D空間。這當(dāng)中又可以細分為兩種方式，一種是隱式的學(xué)習(xí)，典型的算法有LSS，對每個點都要學(xué)一個特征，同時隱式地學(xué)習(xí)該點深度的概率分布；另一種則是顯式估計每個像素的深度，比如CaDNN。

2、BEV-Transformer架構(gòu)

在有了Transformer之后，它天然提供了一種機制，可以利用decoder中的cross-attention（交叉注意力）機制，架接3D空間和2D圖像空間的關(guān)系。

BEV-Transformer的實現(xiàn)方式也可分為兩類，一類是通過cross-attention機制，在后端加入3D信息和2D特征的關(guān)聯(lián)，它可以進一步細分為利用相機參數(shù)、不利用相機參數(shù)兩種方式，比如Nullmax提出的BEVSegFormer，就是不利用相機參數(shù)的形式。

另一類是在前端，通過Frustum（視錐）的方式，2D特征上面直接加入3D信息，PETR的一系列工作就是這方面的研究。

此外，在BEV + Transformer的基礎(chǔ)上，也可以加入temporal（時間）的信息。

具體來說，就是利用temporal當(dāng)中的ego motion（自運動）信息。比如，三維世界通過ego motion在后端去關(guān)聯(lián)；或者在前端，通過兩個相機坐標(biāo)系之間的ego motion將3D信息疊加進去，然后在2D特征上面去做任務(wù)。

目前BEV + Transformer的方法比較多，我們對比較主流的幾種方式做了一個簡單的總結(jié)。

3、Nullmax的多相機BEV方案

Nullmax正在開發(fā)多相機BEV方案，這些工作與前述的工作有所不同，面臨一些獨特的挑戰(zhàn)。

當(dāng)中有兩個非常關(guān)鍵的問題：一是支持任意多個相機，二是不依賴相機參數(shù)。

此前，Nullmax提出的BEVSegFormer就是當(dāng)中的一項工作（現(xiàn)已被WACV 2023錄用），面向任意數(shù)量相機的BEV語義分割，為自動駕駛在線實時構(gòu)建局部地圖。它在不利用相機參數(shù)的情況下，可以完成二維圖像和三維感知的關(guān)聯(lián)?！更c擊查看詳盡解讀」

在nuScenes數(shù)據(jù)集上，BEVSegFormer相比于HDMapNet，效果提升了10個百分點。

除此之外，顯式構(gòu)建BEV是一個難點，對于空間中只有少數(shù)幾個目標(biāo)的任務(wù)，例如車道線，Nullmax提出了不顯式構(gòu)建BEV的方法，直接計算三維車道線的新范式。

這是Nullmax近期在3D車道線檢測方面的工作之一，通過設(shè)計sparse的curve query來完成車道線檢測。在Apollo數(shù)據(jù)集上，Nullmax的3D車道線檢測方法對比PersFormer，效果進一步提升?！更c擊查看詳盡解讀」

同樣的，Nullmax也將3D目標(biāo)檢測的一些工作擴展到了量產(chǎn)應(yīng)用中，特別是在低算力平臺上進行BEV視角的檢測。比如近期交付的一個量產(chǎn)方案，就是用8 TOPS算力實現(xiàn)4個周視相機的3D障礙物檢測，當(dāng)中的優(yōu)化工作，非常具有挑戰(zhàn)。

在3D障礙物檢測方面，BEV + Transformer架構(gòu)融合多個相機信息，可以帶來一些明顯的優(yōu)勢。

在多相機的感知系統(tǒng)中，如果進行障礙物檢測，比較傳統(tǒng)的方案是每個相機單獨工作。這會導(dǎo)致系統(tǒng)的工作量比較大，每個相機都要完成目標(biāo)檢測、跟蹤、測距，還要完成不同相機的ReID（重識別）。同時，這也給跨相機的融合帶來很大挑戰(zhàn)，比如截斷車輛的檢測或者融合。

如果技術(shù)架構(gòu)的輸出是BEV視角，或者車體坐標(biāo)下的三維感知結(jié)果的話，那么這個工作就可以簡化，準(zhǔn)確率也能提升。

總體而言，Nullmax目前已經(jīng)在基于BEV的多相機感知方面完成了系列工作，包括BEV + Transformer的局部地圖、3D車道線檢測、3D目標(biāo)檢測，以及在高、中、低算力嵌入式平臺的上線。

Nullmax希望做出的BEV + Transformer架構(gòu)能夠適配多個相機、不同相機，以及不同相機的選型、內(nèi)參、外參等等因素，提供一個真正平臺化的產(chǎn)品。

同時，我們還在進行一些這里沒有介紹的工作，包括BEV視角下的規(guī)劃控制，以及支撐BEV + Transformer技術(shù)架構(gòu)的關(guān)鍵任務(wù)，比如離線的4D Auto-GT（自動化4D標(biāo)注真值）。

最終，我們希望完成一套可在車端實時運行BEV + Transformer基礎(chǔ)架構(gòu)的整體方案，同時支持感知、預(yù)測、規(guī)劃任務(wù)，并在高、中、低算力平臺上完成落地。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴