基于Transformer的多模態(tài)BEV融合方案

結(jié)合互補(bǔ)的傳感器模式對(duì)于為自動(dòng)駕駛 (AD) 等安全關(guān)鍵型機(jī)器人應(yīng)用提供強(qiáng)大的感知至關(guān)重要。最近用于 AD 的最先進(jìn)的相機(jī)-激光雷達(dá)融合方法依賴于單目深度估計(jì)，與直接使用來自激光雷達(dá)的深度信息相比，這是一項(xiàng)眾所周知的困難任務(wù)。

在這里，作者發(fā)現(xiàn)這種方法沒有像預(yù)期的那樣利用深度，并且表明簡(jiǎn)單地改進(jìn)深度估計(jì)不會(huì)導(dǎo)致對(duì)象檢測(cè)性能的改進(jìn)，并且令人驚訝的是，完全刪除深度估計(jì)不會(huì)降低對(duì)象檢測(cè)性能。這表明，在相機(jī)-激光雷達(dá)融合過程中，依賴單目深度可能是不必要的架構(gòu)瓶頸。

在這項(xiàng)工作中，作者引入了一種新穎的融合方法，該方法完全繞過單目深度估計(jì)，而是使用簡(jiǎn)單的注意力機(jī)制在鳥瞰網(wǎng)格中選擇和融合相機(jī)和激光雷達(dá)特征。

作者表明，作者的模型可以根據(jù)激光雷達(dá)功能的可用性來調(diào)整其對(duì)相機(jī)功能的使用，并且與依賴單目深度估計(jì)的基線相比，它在 nuScenes 數(shù)據(jù)集上產(chǎn)生更好的 3D 對(duì)象檢測(cè)。

01? 介紹

高效、有效地集成來自不同模式的信息在自動(dòng)駕駛等安全關(guān)鍵型應(yīng)用中尤其重要，其中不同的傳感器模式是互補(bǔ)的，將它們充分組合對(duì)于保證安全至關(guān)重要。例如，相機(jī)可以捕獲遠(yuǎn)距離物體的豐富語義信息，而激光雷達(dá)提供極其準(zhǔn)確的深度信息，但在遠(yuǎn)距離處卻稀疏。因此，許多現(xiàn)代自動(dòng)駕駛平臺(tái)都擁有大量不同的傳感器，必須將這些傳感器組合在一起，才能提供對(duì)周圍場(chǎng)景的準(zhǔn)確可靠的感知，并允許這些車輛在現(xiàn)實(shí)世界中安全部署。

多模態(tài)傳感器融合——學(xué)習(xí)來自多個(gè)傳感器的場(chǎng)景的統(tǒng)一表示——為這個(gè)問題提供了一個(gè)可行的解決方案。然而，訓(xùn)練此類多模態(tài)模型可能具有挑戰(zhàn)性，尤其是當(dāng)模態(tài)與相機(jī)（RGB 圖像）和激光雷達(dá)（3D 點(diǎn)云）不同時(shí)。例如，眾所周知，不同的模態(tài)以不同的速率過度擬合和泛化[53]，并且聯(lián)合訓(xùn)練所有模態(tài)可能導(dǎo)致較弱模態(tài)的利用不足，甚至在某些情況下與單模態(tài)模型相比結(jié)果較差[37]。

在自動(dòng)駕駛的背景下，許多最新的相機(jī)-激光雷達(dá)融合方法[14,28,33]都是基于Lift-Splat (LS)范式[38]1。在這種方法中，相機(jī)特征在與激光雷達(dá)特征融合之前使用單目深度投影在鳥瞰圖（BEV）或自上而下的空間中。因此，BEV 中相機(jī)特征的位置高度依賴于單目深度預(yù)測(cè)的質(zhì)量，并且有人認(rèn)為其準(zhǔn)確性至關(guān)重要 [14, 28]。在這項(xiàng)工作中，作者重新考慮這些主張，并表明這些模型內(nèi)的單目深度預(yù)測(cè)質(zhì)量很差，無法解釋它們的成功。特別是，作者提出的結(jié)果表明，當(dāng)單目深度預(yù)測(cè)被激光雷達(dá)點(diǎn)云的直接深度估計(jì)取代或完全刪除時(shí)，基于 Lift-Splat 的方法表現(xiàn)同樣出色。這讓作者認(rèn)為，在融合相機(jī)和激光雷達(dá)功能時(shí)依賴單目深度是一個(gè)不必要的架構(gòu)瓶頸，并且 Lift-Splat 可以被更有效的投影機(jī)制取代。

作者引入了一種名為“Lift-Attend-Splat”的相機(jī)-激光雷達(dá)融合新穎方法，該方法完全繞過單目深度估計(jì)，而是使用簡(jiǎn)單的變壓器選擇并融合 BEV 中的相機(jī)和激光雷達(dá)功能。作者提供的證據(jù)表明，與基于單眼深度估計(jì)的方法相比，作者的方法顯示出更好的相機(jī)利用率，并且它提高了對(duì)象檢測(cè)性能。作者的貢獻(xiàn)如下：

· 作者表明，基于Lift-Splat 范式的相機(jī)-激光雷達(dá)融合方法沒有按預(yù)期利用深度。特別是，作者表明，如果完全刪除單目深度預(yù)測(cè)，它們的性能相同或更好。

· 作者引入了一種新穎的相機(jī)-激光雷達(dá)融合方法，該方法使用簡(jiǎn)單的注意力機(jī)制將相機(jī)和激光雷達(dá)功能融合到BEV 中。作者證明，與基于 Lift-Splat 范例的模型相比，它可以提高相機(jī)利用率并改進(jìn) 3D 對(duì)象檢測(cè)。

02? 相關(guān)工作

用于自動(dòng)駕駛的 3D 物體檢測(cè) 對(duì)于 3D 物體檢測(cè)，大多數(shù)基準(zhǔn)測(cè)試以使用激光雷達(dá)點(diǎn)云的方法為主，因?yàn)榕c僅使用攝像頭或雷達(dá)的方法相比，激光雷達(dá)點(diǎn)云的高度精確的距離測(cè)量可以更好地放置 3D 物體。用于點(diǎn)云分類的深度學(xué)習(xí)方法在 [40, 41] 的開創(chuàng)性工作中首創(chuàng)，早期工作已將類似的想法應(yīng)用于 3D 對(duì)象檢測(cè) [42, 45]。最近的一系列方法基于 3D 空間的直接體素化 [59, 65] 或?qū)⒓す饫走_(dá)表示沿 z 方向壓縮為“柱子”[22, 60]。這些方法非常成功，并且是許多后續(xù)工作的基礎(chǔ)[15,19,62]。3D 物體檢測(cè)的任務(wù)也可以僅通過多個(gè)攝像機(jī)來解決。早期的工作大多基于各種兩階段方法[4,20,42,54]，而最近的方法直接利用單目深度估計(jì)[3,21,43]。當(dāng)沒有激光雷達(dá)時(shí)，這項(xiàng)任務(wù)很困難，因?yàn)楸仨殐H使用圖像來估計(jì) 3D 信息，這是一個(gè)具有挑戰(zhàn)性的問題。然而，最近的工作通過借鑒激光雷達(dá)檢測(cè)管道 [7,11,16] 的想法，通過改進(jìn)位置嵌入 [31] 和 3D 查詢 [18]，以及利用時(shí)間聚合 [12,25,30，32, 52, 67] 或 2D 語義分割 [64]表現(xiàn)出了令人印象深刻的性能。

相機(jī)-激光雷達(dá)融合 可以通過聯(lián)合利用相機(jī)和激光雷達(dá)（如果可用）來提高感知質(zhì)量。最近的融合方法可以大致分為三類：點(diǎn)裝飾方法、利用特定于任務(wù)的對(duì)象查詢和架構(gòu)的方法以及基于投影的方法。點(diǎn)裝飾方法使用語義分割數(shù)據(jù) [49, 57]、相機(jī)特征 [51] 來增強(qiáng)激光雷達(dá)點(diǎn)云，甚至使用圖像平面中的對(duì)象檢測(cè)來創(chuàng)建新的 3D 點(diǎn) [63]。此類方法相對(duì)容易實(shí)現(xiàn)，但其缺點(diǎn)是需要激光雷達(dá)點(diǎn)來融合相機(jī)功能。TransFusion [1] 是利用激光雷達(dá)點(diǎn)云生成的特定于任務(wù)的對(duì)象查詢的方法的最新示例。最終檢測(cè)是直接進(jìn)行的，無需將相機(jī)特征顯式投影到 BEV 空間中。融合也可以在模型的早期進(jìn)行，例如在 3D 體素 [5, 6] 或激光雷達(dá)特征 [23] 的級(jí)別，或者通過在相機(jī)和激光雷達(dá)骨干網(wǎng)之間共享信息 [17, 26, 39]。最后，基于投影的方法將相機(jī)特征投影為 3D，然后將其與激光雷達(dá)融合（見下文）。

基于投影的方法 作者特別感興趣的是基于將相機(jī)特征投影為 3D 的相機(jī)-激光雷達(dá)融合方法。最近最先進(jìn)的方法 [14,28,33] 在 nuScenes 排行榜 [2] 中名列前茅，它利用了 [38] 中提出的想法，并使用單目深度估計(jì)在 3D 中投影相機(jī)特征。[14] 表明，通過在單目深度估計(jì)之前將來自地面真實(shí)激光雷達(dá)深度圖的特征包含到相機(jī)流中，可以顯著提高 [28, 33] 的性能。另一種方法是使用激光雷達(dá)點(diǎn)和相機(jī)特征之間的已知對(duì)應(yīng)關(guān)系將相機(jī)特征直接投影到 BEV 空間中 [8,23,55]。然而，激光雷達(dá)點(diǎn)云的稀疏性可能會(huì)限制投影哪些相機(jī)特征，如[33]中所述。最后，當(dāng)激光雷達(dá)不存在時(shí)，可以使用變壓器學(xué)習(xí)在沒有明確深度的情況下在 BEV 中投影相機(jī)特征，如 [25, 44] 所示。在這里，作者將這一工作擴(kuò)展到相機(jī)-激光雷達(dá)融合的情況，并利用交叉注意力來生成要與激光雷達(dá)融合的相機(jī)特征的密集 BEV 網(wǎng)格。

03? Lift-Splat中的單目深度預(yù)測(cè)

最近基于 Lift-Splat 范式的相機(jī)-激光雷達(dá)融合方法 [28, 33] 通過使用單目深度估計(jì)將相機(jī)特征投影到 BEV 空間中，學(xué)習(xí) BEV 網(wǎng)格形式的統(tǒng)一表示：

其中是從相機(jī)特征獲得的上下文向量，是預(yù)定深度箱上的歸一化分布，Splat 表示將每個(gè)點(diǎn)向下投影到平面的操作，詳細(xì)信息請(qǐng)參見[28,33,38]。然后使用串聯(lián) [33] 或門控注意力 [28] 將生成的特征圖與激光雷達(dá)特征合并。在這種范式中，單目深度預(yù)測(cè)被表述為分類問題，并從下游任務(wù)間接學(xué)習(xí)，無需明確的深度監(jiān)督。

Lift-Splat 深度預(yù)測(cè)普遍較差 作者分析了 BEVFusion 預(yù)測(cè)深度的質(zhì)量，通過使用絕對(duì)相對(duì) (Abs. Rel.) 和均方根誤差 (RMSE) 將其與激光雷達(dá)深度圖進(jìn)行定性和定量比較 [9, 24]。如圖 1 所示的示例所示，深度預(yù)測(cè)不能準(zhǔn)確反映場(chǎng)景的結(jié)構(gòu)，并且與激光雷達(dá)深度圖明顯不同，這表明單目深度沒有像[33]中預(yù)期的那樣得到利用。

改進(jìn)深度預(yù)測(cè)并不能提高檢測(cè)性能 作者接下來研究改進(jìn)深度預(yù)測(cè)質(zhì)量是否能提高物體檢測(cè)性能。為此，作者重新訓(xùn)練了 [33] 中的模型，損失如下：

其中是原始3D對(duì)象檢測(cè)損失，是使用激光雷達(dá)深度作為目標(biāo)的深度估計(jì)的簡(jiǎn)單交叉熵?fù)p失。通過改變超參數(shù)，作者可以控制深度預(yù)測(cè)的質(zhì)量并探索它如何影響檢測(cè)性能。在圖 1 中，作者看到，雖然深度監(jiān)督確實(shí)可以在視覺上和定量上產(chǎn)生更準(zhǔn)確的深度圖，但隨著深度監(jiān)督權(quán)重的增加，使用平均精度 (mAP) 測(cè)量的檢測(cè)性能會(huì)從基線下降。這表明該方法無法利用更準(zhǔn)確的深度預(yù)測(cè)。自從對(duì)多任務(wù)損失方程進(jìn)行訓(xùn)練以來在高值時(shí)可能會(huì)降低目標(biāo)檢測(cè)性能，作者還嘗試了另外兩種變體：(i) 單獨(dú)預(yù)訓(xùn)練深度監(jiān)督模塊和 (ii) 直接使用激光雷達(dá)點(diǎn)云來完全繞過深度監(jiān)督模塊。預(yù)訓(xùn)練可以帶來更準(zhǔn)確的深度預(yù)測(cè)，但會(huì)降低相對(duì)于基線的檢測(cè)性能，而直接使用激光雷達(dá)不會(huì)改變相對(duì)于基線的檢測(cè)性能，即使所有深度指標(biāo)都接近于零。

完全刪除深度預(yù)測(cè)不會(huì)影響目標(biāo)檢測(cè)性能 上述結(jié)果使作者假設(shè)基于 Lift-Splat 投影的相機(jī)激光雷達(dá)融合方法沒有利用精確的單目深度。為了測(cè)試這一點(diǎn)，作者完全刪除單目深度預(yù)測(cè)并將投影（1）替換為：

其中作者用 1 表示與形狀相同的張量，所有條目等于 1。這將相機(jī)特征均勻地投影到所有深度。引人注目的是，作者在圖 1（右）中看到，去除單目深度估計(jì)不會(huì)導(dǎo)致目標(biāo)檢測(cè)性能下降，這表明準(zhǔn)確的深度估計(jì)并不是該方法的關(guān)鍵組成部分。作者假設(shè)，當(dāng)激光雷達(dá)特征可用時(shí)，單目深度的重要性會(huì)大大降低，因?yàn)榧す饫走_(dá)是更精確的深度信息源，并且該模型能夠輕松抑制投射在錯(cuò)誤位置的相機(jī)特征。這表明依賴單目深度估計(jì)可能是不必要的架構(gòu)瓶頸，并導(dǎo)致相機(jī)的利用率不足。

04? 無需單目深度估計(jì)的相機(jī)-激光雷達(dá)融合方法

在本節(jié)中，作者提出了一種相機(jī)-激光雷達(dá)融合方法，該方法完全繞過單目深度估計(jì)，而是使用簡(jiǎn)單的變壓器在鳥瞰圖中融合相機(jī)和激光雷達(dá)特征[48]。然而，由于大量的相機(jī)和激光雷達(dá)特征以及注意力的二次性質(zhì)，將 Transformer 架構(gòu)簡(jiǎn)單地應(yīng)用于相機(jī)-激光雷達(dá)融合問題是很困難的。如[44]所示，在 BEV 中投影相機(jī)特征時(shí)，可以使用問題的幾何形狀來極大地限制注意力的范圍，因?yàn)橄鄼C(jī)特征應(yīng)該只對(duì)沿其相應(yīng)光線的位置做出貢獻(xiàn)。作者將這一想法應(yīng)用于相機(jī)-激光雷達(dá)融合的情況，并引入了一種簡(jiǎn)單的融合方法，該方法利用相機(jī)平面中的列與激光雷達(dá) BEV 網(wǎng)格中的極射線之間的交叉注意力。交叉注意力不是預(yù)測(cè)單眼深度，而是學(xué)習(xí)哪些相機(jī)特征是激光雷達(dá)特征沿其光線提供的最顯著的給定上下文。

除了 BEV 中相機(jī)特征的投影之外，作者的模型與基于 Lift-Splat 范式 [14,28,33] 的方法具有相似的整體架構(gòu)，如圖 2 左側(cè)所示。它由以下模塊組成：相機(jī)和激光雷達(dá)主干，獨(dú)立為每種模態(tài)生成特征；投影和融合模塊，將相機(jī)特征嵌入到 BEV 中并將其與激光雷達(dá)融合；最后是檢測(cè)頭。在考慮對(duì)象檢測(cè)時(shí)，模型的最終輸出是場(chǎng)景中對(duì)象的屬性，表示為具有位置、尺寸、方向、速度和分類信息的 3D 邊界框。接下來，作者詳細(xì)解釋投影和融合模塊的架構(gòu)。

投影地平線 對(duì)于每個(gè)攝像機(jī)，作者考慮穿過圖像中心的水平線以及與其 3D 投影相對(duì)應(yīng)的平面。作者將該平面稱為相機(jī)的投影地平線。它可以很容易地使用齊次坐標(biāo)來描述為點(diǎn)集，其中存在使得：

其中是3×4相機(jī)投影矩陣（內(nèi)在和外在），是圖像的高度。請(qǐng)注意，該平面通常不平行于 BEV 網(wǎng)格，其相對(duì)方向由相機(jī)的外部參數(shù)定義。作者在投影地平線上定義一個(gè)規(guī)則網(wǎng)格，該網(wǎng)格與圖像平面中特征的二維網(wǎng)格對(duì)齊，方法是從水平線與圖像平面中特征列邊緣的交點(diǎn)追蹤出光線，然后分離這些光線進(jìn)入一組預(yù)先確定的深度箱（類似于[28]）。該網(wǎng)格上的特征可以用矩陣表示，其中每一行對(duì)應(yīng)于相機(jī)特征圖中的特定列。投影地平線的幾何形狀如圖 2 所示（左插圖）。

投影地平線和 BEV 網(wǎng)格之間的對(duì)應(yīng)關(guān)系 通過沿 3D 空間中的 z 方向投影投影地平線上的點(diǎn)和 BEV 平面上的點(diǎn)，作者可以輕松定義它們之間的對(duì)應(yīng)關(guān)系。由于相機(jī)通常相對(duì)于地面傾斜，因此這種對(duì)應(yīng)關(guān)系取決于每個(gè)相機(jī)的外部參數(shù)。作者通過在投影地平線的下投影單元中心位置對(duì) BEV 網(wǎng)格進(jìn)行雙線性采樣，將激光雷達(dá)特征從 BEV 網(wǎng)格傳輸?shù)较鄼C(jī)的投影地平線。作者將這個(gè)過程稱為“提升”，并將其表示為相機(jī) i 的投影地平線的 Lifti。類似地，通過在 BEV 網(wǎng)格的投影單元中心位置對(duì)投影地平線進(jìn)行雙線性采樣，可以在相反的方向上將特征從投影地平線轉(zhuǎn)移到 BEV 網(wǎng)格。作者將此操作表示為 Splati ，類似于 [28, 33, 38].

Lift-Attend-Splat 作者的投影模塊如圖 2（右）所示，可以分為三個(gè)簡(jiǎn)單的步驟：（i）作者首先將 BEV 激光雷達(dá)特征提升到相機(jī)的投影地平線上，產(chǎn)生“提升”激光雷達(dá)特征，(ii) 然后，作者使用簡(jiǎn)單的變換器編碼器-解碼器讓“提升的”激光雷達(dá)特征關(guān)注相應(yīng)列中的相機(jī)特征，在投影地平線上產(chǎn)生融合特征，最后(iii) 作者將這些特征重新投射到 BEV 網(wǎng)格上以產(chǎn)生。在參與步驟中，每列中的相機(jī)特征由變換器編碼器 E 進(jìn)行編碼，并作為鍵和值傳遞給變換器解碼器，變換器解碼器使用平截頭體激光雷達(dá)特征作為查詢。這三個(gè)步驟的結(jié)果可以寫為：

其中，和將 BEV 特征投影到攝像機(jī)的投影地平線上（反之亦然），如上所述。最后，作者應(yīng)用一個(gè)簡(jiǎn)單的融合模塊，將不同相機(jī)的投影特征相加，將它們與激光雷達(dá)特征連接起來，并應(yīng)用卷積塊以獲得 BEV 中的最終特征。這種簡(jiǎn)單的架構(gòu)允許將相機(jī)特征從圖像平面投影到 BEV 網(wǎng)格上，而無需單目深度估計(jì)。作者使用一組柱截頭體變壓器權(quán)重，這些權(quán)重在所有柱截頭體對(duì)和相機(jī)之間共享。為了簡(jiǎn)單起見，作者在這里使用單個(gè)變壓器編碼器和解碼器，但表明增加此類塊的數(shù)量可能是有益的。

注意力與深度預(yù)測(cè) 值得討論的是作者的方法與直接預(yù)測(cè)單眼深度有何不同。當(dāng)使用單目深度時(shí)，相機(jī)特征圖中的每個(gè)特征都被投影到由歸一化深度分布加權(quán)的多個(gè)位置處的 BEV 中。這種歸一化限制每個(gè)特征要么投影到單個(gè)位置，要么在多個(gè)深度上以較低強(qiáng)度涂抹。然而，在作者的方法中，相機(jī)和激光雷達(dá)之間的注意力是這樣的，即相同的相機(jī)功能可以完全為 BEV 網(wǎng)格中的多個(gè)位置做出貢獻(xiàn)。這是可能的，因?yàn)樽⒁饬κ窃阪I上標(biāo)準(zhǔn)化的，鍵對(duì)應(yīng)于相機(jī)特征圖中的不同高度，而不是查詢，對(duì)應(yīng)于沿光線的不同距離。此外，作者的模型在選擇投影相機(jī)功能的位置時(shí)可以訪問 BEV 中的激光雷達(dá)功能，這使其具有更大的靈活性。

05? 實(shí)驗(yàn)

表1上展示了 3D 對(duì)象檢測(cè)任務(wù)的結(jié)果。與基于 Lift-Splat 投影 [28, 33] 的基線相比，作者的方法顯示了 nuScenes 數(shù)據(jù)集的驗(yàn)證和測(cè)試分割方面的改進(jìn)。特別是，作者在測(cè)試分組中顯示了 mAP (+1.1) 和 NDS (+0.4) 的顯著改進(jìn)。由于激光雷達(dá)骨干網(wǎng)是凍結(jié)的并且在所有方法中都是相似的，這表明作者的模型能夠更好地利用相機(jī)功能。底部顯示了使用測(cè)試時(shí)間增強(qiáng) (TTA) 和模型集成的結(jié)果。作者對(duì)鏡像和旋轉(zhuǎn)增強(qiáng)以及單元分辨率為 0.05m、0.075m 和 0.10m 的整體模型的組合執(zhí)行 TTA。作者首先在每個(gè)單元分辨率上應(yīng)用 TTA，然后使用加權(quán)框融合 (WBF) [47] 合并結(jié)果框。毫不奇怪，作者的方法在這些技術(shù)方面表現(xiàn)出了出色的擴(kuò)展性，并且在 nuScenes 驗(yàn)證集上優(yōu)于 BEVFusion [33]。

作者可以根據(jù)物體與ego的距離和大小對(duì)其進(jìn)行聚類，進(jìn)一步分析作者模型的性能，見圖 3。作者可以看到，大部分改進(jìn)都來自于距離較遠(yuǎn)和尺寸較小的物體。在這些情況下，單眼深度估計(jì)尤其困難，這也解釋了為什么作者的模型在這些情況下表現(xiàn)更好。請(qǐng)注意，即使遠(yuǎn)處和小物體包含的激光雷達(dá)點(diǎn)較少，作者的模型仍然能夠有效地利用相機(jī)特征，即使激光雷達(dá)提供的背景較弱。

作者可視化相機(jī)特征投影到 BEV 網(wǎng)格上的位置，并將作者的方法與 BEVFusion [33] 進(jìn)行比較。對(duì)于作者的方法，作者檢查變壓器中最終交叉注意力塊的注意力圖，對(duì)所有注意力頭進(jìn)行平均。對(duì)于 BEVFusion，作者使用單目深度估計(jì)來建立相機(jī)和 BEV 空間中的位置之間的對(duì)應(yīng)強(qiáng)度。在計(jì)算 BEV 中投影相機(jī)特征的總權(quán)重時(shí)，作者僅考慮與地面實(shí)況對(duì)象相對(duì)應(yīng)的像素，如圖 4a（左）所示，作者的方法將相機(jī)特征主要放置在存在地面實(shí)況邊界框的區(qū)域。這表明它可以有效地利用激光雷達(dá)點(diǎn)云作為上下文，以便將相機(jī)特征投影到 BEV 中的相關(guān)位置。與圖 4b 中所示的 BEVFusion 相比，特征分布在物體周圍顯得更窄且更強(qiáng)。這可能是因?yàn)樽髡叩耐队皺C(jī)制不需要沿其光線對(duì)相機(jī)特征的權(quán)重進(jìn)行歸一化，從而使作者的模型能夠更靈活地將特征放置在所需位置。有趣的是，盡管作者的方法也將相機(jī)特征投影到 BEV 中的真實(shí)框之外，但這些區(qū)域中的激活強(qiáng)度受到融合模塊的抑制。這與作者在第 3 節(jié)中的發(fā)現(xiàn)是一致的。

作者消除了作者方法的一些設(shè)計(jì)選擇，并在表2上顯示了它們對(duì)目標(biāo)檢測(cè)性能的影響。對(duì)于所有的消融實(shí)驗(yàn)，作者使用更簡(jiǎn)單的訓(xùn)練設(shè)置，安排 10 個(gè) epoch，批量累積而不是完整批量訓(xùn)練，并且沒有相機(jī)增強(qiáng)。作者首先分析融合模塊的不同實(shí)現(xiàn)的影響：作者比較一個(gè)簡(jiǎn)單的跳躍連接（add）、一個(gè)小的串聯(lián)和卷積層（Cat+Conv，如[33]）和一個(gè)門控 sigmoid 塊[28]。作者發(fā)現(xiàn)它們的表現(xiàn)都非常相似，其中 Cat+Conv 在 mAP 方面表現(xiàn)稍好，這與 [28] 的發(fā)現(xiàn)相反。作者還減少了投影“參與”階段中變壓器解碼器塊的數(shù)量，并表明增加它們的數(shù)量確實(shí)會(huì)導(dǎo)致 mAP 略有改善。這表明作者的方法可以隨著計(jì)算量的增加而擴(kuò)展，但作者在實(shí)驗(yàn)中使用單個(gè)解碼器塊，因?yàn)樗谫|(zhì)量和性能之間提供了良好的平衡。最后，當(dāng)訓(xùn)練期間增加時(shí)間特征聚合中的幀數(shù)時(shí)，作者還看到檢測(cè)分?jǐn)?shù)得到了很好的提高。

審核編輯：黃飛

閱讀全文