久久午夜鲁丝无码片段,日本成人在线视频电影

論文作者：Siyuan Huang， Yichen Xie， Song-Chun Zhu， Yixin Zhu

點云是視覺分析和場景理解的典型3D表示。但各種3D場景理解任務(wù)仍然缺乏實用和可推廣的預(yù)訓(xùn)練模型，同時盡管3D點云數(shù)據(jù)在3D表示中無所不在，但與2D圖像數(shù)據(jù)相比，對3D點云進(jìn)行標(biāo)注要困難得多。因此，動機(jī)是：正確利用大量未標(biāo)記的3D點云數(shù)據(jù)是大規(guī)模3D視覺分析和場景理解成功的必要條件。

自監(jiān)督學(xué)習(xí)成為表征學(xué)習(xí)的一個新興方向，在下游任務(wù)中具有巨大潛力。過去存在3D點云的自監(jiān)督學(xué)習(xí)方法，但它們完全依賴于通過重建3D點云進(jìn)行空間分析，這種自監(jiān)督學(xué)習(xí)的靜態(tài)視角被設(shè)計為復(fù)雜的操作、架構(gòu)或損失，使得訓(xùn)練和推廣到多樣化的下游任務(wù)變得困難。此外，盡管已經(jīng)提出了各種方法用于無監(jiān)督學(xué)習(xí)和點云的生成，但這些方法僅證明了在合成數(shù)據(jù)集上的形狀分類任務(wù)的有效性，而忽略了自然3D場景上預(yù)訓(xùn)練模型的更高級別任務(wù)。

針對3D場景理解的復(fù)雜性質(zhì)，及其由相機(jī)視圖、照明、遮擋等帶來的巨大變化，該論文通過引入時空表示學(xué)習(xí)（STRL）框架來解決這一挑戰(zhàn)。STRL受BYOL的啟發(fā)，只從正配對中學(xué)習(xí)，使用兩個神經(jīng)網(wǎng)絡(luò)：在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)，它們相互作用并相互學(xué)習(xí)。在本文中，將分別介紹：點云的表示學(xué)習(xí)和自監(jiān)督學(xué)習(xí)、STRL的設(shè)計原則與實現(xiàn)、STRL框架的解析、STRL的優(yōu)勢、STRL所提出的方法、STRL所實現(xiàn)的細(xì)節(jié)、STRL的預(yù)訓(xùn)練及實驗，以及分析與總結(jié)。

1.點云的表示學(xué)習(xí)和自監(jiān)督學(xué)習(xí)

與結(jié)構(gòu)化數(shù)據(jù)（例如圖像）的傳統(tǒng)表示不同，點云是無序的向量集。這種獨特的性質(zhì)對表征的學(xué)習(xí)提出了額外的挑戰(zhàn)。盡管無序集上的深度學(xué)習(xí)方法可以應(yīng)用于點云，但這些方法沒有利用空間結(jié)構(gòu)。

1）考慮到空間結(jié)構(gòu)，像PointNet這樣的方法直接將原始點云輸入神經(jīng)網(wǎng)絡(luò)；這些網(wǎng)絡(luò)應(yīng)該是排列不變的，因為點云是無序集合。PointNet通過使用最大池化操作從一組點形成表示全局上下文的單個特征向量來實現(xiàn)這一目標(biāo)。

2）此后，研究人員提出了具有層次結(jié)構(gòu)、基于卷積的結(jié)構(gòu)或基于圖的信息聚合的表示學(xué)習(xí)方法。這些神經(jīng)網(wǎng)絡(luò)直接在原始點云上操作，自然地提供了逐點嵌入，特別適用于基于點的任務(wù)。

無監(jiān)督表征學(xué)習(xí)可以大致分為生成式學(xué)習(xí)或判別式學(xué)習(xí)方法。

1）生成方法，通常通過對數(shù)據(jù)分布或潛在嵌入進(jìn)行建模來根據(jù)像素或點重建輸入數(shù)據(jù)。這個過程可以通過基于能量的建模、自動編或?qū)剐詫W(xué)習(xí)來實現(xiàn)。然而，這種無監(jiān)督機(jī)制在計算上是昂貴的，并且可泛化表示的學(xué)習(xí)不必要地依賴于恢復(fù)這種高級細(xì)節(jié)。

2）判別方法，包括自監(jiān)督學(xué)習(xí)，無監(jiān)督地生成判別標(biāo)簽以促進(jìn)表示學(xué)習(xí)，最近通過各種對比機(jī)制實現(xiàn)。與最大化數(shù)據(jù)似然的生成方法不同，最近的對比方法最大限度地保留了輸入數(shù)據(jù)與其編碼表示之間的互信息。

2.STRL的設(shè)計原則與實現(xiàn)

由于3D數(shù)據(jù)的監(jiān)督目標(biāo)性質(zhì)，監(jiān)督訓(xùn)練在生成實用和可推廣的預(yù)訓(xùn)練模型方面存在困難。具體而言，在模型設(shè)計和學(xué)習(xí)中考慮了以下三個原則：

1）簡單性

設(shè)計原則：盡管存在3D點云的自監(jiān)督學(xué)習(xí)方法，但它們完全依賴于通過重建3D點云進(jìn)行的空間分析。這種自監(jiān)督學(xué)習(xí)的靜態(tài)視角被明確地設(shè)計為復(fù)雜的操作、架構(gòu)或損失，使得訓(xùn)練和推廣到多樣化的下游任務(wù)變得困難。因此認(rèn)為，這種復(fù)雜的設(shè)計是人為引入的，是不必要的，并且可以通過補(bǔ)充缺失的時間上下文線索來減少或消除。

設(shè)計實現(xiàn)：值得注意的是，STRL在BYOL的啟發(fā)下，只從正配對中學(xué)習(xí)，非常簡單。具體來說，STRL使用兩個神經(jīng)網(wǎng)絡(luò)，稱為在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)，它們相互作用并相互學(xué)習(xí)。通過增強(qiáng)一個輸入，訓(xùn)練在線網(wǎng)絡(luò)預(yù)測另一個時間相關(guān)輸入的目標(biāo)網(wǎng)絡(luò)表示，該輸入是通過單獨的增強(qiáng)過程獲得的。

2）不變性

設(shè)計原則：通過數(shù)據(jù)增強(qiáng)和對比學(xué)習(xí)數(shù)據(jù)不變性，已在圖像和視頻上顯示出良好的結(jié)果。一個自然的問題出現(xiàn)了：如何引入和利用 3D 點云的不變性來進(jìn)行自監(jiān)督學(xué)習(xí)？

設(shè)計實現(xiàn)：為了學(xué)習(xí)不變性表示，探索了嵌入在 3D 點云中的不可分割的時空上下文線索。在方法中，在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的輸入在時間上是相關(guān)的，從點云序列中采樣。具體來說，對于自然圖像/視頻，在深度序列中采樣兩個具有自然視點變化的幀作為輸入對。對于 3D 形狀這樣的合成數(shù)據(jù)，通過旋轉(zhuǎn)、平移和縮放來增強(qiáng)原始輸入以模擬視點變化。輸入之間的時間差異利用模型來捕捉不同視角的隨機(jī)性和不變性。額外的空間增強(qiáng)進(jìn)一步促進(jìn)模型學(xué)習(xí)點云的 3D 空間結(jié)構(gòu)。

3）泛化性

設(shè)計原則：現(xiàn)有文獻(xiàn)僅在合成數(shù)據(jù)集上驗證了形狀分類中的自監(jiān)督學(xué)習(xí)表示，與自然室內(nèi)的 3D 數(shù)據(jù)或戶外環(huán)境相比，其具有顯著不同的特征。因此，未能證明對更高級別任務(wù)（例如，3D 對象檢測）有足夠的普遍性。

設(shè)計實現(xiàn)：為了泛化學(xué)習(xí)表示，采用了幾個實用的網(wǎng)絡(luò)作為骨干模型。通過對大型數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，驗證了學(xué)習(xí)到的表示可以很容易地直接適應(yīng)下游任務(wù)，或者通過額外的特征微調(diào)。還證明了學(xué)習(xí)到的表示可以泛化到遠(yuǎn)距離域，不同于預(yù)訓(xùn)練域；例如，從 ScanNet 中學(xué)習(xí)的表示可以推廣到 ShapeNet 上的形狀分類任務(wù)和 SUN RGB-D 上的 3D 對象檢測任務(wù)。

3.STRL框架的解析

圖1：方法概述。通過從點云序列中學(xué)習(xí)時空數(shù)據(jù)不變性，自監(jiān)督地學(xué)習(xí)了一種有效的表示。

具體來說，STRL 將 3D 點云序列中的兩個時間相關(guān)幀作為輸入，通過空間數(shù)據(jù)增強(qiáng)對其進(jìn)行轉(zhuǎn)換，并自監(jiān)督地學(xué)習(xí)不變表示。

基于BYOL設(shè)計了所提出的時空表示學(xué)習(xí)（STRL），并將其簡單性擴(kuò)展到3D點云表示的學(xué)習(xí)。下圖說明了所提出的方法。

圖 2：自監(jiān)督學(xué)習(xí)框架的圖示。

STRL 通過兩個網(wǎng)絡(luò)的交互無監(jiān)督地學(xué)習(xí)表示：在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。在這里，自監(jiān)督學(xué)習(xí)的本質(zhì)是訓(xùn)練在線網(wǎng)絡(luò)準(zhǔn)確預(yù)測目標(biāo)網(wǎng)絡(luò)的表示。

給定兩個時空相關(guān)的 3D 點云：

1）在線網(wǎng)絡(luò)通過預(yù)測器預(yù)測目標(biāo)網(wǎng)絡(luò)的表示；

2）目標(biāo)網(wǎng)絡(luò)的參數(shù)由在線網(wǎng)絡(luò)的移動平均線更新。

3D 點云的 STRL 算法流程：

輸入：

輸出：

4.STRL的優(yōu)勢

1）方法優(yōu)于現(xiàn)有技術(shù)。通過使用 STRL 進(jìn)行預(yù)訓(xùn)練并將學(xué)習(xí)到的模型應(yīng)用于下游任務(wù)，它在 ModelNet40上優(yōu)于最先進(jìn)的無監(jiān)督方法，并通過線性評估達(dá)到 90.9% 的 3D 形狀分類精度。在有限數(shù)據(jù)的情況下，半監(jiān)督學(xué)習(xí)的顯著改進(jìn)；并且通過轉(zhuǎn)移預(yù)訓(xùn)練模型來提升下游任務(wù)。例如，通過微調(diào)改進(jìn)了SUN RGB-D和 KITTI 數(shù)據(jù)集上的 3D 對象檢測，以及S3DIS上進(jìn)行的3D 語義分割。

2）簡單的學(xué)習(xí)策略可以學(xué)習(xí)令人滿意的3D 表示性能。通過消融研究，觀察到 STRL 可以通過簡單的增強(qiáng)來學(xué)習(xí)自監(jiān)督表示；它在 ModelNet40 線性分類上穩(wěn)健地實現(xiàn)了令人滿意的準(zhǔn)確率（約 85%），這與最近的發(fā)現(xiàn)相呼應(yīng)，即簡單地預(yù)測 3D 方向有助于學(xué)習(xí) 3D 點云的良好表示。

3）時空線索提高了學(xué)習(xí)表示的性能。僅依靠空間或時間增強(qiáng)只會產(chǎn)生相對較低的性能。相比之下，通過學(xué)習(xí)結(jié)合空間和時間線索的不變表示，將準(zhǔn)確度提高了 3%。

4）對合成 3D 形狀進(jìn)行預(yù)訓(xùn)練確實有助于實際應(yīng)用。最近的研究表明，從 ShapeNet 學(xué)習(xí)到的表征并沒有很好地泛化到下游任務(wù)。相反，STRL報告了相反的觀察結(jié)果，表明在 ShapeNet 上預(yù)訓(xùn)練的表示可以應(yīng)用于處理在物理世界中獲得的復(fù)雜數(shù)據(jù)的下游任務(wù)，同時實現(xiàn)相當(dāng)甚至更好的性能。

5.STRL所提出的方法

5.1 構(gòu)建點云的時間序列

設(shè)計了兩種生成訓(xùn)練點云序列的方法，用來處理各種數(shù)據(jù)源：

1）Natural Sequence （自然序列）

2）Synthetic Sequence （合成序列）

靜態(tài)點云本質(zhì)上是空間的，與自然序列相比缺少關(guān)鍵的時間維度。給定一個點云p0 ，通過生成一個合成序列來解決這個問題。具體來說，連續(xù)旋轉(zhuǎn)、平移和縮放原始點云以構(gòu)建點云序列{pt} ：

其中， t是變換的索引，Rt是采樣變換，模擬時間視圖的變化。

5.2 表征學(xué)習(xí)

設(shè)計 STRL ，通過在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)這兩個網(wǎng)絡(luò)的交互，無監(jiān)督地學(xué)習(xí)表示。在這里，自監(jiān)督學(xué)習(xí)的本質(zhì)是訓(xùn)練在線網(wǎng)絡(luò)準(zhǔn)確預(yù)測目標(biāo)網(wǎng)絡(luò)的表示。

6.STRL所實現(xiàn)的細(xì)節(jié)

合成序列生成

通過以下變換的組合進(jìn)行采樣：

隨機(jī)旋轉(zhuǎn)。對于每個軸，在15英寸范圍內(nèi)繪制隨機(jī)角度并繞其旋轉(zhuǎn)。

隨機(jī)平移。在點云維度的10%內(nèi)全局平移點云。

隨機(jī)縮放。用因子縮放點云。為了進(jìn)一步增加隨機(jī)性，以 0.5 的概率對每個變換進(jìn)行采樣和應(yīng)用。

空間增強(qiáng)

通過改變點云的局部幾何形狀來轉(zhuǎn)換輸入，這有助于 STRL 學(xué)習(xí)更好的點云空間結(jié)構(gòu)表示。具體來說，應(yīng)用以下轉(zhuǎn)換，類似于圖像數(shù)據(jù)增強(qiáng)。

隨機(jī)裁剪。一個隨機(jī)的 3D 長方體面片被裁剪成一個在原始點云的 60% 到 100% 之間均勻采樣的體積?？v橫比控制在以內(nèi)。

隨機(jī)剪切。切出一個隨機(jī)的 3D 長方體。3D長方體的每個維度都在原始維度的以內(nèi)。

隨機(jī)抖動。每個點的 3D 位置都在內(nèi)移動一個均勻隨機(jī)的偏移量。

隨機(jī)丟棄。通過內(nèi)的丟棄率隨機(jī)丟棄 3D 點。

下采樣。通過隨機(jī)選取必要數(shù)量的3D點，基于編碼器的輸入維度向下采樣點云。

標(biāo)準(zhǔn)化。在對合成數(shù)據(jù)進(jìn)行訓(xùn)練時，將點云歸一化以擬合單位球體。

在這些增強(qiáng)中，裁剪和剪切為點云的空間結(jié)構(gòu)帶來了更明顯的變化。因此，以0.5的概率應(yīng)用它們。

訓(xùn)練

使用 LARS 優(yōu)化器和余弦衰減學(xué)習(xí)率，warm-up為 10 個epochs但沒有重新啟動。對于目標(biāo)網(wǎng)絡(luò)，指數(shù)移動平均參數(shù)從 0.996 開始，在訓(xùn)練過程中逐漸增加到 1。具體來說，設(shè)置為：

其中 k 是當(dāng)前訓(xùn)練步驟，K 是最大訓(xùn)練步驟數(shù)。

STRL 對不同的骨干編碼器有利且可泛化。projector和預(yù)測器被實現(xiàn)為具有激活和批量歸一化的多層感知（MLP）。對于大多數(shù)預(yù)訓(xùn)練模型，使用 64 到 256 的batch size 在 8 個 TITAN RTX GPU 上。

圖 3：空間數(shù)據(jù)增強(qiáng)和時間序列生成。除了自然序列生成之外，每種類型的增強(qiáng)都使用內(nèi)部參數(shù)隨機(jī)轉(zhuǎn)換輸入的點云數(shù)據(jù)。

7.STRL的預(yù)訓(xùn)練及實驗

構(gòu)建點云序列并執(zhí)行STRL的預(yù)訓(xùn)練，以學(xué)習(xí)點云數(shù)據(jù)的時空不變性。對于合成形狀和自然室內(nèi)/室外場景，使用不同策略生成點云的時間序列和采樣輸入對。

一、合成形狀

從ShapeNet數(shù)據(jù)集學(xué)習(xí)自監(jiān)督表示模型。它由來自55個類別的57448個合成對象組成。通過時間變換將每個點云擴(kuò)展為兩個不同的視圖，生成了兩個時間校正的點云。進(jìn)一步應(yīng)用空間增強(qiáng)以產(chǎn)生作為輸入的一對點云。

二、自然室內(nèi)和室外場景

從自然室內(nèi)和戶外場景中學(xué)習(xí)自監(jiān)督表示模型，其中點云序列很容易獲得。使用RGB-D傳感器，可以通過掃描不同的相機(jī)姿態(tài)來捕獲深度圖像序列。由于大多數(shù)場景都是平滑捕獲的，從相鄰幀之間的時間相關(guān)性中學(xué)習(xí)時間不變性。

1）對于室內(nèi)場景：

在ScanNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。它由707個獨特場景的1513個重建網(wǎng)格組成。在實驗中，發(fā)現(xiàn)增加幀采樣頻率對性能的貢獻(xiàn)有限。因此，每100幀對原始深度序列進(jìn)行子采樣，作為每個場景的關(guān)鍵幀，得到1513個序列，總共大約25000幀。在預(yù)訓(xùn)練期間，基于每個序列的關(guān)鍵幀生成固定長度的滑動窗口，并在每個窗口中采樣兩個隨機(jī)幀。反向投影兩個幀，在世界坐標(biāo)中生成點云。使用相機(jī)位置將兩個點云轉(zhuǎn)換為相同的世界坐標(biāo)；第一幀的相機(jī)中心是原點。

2）對于室外場景：

對KITTI數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。它包括100多個序列，分為6類。對于每個場景，圖像和點云以大約10 FPS的速度記錄。只使用激光雷達(dá)傳感器捕獲的點云序列。平均而言，每幀大約有120000個點。與ScanNet類似，對滑動窗口中的關(guān)鍵幀和幀對進(jìn)行子采樣，作為訓(xùn)練對。對于自然場景的預(yù)訓(xùn)練，通過將合成時間變換應(yīng)用于兩個點云來進(jìn)一步增強(qiáng)數(shù)據(jù)多樣性。最后，將空間數(shù)據(jù)增強(qiáng)應(yīng)用于兩個點云。

形狀理解

使用 ModelNet40基準(zhǔn)評估預(yù)訓(xùn)練模型的形狀理解能力。它包含來自 40 個類別的 12，331 個對象（9，843 個用于訓(xùn)練，2，468 個用于測試）。使每個形狀在單位空間中被采樣到 10，000 個點。在 ShapeNet 數(shù)據(jù)集上預(yù)訓(xùn)練骨干模型。使用以下評估指標(biāo)來衡量學(xué)習(xí)到的表征。

形狀分類的線性評估為了對 3D 形狀進(jìn)行分類，在編碼的全局特征向量之上附加了一個線性支持向量機(jī) （SVM）。這些全局特征是通過在最后一個池化層之后提取激活來構(gòu)建的。STRL 可以靈活地與各種backbone一起工作。SVM 使用從 ModelNet40 數(shù)據(jù)集的訓(xùn)練集中提取的全局特征進(jìn)行訓(xùn)練。在預(yù)訓(xùn)練和 SVM 訓(xùn)練期間，從每個形狀中隨機(jī)抽取 2048 個點。STRL 優(yōu)于 ModelNet40 上所有最先進(jìn)的無監(jiān)督和自監(jiān)督方法。表 1：ModelNet40 上形狀分類線性評估的比較。線性分類器在 ShapeNet 數(shù)據(jù)集上通過不同的自監(jiān)督方法學(xué)習(xí)到的表示進(jìn)行訓(xùn)練。

形狀分類的監(jiān)督微調(diào)

通過監(jiān)督微調(diào)評估學(xué)習(xí)到的表示模型。預(yù)訓(xùn)練模型用作點云編碼器的初始權(quán)重，根據(jù) ModelNet40 數(shù)據(jù)集上的標(biāo)簽微調(diào) DGCNN 網(wǎng)絡(luò)。STRL 使最終分類準(zhǔn)確率顯著提高了 0.9%。這種改進(jìn)比以前的方法更顯著；它甚至達(dá)到了最先進(jìn)的監(jiān)督學(xué)習(xí)方法設(shè)定的可比性能。

此外，STRL 預(yù)訓(xùn)練模型可以顯著提高半監(jiān)督學(xué)習(xí)中提供有限標(biāo)記訓(xùn)練數(shù)據(jù)的分類性能。具體來說，隨機(jī)抽取不同比例的訓(xùn)練數(shù)據(jù)，并確保每個類別至少選擇一個樣本。接下來，在監(jiān)督下對這些有限樣本的預(yù)訓(xùn)練模型進(jìn)行微調(diào)，并評估其在完整測試集上的性能。結(jié)果表明，當(dāng)有 1%和 20%的訓(xùn)練樣本可用時，所提出的模型獲得了 2.1% 和 1.6%的性能增益；當(dāng)可用的訓(xùn)練樣本較少時，STRL 自監(jiān)督模型將更好地促進(jìn)下游任務(wù)。

表 2：在 ModelNet40 上微調(diào)的形狀分類。自監(jiān)督預(yù)訓(xùn)練模型作為監(jiān)督學(xué)習(xí)方法的初始權(quán)重。

Embedding可視化

使用自監(jiān)督方法可視化 PointNet 和 DGCNN 模型的學(xué)習(xí)特征；它顯示了 ModelNet10 測試集中不同類別樣本的嵌入。采用 t-SNE 進(jìn)行降維。觀察到，除了梳妝臺和床頭柜外，這兩種預(yù)訓(xùn)練模型都能很好地根據(jù)類別區(qū)分大多數(shù)樣本；它們通常看起來很相似，很難區(qū)分。

圖 4：學(xué)習(xí)特征的可視化。使用 t-SNE 可視化 ModelNet10 測試集中每個樣本的提取特征。兩種模型都在 ShapeNet 上進(jìn)行了預(yù)訓(xùn)練。

室內(nèi)場景理解

STRL 學(xué)習(xí)基于視圖變換的表示，適用于合成形狀和自然場景。因此，與主要執(zhí)行遷移學(xué)習(xí)以形成理解的先前工作不同，STRL 還可以促進(jìn)室內(nèi)/室外場景理解任務(wù)。從室內(nèi)場景理解入手，首先在 ScanNet 數(shù)據(jù)集上自監(jiān)督地預(yù)訓(xùn)練STRL，接下來，通過標(biāo)簽微調(diào)來評估 3D 對象檢測和語義分割的性能。

1）3D 對象檢測

3D 對象檢測要求模型根據(jù)輸入的 3D 點云預(yù)測 3D 邊界框及其對象類別。預(yù)訓(xùn)練后，在 SUN RGB-D數(shù)據(jù)集上微調(diào)和評估模型。它包含 10335 個單視圖 RGBD 圖像，分為 5285 個訓(xùn)練樣本和 5050 個驗證樣本。對象使用 3D 邊界框和類別標(biāo)簽進(jìn)行標(biāo)注。使用 VoteNet進(jìn)行了這項實驗，這是一種廣泛使用的模型，以 3D 點云作為輸入。在預(yù)訓(xùn)練期間，通過在末尾添加最大池層來稍微修改其 PointNet++ 主干以獲得全局特征。與從頭開始訓(xùn)練 VoteNet 相比，預(yù)訓(xùn)練將檢測性能提高了1.2 mAP，表明從大型數(shù)據(jù)集（即 ScanNet）學(xué)習(xí)的表示可以成功地轉(zhuǎn)移到不同的數(shù)據(jù)集，并通過精細(xì)改進(jìn)高級任務(wù)的性能調(diào)整。它還比最先進(jìn)的自監(jiān)督學(xué)習(xí)方法高出 0.7 mAP 。

表 3：在 SUN RGB-D 上微調(diào)的 3D 對象檢測

2）3D 語義分割

將預(yù)訓(xùn)練模型轉(zhuǎn)移到斯坦福大型 3D 室內(nèi)空間（S3DIS）數(shù)據(jù)集上的 3D 語義分割任務(wù)。該數(shù)據(jù)集包含從 6 個室內(nèi)區(qū)域的 272 個房間掃描的 3D 點云，每個點都標(biāo)注為 13 個類別。使用僅具有幾何特征（XYZ 坐標(biāo)）的 4096 個點作為模型輸入。在本實驗中，DGCNN 網(wǎng)絡(luò)首先使用 STRL 在 ScanNet 上進(jìn)行預(yù)訓(xùn)練。在這里，專注于僅使用有限標(biāo)記數(shù)據(jù)的半監(jiān)督學(xué)習(xí)。因此，每次在區(qū)域 1-5 的一個區(qū)域上微調(diào)預(yù)訓(xùn)練模型，并在區(qū)域 6 上測試模型。預(yù)訓(xùn)練模型始終優(yōu)于從頭開始訓(xùn)練的模型，尤其是在小訓(xùn)練集。

表4：在 S3DIS 上微調(diào)的 3D 語義分割。在區(qū)域 1-5 之一上以半監(jiān)督方式訓(xùn)練預(yù)訓(xùn)練或初始化模型。以下性能是在 S3DIS 數(shù)據(jù)集的區(qū)域 6 上評估的。

室外場景理解

與室內(nèi)場景相比，由于激光雷達(dá)傳感器的遠(yuǎn)距離特性，在室外環(huán)境中捕獲的點云要稀疏得多，這帶來了額外的挑戰(zhàn)。通過將學(xué)習(xí)到的視覺表示轉(zhuǎn)移到室外場景的 3D 對象檢測任務(wù)來評估所提出的 STRL 的性能。

使用 PV -RCNN在 KITTI 數(shù)據(jù)集上預(yù)訓(xùn)練模型——用于 3D 對象檢測的最先進(jìn)模型。與 VoteNet 類似，修改了 PV -RCNN 的骨干網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練，通過添加最大池化層來獲取全局特征。

在 KITTI 3D 對象檢測基準(zhǔn)（KITTI 原始數(shù)據(jù)的一個子集）上微調(diào)預(yù)訓(xùn)練模型。在此基準(zhǔn)測試中，每個點云都用 3D 對象邊界框進(jìn)行注釋。該子集包括 3712 個訓(xùn)練樣本、3769 個驗證樣本和 7518 個測試樣本。

在所有三個類別中，使用 STRL 預(yù)訓(xùn)練的模型都優(yōu)于從頭開始訓(xùn)練的模型。特別是，對于可用訓(xùn)練樣本最少的騎自行車者類別，建議的 STRL 產(chǎn)生顯著的性能提升。在微調(diào)的同時進(jìn)一步凍結(jié)了骨干模型；結(jié)果表明，與從頭開始訓(xùn)練的模型相比，具有預(yù)訓(xùn)練主干的模型達(dá)到了可比的性能。

表 5：在 KITTI 上微調(diào)的 3D 對象檢測。在 KITTI 數(shù)據(jù)集的 val集上報告了中等難度的 3D 檢測性能。下面的性能是通過具有 40 個召回位置的 mAP 評估的。

8.分析與總結(jié)

泛化能力

ScanNet vs ShapeNet 預(yù)訓(xùn)練什么樣的數(shù)據(jù)可以賦予學(xué)習(xí)模型對其他數(shù)據(jù)域更好的泛化能力，這仍然是 3D 計算機(jī)視覺中的一個懸而未決的問題。為了闡明這個問題，在現(xiàn)有最大的自然數(shù)據(jù)集 ScanNet 和合成數(shù)據(jù) ShapeNet 上預(yù)訓(xùn)練模型，并測試它們對不同領(lǐng)域的泛化能力。下表列出了跨域?qū)嶒炘O(shè)置和結(jié)果，展示了從自然場景預(yù)訓(xùn)練模型到合成形狀域的成功遷移，在線性評估下實現(xiàn)了可比的形狀分類性能。

此外，報告了與最近一項研究相反的觀察結(jié)果。具體來說，在 ShapeNet 數(shù)據(jù)集上預(yù)訓(xùn)練的 VoteNet 模型在 SUN RGB-D 目標(biāo)檢測方面取得了比 ScanNet 預(yù)訓(xùn)練更好的性能，展示了 ShapeNet 數(shù)據(jù)更好的泛化能力。

三個潛在的原因?qū)е铝诉@種相互矛盾的結(jié)果：

1）如果適用于學(xué)習(xí)點云特征的編碼器過于簡單，以至于無法從預(yù)訓(xùn)練的 ShapeNet 數(shù)據(jù)集中捕獲足夠的信息。

2）ShapeNet 數(shù)據(jù)集提供了具有干凈空間結(jié)構(gòu)和更少噪聲的點云，這有利于預(yù)訓(xùn)練模型學(xué)習(xí)有效的表示。

3）盡管 ScanNet 中的序列數(shù)據(jù)量很大，但模態(tài)可能仍然有限，因為它只有 707 個場景。

時間轉(zhuǎn)換

學(xué)習(xí)了物體形狀的合成視圖變換和物理場景的自然視圖變換。為了研究它們的效果，在 ShapeNet 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練時，通過刪除某些轉(zhuǎn)換來生成合成形狀的訓(xùn)練數(shù)據(jù)來解開組合。對于物理場景，在 KITTI 數(shù)據(jù)集上預(yù)訓(xùn)練 PV -RCNN，并比較使用和不使用自然序列采樣輸入數(shù)據(jù)訓(xùn)練的模型。在這兩種情況下，時間轉(zhuǎn)換都會帶來顯著的性能提升。

消融研究：時間變換。（a）合成形狀。通過不同時間變換下的線性評估來評估 ModelNet40 上預(yù)訓(xùn)練的 PointNet 模型。（b）物理場景。凍結(jié) PV-RCNN 主干并微調(diào) KITTI 上的 3D 物體檢測器。它顯示了汽車檢測的 mAP 結(jié)果（在 40 個召回位置以下）。從自然序列中采樣輸入數(shù)據(jù)。

空間數(shù)據(jù)增強(qiáng)

通過關(guān)閉某些類型的增強(qiáng)來研究空間數(shù)據(jù)增強(qiáng)的效果。通過將點云增加到不同的形狀和維度，隨機(jī)裁剪可以提高性能，而隨機(jī)剪切會損害性能，因為它破壞了點云的結(jié)構(gòu)連續(xù)性，這對于來自鄰居的逐點特征聚合至關(guān)重要。

消融研究：空間數(shù)據(jù)增強(qiáng)。使用不同的空間變換在 ShapeNet 上預(yù)訓(xùn)練 PointNet 模型。下表的性能反映了 ModelNet40 上的線性評估結(jié)果。

數(shù)據(jù)效率

為了進(jìn)一步分析訓(xùn)練數(shù)據(jù)的大小如何影響模型，通過從整個 1513 個序列中采樣 25000 幀深度圖像，使用 ScanNet 數(shù)據(jù)集的一個子集預(yù)訓(xùn)練 DGCNN 模型。在 ModelNet40 上進(jìn)行評估，與 40 萬幀的整集訓(xùn)練相比，模型的線性評估和微調(diào)性能僅下降約 0.5%；這樣的結(jié)果類似于 2D 圖像預(yù)訓(xùn)練。假設(shè)增加數(shù)據(jù)多樣性而不是采樣密度會提高自監(jiān)督 3D 表示學(xué)習(xí)的性能。

魯棒性

觀察到所提出的 STRL 可以通過簡單的增強(qiáng)來學(xué)習(xí)自監(jiān)督表示；它在 ModelNet40 線性分類上穩(wěn)健地達(dá)到了令人滿意的準(zhǔn)確率（約 85%）。然而，它與 2D 圖像預(yù)訓(xùn)練中顯示的結(jié)果不同，其中數(shù)據(jù)增強(qiáng)對 ImageNet 線性評估的影響高達(dá) 10%。假設(shè)這種差異可能歸因于對點云執(zhí)行的一般下采樣過程，它引入了結(jié)構(gòu)噪聲并有助于不變特征學(xué)習(xí)。

總結(jié)

在這篇論文中，設(shè)計了一個時空自監(jiān)督學(xué)習(xí)框架來學(xué)習(xí) 3D 點云表示。方法具有簡單的結(jié)構(gòu)，并在將學(xué)習(xí)的表示轉(zhuǎn)移到各種下游 3D 場景理解任務(wù)方面展示了有希望的結(jié)果。未來，希望探索如何將當(dāng)前方法擴(kuò)展到整體 3D 場景理解，以及如何通過聯(lián)合訓(xùn)練來自各個領(lǐng)域的未標(biāo)記數(shù)據(jù)來彌合領(lǐng)域差距。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴