福利美女AV网站,中文字幕精品无码人妻一区二区,黄色视频日韩久草五月天

語義同步定位與建圖（SLAM）系統(tǒng)在對(duì)鄰近的語義相似物體進(jìn)行建圖時(shí)面臨困境，特別是在復(fù)雜的室內(nèi)環(huán)境中。本文提出了一種面向?qū)ο骃LAM的語義增強(qiáng)（SEO-SLAM）的新型SLAM系統(tǒng)，借助視覺語言模型（VLM）和多模態(tài)大語言模型（MLLMs）來強(qiáng)化此類環(huán)境中的對(duì)象級(jí)語義映射。

? 文章：

Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models

? 作者：

Jungseok Hong, Ran Choi, John J. Leonard

? 論文鏈接：

https://arxiv.org/abs/2411.06752

? 編譯：

INDEMIND

? 數(shù)據(jù)集：

jungseokhong.com/SEO-SLAM

01 本文核心內(nèi)容

SLAM已從專注于幾何精度演變?yōu)槿诤险Z義信息，增強(qiáng)了其在諸如導(dǎo)航、操作和規(guī)劃等下游任務(wù)中的效用。這一演進(jìn)與計(jì)算機(jī)視覺和深度學(xué)習(xí)的進(jìn)步相契合，引入了更豐富且更精確的環(huán)境表征。近期在基礎(chǔ)模型方面的發(fā)展，例如大語言模型（LLM）、視覺語言模型（VLM）、以及多模態(tài)大語言模型（MLLM），已表明它們能夠在開放式詞匯設(shè)定下從數(shù)據(jù)中提取語義信息。若干研究顯示，基礎(chǔ)模型能夠?qū)o定的包含語義特征的場景或地圖進(jìn)行空間推理。除了建圖，還有研究提出了運(yùn)用基礎(chǔ)模型的語義SLAM。

盡管取得了這些進(jìn)展，語義SLAM仍存在關(guān)鍵挑戰(zhàn)：（1）當(dāng)探測(cè)器僅提供通用標(biāo)簽（例如，所有鞋子均用“鞋”表示）時(shí)，難以區(qū)分緊鄰的相似物體。這導(dǎo)致相似物體融合為一個(gè)單一地標(biāo)，如圖1a所示。（2）錯(cuò)誤地標(biāo)在長時(shí)間維持地圖一致性方面構(gòu)成重大挑戰(zhàn)。此問題可能由傳感器測(cè)量的不確定性或場景變化引起，尤其在雜亂和動(dòng)態(tài)的環(huán)境中。（3）對(duì)象探測(cè)器易受其訓(xùn)練數(shù)據(jù)集中固有偏差的影響，導(dǎo)致某些對(duì)象存在持續(xù)的語義錯(cuò)誤。

為應(yīng)對(duì)這些挑戰(zhàn)，我們旨在利用基礎(chǔ)模型的語義理解能力和SLAM的空間精度來構(gòu)建在語義和空間上均一致的地圖。基礎(chǔ)模型具有強(qiáng)大的語義理解能力，但在沒有預(yù)先構(gòu)建且嵌入語義特征的地圖時(shí)，空間推理能力有限。相反，SLAM系統(tǒng)擅長捕獲空間信息，但往往難以維持可靠的語義信息。通過整合這些優(yōu)勢(shì)，我們提出了對(duì)象SLAM的語義增強(qiáng)（SemanticEnhancementforObjectSLAM，SEO-SLAM）這一新穎方法，該方法利用VLM和MLLM實(shí)現(xiàn)語義SLAM。

我們?cè)诰哂刑魬?zhàn)性的數(shù)據(jù)集上對(duì)SEO-SLAM進(jìn)行評(píng)估，其在存在多個(gè)相似物體的環(huán)境中的準(zhǔn)確性和穩(wěn)健性明顯提升。我們的系統(tǒng)在路標(biāo)匹配精度和語義一致性方面優(yōu)于現(xiàn)有方法。結(jié)果表明，MLLM的反饋改進(jìn)了以對(duì)象為中心的語義映射。

02 主要貢獻(xiàn)

1.將圖像標(biāo)記、基于標(biāo)簽的定位以及分割模型整合到SLAM流程中，以實(shí)現(xiàn)描述性開放式詞匯對(duì)象檢測(cè)，并優(yōu)化地標(biāo)的語義信息。

2.利用MLLMs為現(xiàn)有地標(biāo)生成更具描述性的標(biāo)簽，并校正錯(cuò)誤地標(biāo)以減少感知混淆。

3.提出一種使用MLLM響應(yīng)來更新多類別預(yù)測(cè)混淆矩陣并識(shí)別重復(fù)地標(biāo)的方法。

4.實(shí)驗(yàn)結(jié)果表明，在具有多個(gè)緊鄰相似對(duì)象的具有挑戰(zhàn)性的場景中，對(duì)象語義映射精度得到了提高。

5.引入在單個(gè)場景中具有語義相似對(duì)象的數(shù)據(jù)集，其中包含里程計(jì)、真實(shí)軌跡數(shù)據(jù)和真實(shí)對(duì)象信息。

03 方法架構(gòu)

SEO-SLAM旨在通過整合豐富的語義信息來解決MAP問題。為了適應(yīng)開放式詞匯表的語義，我們僅使用幾何信息來優(yōu)化MAP問題，并利用我們測(cè)量中的語義和幾何信息之間的聯(lián)系。這通過融合來自檢測(cè)器和深度圖像的語義信息來實(shí)現(xiàn)。我們的方法可以處理開放式詞匯表的語義類別，無需為多類預(yù)測(cè)混淆矩陣的類預(yù)測(cè)統(tǒng)計(jì)信息提供先驗(yàn)知識(shí)。圖2展示了我們SEO-SLAM管道的整體架構(gòu)。

04 實(shí)驗(yàn)

A.數(shù)據(jù)采集

我們?cè)谑覂?nèi)房間環(huán)境中采集了六個(gè)涵蓋日常物品的數(shù)據(jù)集（見表II）。依據(jù)現(xiàn)存物體的數(shù)量，我們將這些數(shù)據(jù)集歸類為?。s10個(gè)）、中（約20個(gè)）或大（約30個(gè)）類別。我們采用ZED2i立體相機(jī)來收集RGB圖像及里程數(shù)據(jù)。通過OptiTrack運(yùn)動(dòng)捕捉系統(tǒng)獲取真實(shí)軌跡。為構(gòu)建具有挑戰(zhàn)性的場景，我們將相同類別的物體放置得較為臨近。

B.實(shí)驗(yàn)設(shè)置

我們運(yùn)用RAM++大型模型（加上swin大型模型）進(jìn)行圖像標(biāo)注，并濾除那些過于寬泛且不代表單個(gè)物體的標(biāo)簽（例如，“坐”、“白色”、“許多物體”）。對(duì)象定位由GroundingDINO大型模型（swinbcogcoor）處理，而分割任務(wù)則使用帶有ViT-H模型的SAM完成。在我們的RGS模型中，我們將置信度閾值設(shè)為0.5，將GroundingDINO的IoU閾值設(shè)為0.5。對(duì)于MLLMs，我們利用ChatGPTAPI（gpt-4o版本），在LandmarkEval和ClassLabelGen中均使用默認(rèn)設(shè)置，并異步執(zhí)行以優(yōu)化我們的系統(tǒng)速度。

我們針對(duì)這六個(gè)數(shù)據(jù)集（見表II）開展了實(shí)驗(yàn)。我們的評(píng)估指標(biāo)涵蓋地標(biāo)語義的準(zhǔn)確性、錯(cuò)誤地標(biāo)的數(shù)量以及絕對(duì)位姿誤差（APE）。我們對(duì)三種方法進(jìn)行了比較：我們的SEO-SLAM方法，其使用RGS作為對(duì)象檢測(cè)器，并結(jié)合基于MLLM的反饋來細(xì)化地標(biāo)；單獨(dú)使用RGS的方法，其運(yùn)用RAM-Grounded-SAM進(jìn)行開放詞匯檢測(cè)，且無MLLM反饋；以及YOLO方法（基準(zhǔn)線），使用預(yù)先訓(xùn)練的YOLOv8進(jìn)行對(duì)象檢測(cè)。這種實(shí)驗(yàn)設(shè)置使我們能夠全面評(píng)估在開放詞匯環(huán)境中不同數(shù)據(jù)集和方法的語義映射性能以及軌跡精度。

C.結(jié)果

表III全面展示了在六個(gè)復(fù)雜程度各異的數(shù)據(jù)集上，我們的方法、RGS與YOLO之間語義映射性能的對(duì)比情況。結(jié)果表明，在語義準(zhǔn)確性及地標(biāo)數(shù)量估計(jì)方面，我們的方法始終優(yōu)于其他兩種方法。在多數(shù)數(shù)據(jù)集中，我們的方法達(dá)到了最高的精度和F1分?jǐn)?shù)，這表明借助反饋，語義準(zhǔn)確性得到了提升。在SM1、MD1和LG2中這一情況尤為顯著，我們的方法保持了穩(wěn)定的性能，而RGS和YOLO的表現(xiàn)則有所下降。值得注意的是，與其他方法相比，我們的方法通常產(chǎn)生的假陽性地標(biāo)更少，這顯示出其在復(fù)雜環(huán)境中的更強(qiáng)魯棒性。我們的方法表現(xiàn)出色，這可歸因于其能夠利用MLLM反饋來細(xì)化地標(biāo)描述并降低感知混疊。然而，在LG1中，我們的方法與RGS的表現(xiàn)相近，原因是每個(gè)幀中的物體數(shù)量較多，從而降低了MLLM反饋的質(zhì)量?？傮w而言，結(jié)果證明了SEO-SLAM在提高語義映射準(zhǔn)確性和減少假陽性方面，在各種環(huán)境復(fù)雜度下都是有效的。

我們還評(píng)估了每種方法相對(duì)于里程計(jì)的軌跡誤差（圖5）。在所有數(shù)據(jù)集中，我們的方法始終顯示出更低的中位APE。RGS也表現(xiàn)良好，其中位誤差較低，異常值少于YOLO。YOLO顯示出最高的中位誤差和異常值，因?yàn)閅OLO只能檢測(cè)訓(xùn)練數(shù)據(jù)集中的物體。這表明我們的開放式詞匯檢測(cè)器在各種條件下更具穩(wěn)健性和準(zhǔn)確性。圖4展示了MD1數(shù)據(jù)集的定性結(jié)果。SEO-SLAM成功區(qū)分了鄰近的物體，并展示了其根據(jù)場景變化更新語義地圖的能力。雖然SEO-SLAM能夠捕獲大多數(shù)物體，但當(dāng)物體過于靠近時(shí)，有時(shí)也會(huì)遇到困難。例如，它在場景中僅繪制了一本書。

D.局限性

雖然SEO-SLAM在語義映射方面取得了顯著的改進(jìn)，但仍需承認(rèn)存在一些局限性。我們發(fā)現(xiàn)，在SEO-SLAM中，MLLM難以從顏色相近且同屬一類的物體中生成非基于顏色的獨(dú)特標(biāo)簽。此外，其性能對(duì)環(huán)境光照條件敏感，這可能會(huì)影響基于顏色的物體識(shí)別性能。未來，我們計(jì)劃通過元提示，使MLLM能夠依據(jù)物體的獨(dú)特特征生成標(biāo)簽，以解決這些問題。

05 總結(jié)

我們提出了一種被命名為 SEO-SLAM 的創(chuàng)新方法，旨在擁擠的室內(nèi)環(huán)境中強(qiáng)化對(duì)象級(jí)語義映射。此方法借助基礎(chǔ)模型的語義理解能力，通過引入 MLLMs 的反饋來化解現(xiàn)有語義 SLAM 系統(tǒng)中的關(guān)鍵難題。借助反饋，SEO-SLAM 能夠生成更具描述性的開放式詞匯對(duì)象標(biāo)簽，同步校正導(dǎo)致虛假地標(biāo)的諸因素，并動(dòng)態(tài)更新多類混淆矩陣。實(shí)驗(yàn)結(jié)果顯示，SEO-SLAM 在不同復(fù)雜程度的數(shù)據(jù)集上始終優(yōu)于基線方法，提升了語義準(zhǔn)確性、地標(biāo)估計(jì)精度和軌跡準(zhǔn)確性。該方法尤其善于降低假陽性地標(biāo)數(shù)量，并增強(qiáng)在存在多個(gè)相似對(duì)象環(huán)境中的穩(wěn)健性。故而，SEO-SLAM 標(biāo)志著將基礎(chǔ)模型的語義理解能力與 SLAM 系統(tǒng)的空間精度相融合的重大進(jìn)展。本文為在復(fù)雜動(dòng)態(tài)的環(huán)境中達(dá)成更精確且穩(wěn)健的語義映射開辟了嶄新的路徑。（想要了解更多文章細(xì)節(jié)的讀者，可以閱讀一下論文原文~）

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴