91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用VLM和MLLMs實(shí)現(xiàn)SLAM語義增強(qiáng)

INDEMIND ? 來源:INDEMIND ? 2024-12-05 10:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語義同步定位與建圖(SLAM)系統(tǒng)在對(duì)鄰近的語義相似物體進(jìn)行建圖時(shí)面臨困境,特別是在復(fù)雜的室內(nèi)環(huán)境中。本文提出了一種面向?qū)ο骃LAM的語義增強(qiáng)(SEO-SLAM)的新型SLAM系統(tǒng),借助視覺語言模型(VLM)和多模態(tài)大語言模型(MLLMs)來強(qiáng)化此類環(huán)境中的對(duì)象級(jí)語義映射。

? 文章:

Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models

? 作者:

Jungseok Hong, Ran Choi, John J. Leonard

? 論文鏈接:

https://arxiv.org/abs/2411.06752

? 編譯:

INDEMIND

? 數(shù)據(jù)集:

jungseokhong.com/SEO-SLAM

01 本文核心內(nèi)容

SLAM已從專注于幾何精度演變?yōu)槿诤险Z義信息,增強(qiáng)了其在諸如導(dǎo)航、操作和規(guī)劃等下游任務(wù)中的效用。這一演進(jìn)與計(jì)算機(jī)視覺深度學(xué)習(xí)的進(jìn)步相契合,引入了更豐富且更精確的環(huán)境表征。近期在基礎(chǔ)模型方面的發(fā)展,例如大語言模型(LLM)、視覺語言模型(VLM)、以及多模態(tài)大語言模型(MLLM),已表明它們能夠在開放式詞匯設(shè)定下從數(shù)據(jù)中提取語義信息。若干研究顯示,基礎(chǔ)模型能夠?qū)o定的包含語義特征的場景或地圖進(jìn)行空間推理。除了建圖,還有研究提出了運(yùn)用基礎(chǔ)模型的語義SLAM。

024e6c00-ad86-11ef-93f3-92fbcf53809c.png

盡管取得了這些進(jìn)展,語義SLAM仍存在關(guān)鍵挑戰(zhàn):(1)當(dāng)探測(cè)器僅提供通用標(biāo)簽(例如,所有鞋子均用“鞋”表示)時(shí),難以區(qū)分緊鄰的相似物體。這導(dǎo)致相似物體融合為一個(gè)單一地標(biāo),如圖1a所示。(2)錯(cuò)誤地標(biāo)在長時(shí)間維持地圖一致性方面構(gòu)成重大挑戰(zhàn)。此問題可能由傳感器測(cè)量的不確定性或場景變化引起,尤其在雜亂和動(dòng)態(tài)的環(huán)境中。(3)對(duì)象探測(cè)器易受其訓(xùn)練數(shù)據(jù)集中固有偏差的影響,導(dǎo)致某些對(duì)象存在持續(xù)的語義錯(cuò)誤。

為應(yīng)對(duì)這些挑戰(zhàn),我們旨在利用基礎(chǔ)模型的語義理解能力和SLAM的空間精度來構(gòu)建在語義和空間上均一致的地圖。基礎(chǔ)模型具有強(qiáng)大的語義理解能力,但在沒有預(yù)先構(gòu)建且嵌入語義特征的地圖時(shí),空間推理能力有限。相反,SLAM系統(tǒng)擅長捕獲空間信息,但往往難以維持可靠的語義信息。通過整合這些優(yōu)勢(shì),我們提出了對(duì)象SLAM的語義增強(qiáng)(SemanticEnhancementforObjectSLAM,SEO-SLAM)這一新穎方法,該方法利用VLM和MLLM實(shí)現(xiàn)語義SLAM。

我們?cè)诰哂刑魬?zhàn)性的數(shù)據(jù)集上對(duì)SEO-SLAM進(jìn)行評(píng)估,其在存在多個(gè)相似物體的環(huán)境中的準(zhǔn)確性和穩(wěn)健性明顯提升。我們的系統(tǒng)在路標(biāo)匹配精度和語義一致性方面優(yōu)于現(xiàn)有方法。結(jié)果表明,MLLM的反饋改進(jìn)了以對(duì)象為中心的語義映射。

02 主要貢獻(xiàn)

1.將圖像標(biāo)記、基于標(biāo)簽的定位以及分割模型整合到SLAM流程中,以實(shí)現(xiàn)描述性開放式詞匯對(duì)象檢測(cè),并優(yōu)化地標(biāo)的語義信息。

2.利用MLLMs為現(xiàn)有地標(biāo)生成更具描述性的標(biāo)簽,并校正錯(cuò)誤地標(biāo)以減少感知混淆。

3.提出一種使用MLLM響應(yīng)來更新多類別預(yù)測(cè)混淆矩陣并識(shí)別重復(fù)地標(biāo)的方法。

4.實(shí)驗(yàn)結(jié)果表明,在具有多個(gè)緊鄰相似對(duì)象的具有挑戰(zhàn)性的場景中,對(duì)象語義映射精度得到了提高。

5.引入在單個(gè)場景中具有語義相似對(duì)象的數(shù)據(jù)集,其中包含里程計(jì)、真實(shí)軌跡數(shù)據(jù)和真實(shí)對(duì)象信息。

03 方法架構(gòu)

SEO-SLAM旨在通過整合豐富的語義信息來解決MAP問題。為了適應(yīng)開放式詞匯表的語義,我們僅使用幾何信息來優(yōu)化MAP問題,并利用我們測(cè)量中的語義和幾何信息之間的聯(lián)系。這通過融合來自檢測(cè)器和深度圖像的語義信息來實(shí)現(xiàn)。我們的方法可以處理開放式詞匯表的語義類別,無需為多類預(yù)測(cè)混淆矩陣的類預(yù)測(cè)統(tǒng)計(jì)信息提供先驗(yàn)知識(shí)。圖2展示了我們SEO-SLAM管道的整體架構(gòu)。

026321e0-ad86-11ef-93f3-92fbcf53809c.png

04 實(shí)驗(yàn)

A.數(shù)據(jù)采集

我們?cè)谑覂?nèi)房間環(huán)境中采集了六個(gè)涵蓋日常物品的數(shù)據(jù)集(見表II)。依據(jù)現(xiàn)存物體的數(shù)量,我們將這些數(shù)據(jù)集歸類為?。s10個(gè))、中(約20個(gè))或大(約30個(gè))類別。我們采用ZED2i立體相機(jī)來收集RGB圖像及里程數(shù)據(jù)。通過OptiTrack運(yùn)動(dòng)捕捉系統(tǒng)獲取真實(shí)軌跡。為構(gòu)建具有挑戰(zhàn)性的場景,我們將相同類別的物體放置得較為臨近。

B.實(shí)驗(yàn)設(shè)置

我們運(yùn)用RAM++大型模型(加上swin大型模型)進(jìn)行圖像標(biāo)注,并濾除那些過于寬泛且不代表單個(gè)物體的標(biāo)簽(例如,“坐”、“白色”、“許多物體”)。對(duì)象定位由GroundingDINO大型模型(swinbcogcoor)處理,而分割任務(wù)則使用帶有ViT-H模型的SAM完成。在我們的RGS模型中,我們將置信度閾值設(shè)為0.5,將GroundingDINO的IoU閾值設(shè)為0.5。對(duì)于MLLMs,我們利用ChatGPTAPI(gpt-4o版本),在LandmarkEval和ClassLabelGen中均使用默認(rèn)設(shè)置,并異步執(zhí)行以優(yōu)化我們的系統(tǒng)速度。

0270cd2c-ad86-11ef-93f3-92fbcf53809c.png

我們針對(duì)這六個(gè)數(shù)據(jù)集(見表II)開展了實(shí)驗(yàn)。我們的評(píng)估指標(biāo)涵蓋地標(biāo)語義的準(zhǔn)確性、錯(cuò)誤地標(biāo)的數(shù)量以及絕對(duì)位姿誤差(APE)。我們對(duì)三種方法進(jìn)行了比較:我們的SEO-SLAM方法,其使用RGS作為對(duì)象檢測(cè)器,并結(jié)合基于MLLM的反饋來細(xì)化地標(biāo);單獨(dú)使用RGS的方法,其運(yùn)用RAM-Grounded-SAM進(jìn)行開放詞匯檢測(cè),且無MLLM反饋;以及YOLO方法(基準(zhǔn)線),使用預(yù)先訓(xùn)練的YOLOv8進(jìn)行對(duì)象檢測(cè)。這種實(shí)驗(yàn)設(shè)置使我們能夠全面評(píng)估在開放詞匯環(huán)境中不同數(shù)據(jù)集和方法的語義映射性能以及軌跡精度。

C.結(jié)果

02751a76-ad86-11ef-93f3-92fbcf53809c.png

表III全面展示了在六個(gè)復(fù)雜程度各異的數(shù)據(jù)集上,我們的方法、RGS與YOLO之間語義映射性能的對(duì)比情況。結(jié)果表明,在語義準(zhǔn)確性及地標(biāo)數(shù)量估計(jì)方面,我們的方法始終優(yōu)于其他兩種方法。在多數(shù)數(shù)據(jù)集中,我們的方法達(dá)到了最高的精度和F1分?jǐn)?shù),這表明借助反饋,語義準(zhǔn)確性得到了提升。在SM1、MD1和LG2中這一情況尤為顯著,我們的方法保持了穩(wěn)定的性能,而RGS和YOLO的表現(xiàn)則有所下降。值得注意的是,與其他方法相比,我們的方法通常產(chǎn)生的假陽性地標(biāo)更少,這顯示出其在復(fù)雜環(huán)境中的更強(qiáng)魯棒性。我們的方法表現(xiàn)出色,這可歸因于其能夠利用MLLM反饋來細(xì)化地標(biāo)描述并降低感知混疊。然而,在LG1中,我們的方法與RGS的表現(xiàn)相近,原因是每個(gè)幀中的物體數(shù)量較多,從而降低了MLLM反饋的質(zhì)量??傮w而言,結(jié)果證明了SEO-SLAM在提高語義映射準(zhǔn)確性和減少假陽性方面,在各種環(huán)境復(fù)雜度下都是有效的。

0280b516-ad86-11ef-93f3-92fbcf53809c.png

我們還評(píng)估了每種方法相對(duì)于里程計(jì)的軌跡誤差(圖5)。在所有數(shù)據(jù)集中,我們的方法始終顯示出更低的中位APE。RGS也表現(xiàn)良好,其中位誤差較低,異常值少于YOLO。YOLO顯示出最高的中位誤差和異常值,因?yàn)閅OLO只能檢測(cè)訓(xùn)練數(shù)據(jù)集中的物體。這表明我們的開放式詞匯檢測(cè)器在各種條件下更具穩(wěn)健性和準(zhǔn)確性。圖4展示了MD1數(shù)據(jù)集的定性結(jié)果。SEO-SLAM成功區(qū)分了鄰近的物體,并展示了其根據(jù)場景變化更新語義地圖的能力。雖然SEO-SLAM能夠捕獲大多數(shù)物體,但當(dāng)物體過于靠近時(shí),有時(shí)也會(huì)遇到困難。例如,它在場景中僅繪制了一本書。

D.局限性

雖然SEO-SLAM在語義映射方面取得了顯著的改進(jìn),但仍需承認(rèn)存在一些局限性。我們發(fā)現(xiàn),在SEO-SLAM中,MLLM難以從顏色相近且同屬一類的物體中生成非基于顏色的獨(dú)特標(biāo)簽。此外,其性能對(duì)環(huán)境光照條件敏感,這可能會(huì)影響基于顏色的物體識(shí)別性能。未來,我們計(jì)劃通過元提示,使MLLM能夠依據(jù)物體的獨(dú)特特征生成標(biāo)簽,以解決這些問題。

05 總結(jié)

我們提出了一種被命名為 SEO-SLAM 的創(chuàng)新方法,旨在擁擠的室內(nèi)環(huán)境中強(qiáng)化對(duì)象級(jí)語義映射。此方法借助基礎(chǔ)模型的語義理解能力,通過引入 MLLMs 的反饋來化解現(xiàn)有語義 SLAM 系統(tǒng)中的關(guān)鍵難題。借助反饋,SEO-SLAM 能夠生成更具描述性的開放式詞匯對(duì)象標(biāo)簽,同步校正導(dǎo)致虛假地標(biāo)的諸因素,并動(dòng)態(tài)更新多類混淆矩陣。實(shí)驗(yàn)結(jié)果顯示,SEO-SLAM 在不同復(fù)雜程度的數(shù)據(jù)集上始終優(yōu)于基線方法,提升了語義準(zhǔn)確性、地標(biāo)估計(jì)精度和軌跡準(zhǔn)確性。該方法尤其善于降低假陽性地標(biāo)數(shù)量,并增強(qiáng)在存在多個(gè)相似對(duì)象環(huán)境中的穩(wěn)健性。故而,SEO-SLAM 標(biāo)志著將基礎(chǔ)模型的語義理解能力與 SLAM 系統(tǒng)的空間精度相融合的重大進(jìn)展。本文為在復(fù)雜動(dòng)態(tài)的環(huán)境中達(dá)成更精確且穩(wěn)健的語義映射開辟了嶄新的路徑。(想要了解更多文章細(xì)節(jié)的讀者,可以閱讀一下論文原文~)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3751

    瀏覽量

    52093
  • SLAM
    +關(guān)注

    關(guān)注

    24

    文章

    457

    瀏覽量

    33320
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    346

    瀏覽量

    1327

原文標(biāo)題:更準(zhǔn)確,更魯棒!利用VLM和MLLMs實(shí)現(xiàn)SLAM語義增強(qiáng)

文章出處:【微信號(hào):gh_c87a2bc99401,微信公眾號(hào):INDEMIND】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于NVIDIA GPU加速端點(diǎn)使用千問3.5 VLM開發(fā)原生多模態(tài)智能體

    阿里巴巴推出了全新開源 千問3.5 系列,專為構(gòu)建原生多模態(tài)智能體而設(shè)計(jì)。該系列的首個(gè)模型是一款總參數(shù)為 397B、具備推理能力的原生視覺語言模型 (VLM),基于由混合專家模型 (MoE) 和門控
    的頭像 發(fā)表于 03-04 16:37 ?108次閱讀

    什么是VLM?為什么它對(duì)自動(dòng)駕駛很重要?

    VLM,即視覺語言模型,簡單理解下,其就是把“看見的東西”和“說出來的話”放在同一個(gè)腦子里理解的模型。我們平時(shí)把相機(jī)拍到的畫面交給視覺模型去做檢測(cè)、分割、深度估計(jì)這些任務(wù),語音或文本交給語言模型去處理。
    的頭像 發(fā)表于 02-14 20:29 ?1.6w次閱讀

    已有VLM,自動(dòng)駕駛為什么還要探索VLA?

    時(shí)(長尾場景),會(huì)因規(guī)則覆蓋不足而表現(xiàn)僵化。 隨著大語言模型和視覺語言模型(VLM)的爆發(fā),開發(fā)者們意識(shí)到,如果車輛能像人類一樣擁有常識(shí),理解什么是“潮汐車道”,知道“救護(hù)車在后方鳴笛需要避讓”,那么自動(dòng)駕駛的上限將
    的頭像 發(fā)表于 02-03 09:04 ?191次閱讀
    已有<b class='flag-5'>VLM</b>,自動(dòng)駕駛為什么還要探索VLA?

    什么是激光雷達(dá) 3D SLAM技術(shù)?

    在智能移動(dòng)設(shè)備自主運(yùn)行的賽道上,激光雷達(dá)3DSLAM技術(shù)正成為破局關(guān)鍵,但多數(shù)人對(duì)其認(rèn)知仍停留在表層。要讀懂這一核心技術(shù),不妨先回溯“SLAM”的本質(zhì)——SLAM
    的頭像 發(fā)表于 12-02 19:23 ?574次閱讀
    什么是激光雷達(dá) 3D <b class='flag-5'>SLAM</b>技術(shù)?

    FPGA和GPU加速的視覺SLAM系統(tǒng)中特征檢測(cè)器研究

    特征檢測(cè)是SLAM系統(tǒng)中常見但耗時(shí)的模塊,隨著SLAM技術(shù)日益廣泛應(yīng)用于無人機(jī)等功耗受限平臺(tái),其效率優(yōu)化尤為重要。本文首次針對(duì)視覺SLAM流程開展硬件加速特征檢測(cè)器的對(duì)比研究,通過對(duì)比現(xiàn)代SoC平臺(tái)
    的頭像 發(fā)表于 10-31 09:30 ?644次閱讀
    FPGA和GPU加速的視覺<b class='flag-5'>SLAM</b>系統(tǒng)中特征檢測(cè)器研究

    自動(dòng)駕駛中如何將稀疏地圖與視覺SLAM相結(jié)合?

    通過相機(jī)估計(jì)自身位置,一邊在未知環(huán)境中構(gòu)建或更新地圖。將兩者結(jié)合的目的其實(shí)非常明確,利用預(yù)先構(gòu)建好的稀疏地圖作為先驗(yàn)信息,讓在線運(yùn)行的視覺SLAM實(shí)現(xiàn)更穩(wěn)定、更精準(zhǔn)的定位,同時(shí)使地圖能夠重復(fù)使用和持續(xù)維護(hù),避免每次都從頭
    的頭像 發(fā)表于 10-28 09:07 ?681次閱讀
    自動(dòng)駕駛中如何將稀疏地圖與視覺<b class='flag-5'>SLAM</b>相結(jié)合?

    微店關(guān)鍵詞搜索接口核心突破:動(dòng)態(tài)權(quán)重算法與語義引擎的實(shí)戰(zhàn)落地

    本文詳解微店搜索接口從基礎(chǔ)匹配到智能推薦的技術(shù)進(jìn)階路徑,涵蓋動(dòng)態(tài)權(quán)重、語義理解與行為閉環(huán)三大創(chuàng)新,助力商家提升搜索轉(zhuǎn)化率、商品曝光與用戶留存,實(shí)現(xiàn)技術(shù)驅(qū)動(dòng)的業(yè)績?cè)鲩L。
    的頭像 發(fā)表于 10-15 14:38 ?421次閱讀

    全新輕量級(jí)ViSTA-SLAM系統(tǒng)介紹

    無需相機(jī)內(nèi)參、極致輕量的前端(前端模型大小僅為同類35%),實(shí)時(shí)單目視覺SLAM,ViSTA-SLAM。與現(xiàn)有方法相比,ViSTA-SLAM不僅更輕、更快,在相機(jī)跟蹤和密集3D重建質(zhì)量方面也均表現(xiàn)出色。
    的頭像 發(fā)表于 09-22 15:53 ?911次閱讀
    全新輕量級(jí)ViSTA-<b class='flag-5'>SLAM</b>系統(tǒng)介紹

    【HZ-T536開發(fā)板免費(fèi)體驗(yàn)】3 - Cangjie Magic調(diào)用視覺語言大模型(VLM)真香,是不是可以沒有YOLO和OCR了?

    和管理 Agent 的專用語言。它允許開發(fā)人員通過結(jié)構(gòu)化的系統(tǒng)提示詞、工具和各類協(xié)作策略來增強(qiáng) Agent 的功能。 今天我們就嘗試在開發(fā)板上利用質(zhì)譜AI的視覺語言模型(VLM)模型來進(jìn)行圖像識(shí)別。我們
    發(fā)表于 08-01 22:15

    基于深度學(xué)習(xí)的增強(qiáng)版ORB-SLAM3詳解

    ORB-SLAM3雖是當(dāng)前最先進(jìn)的SLAM之一,但由于使用傳統(tǒng)的ORB(定向FAST和旋轉(zhuǎn)BRIEF)特征,在尺度、旋轉(zhuǎn)和光照發(fā)生顯著變化時(shí)可能會(huì)表現(xiàn)出局限性。
    的頭像 發(fā)表于 07-14 17:21 ?1687次閱讀
    基于深度學(xué)習(xí)的<b class='flag-5'>增強(qiáng)</b>版ORB-<b class='flag-5'>SLAM</b>3詳解

    三維高斯?jié)姙R大規(guī)模視覺SLAM系統(tǒng)解析

    近期興起的神經(jīng)輻射場(NeRF)與三維高斯?jié)姙R(3DGS)技術(shù)在視覺SLAM中展現(xiàn)出令人鼓舞的突破性成果。然而,當(dāng)前主流方法多依賴RGBD傳感器,并且僅適用于室內(nèi)環(huán)境。在大規(guī)模室外場景中的重建魯棒性
    的頭像 發(fā)表于 05-27 14:13 ?1564次閱讀
    三維高斯?jié)姙R大規(guī)模視覺<b class='flag-5'>SLAM</b>系統(tǒng)解析

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】視覺實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    結(jié)合IMU(慣性測(cè)量單元)進(jìn)行多傳感器融合。 三、總結(jié)與展望 技術(shù)融合趨勢(shì) 機(jī)器人視覺與SLAM的結(jié)合(如視覺慣性里程計(jì)VIO)是當(dāng)前研究熱點(diǎn),未來可能進(jìn)一步結(jié)合語義SLAM,讓機(jī)器人不僅能建圖
    發(fā)表于 05-03 19:41

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】+ROS2應(yīng)用案例

    的知識(shí),還需要對(duì)ROS 2的節(jié)點(diǎn)通信和數(shù)據(jù)處理有一定的了解。通過實(shí)踐這一部分內(nèi)容,我掌握了如何在ROS 2中實(shí)現(xiàn)二維碼識(shí)別,這對(duì)于提高機(jī)器人的智能性和交互性具有重要意義。 地圖構(gòu)建:SLAM技術(shù)
    發(fā)表于 04-27 11:42

    一種基于點(diǎn)、線和消失點(diǎn)特征的單目SLAM系統(tǒng)設(shè)計(jì)

    本文提出了一種穩(wěn)健的單目視覺SLAM系統(tǒng),該系統(tǒng)同時(shí)利用點(diǎn)、線和消失點(diǎn)特征來進(jìn)行精確的相機(jī)位姿估計(jì)和地圖構(gòu)建,有效解決了傳統(tǒng)基于點(diǎn)特征的SLAM的局限性。
    的頭像 發(fā)表于 03-21 17:07 ?1048次閱讀
    一種基于點(diǎn)、線和消失點(diǎn)特征的單目<b class='flag-5'>SLAM</b>系統(tǒng)設(shè)計(jì)

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺內(nèi)容相關(guān)的自然語言。以下是關(guān)于VLM
    的頭像 發(fā)表于 03-17 15:32 ?8793次閱讀
    ?<b class='flag-5'>VLM</b>(視覺語言模型)?詳細(xì)解析