91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是VLM?為什么它對(duì)自動(dòng)駕駛很重要?

智駕最前沿 ? 來(lái)源:智駕最前沿 ? 2026-02-14 20:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號(hào)]VLM,即視覺(jué)語(yǔ)言模型,簡(jiǎn)單理解下,其就是把“看見(jiàn)的東西”和“說(shuō)出來(lái)的話”放在同一個(gè)腦子里理解的模型。我們平時(shí)把相機(jī)拍到的畫面交給視覺(jué)模型去做檢測(cè)、分割、深度估計(jì)這些任務(wù),語(yǔ)音或文本交給語(yǔ)言模型去處理。

VLM則是把視覺(jué)信號(hào)和語(yǔ)言信號(hào)放一起訓(xùn)練,使其可以把畫面用語(yǔ)言來(lái)描述,也能把一句話轉(zhuǎn)化成對(duì)畫面的關(guān)注點(diǎn)和推理。對(duì)于自動(dòng)駕駛來(lái)說(shuō),這種能力并不只是多了一套“能說(shuō)話”的模型,而是在很多復(fù)雜場(chǎng)景里,它能把單純的像素識(shí)別提升為語(yǔ)義理解。VLM能告訴汽車的不僅是“前面有個(gè)物體”,還能明確“這個(gè)物體的行為和上下文意味著什么、會(huì)不會(huì)帶來(lái)危險(xiǎn)”。這種語(yǔ)義層面的理解,對(duì)決策端的穩(wěn)健性和可解釋性都很關(guān)鍵。

VLM在自動(dòng)駕駛里能真正解決的幾類問(wèn)題

把VLM放到車上,它能直接改善的第一個(gè)問(wèn)題是對(duì)“非常規(guī)、臨時(shí)或不標(biāo)準(zhǔn)信息”的識(shí)別和解釋能力。日常道路場(chǎng)景里常見(jiàn)的標(biāo)志和信號(hào)很多,但真正讓自動(dòng)駕駛頭疼的是那些如臨時(shí)施工、非標(biāo)準(zhǔn)路牌、交警指揮、地面臨時(shí)標(biāo)線、搬運(yùn)堆放的障礙物等不按套路出現(xiàn)的東西。

傳統(tǒng)的目標(biāo)檢測(cè)網(wǎng)絡(luò)能把這些檢測(cè)為“物體”或“分類難以識(shí)別”的異常,但無(wú)法做出這是施工區(qū)、要減速并改道的結(jié)論。VLM則是把視覺(jué)證據(jù)和語(yǔ)言先驗(yàn)(比如交通規(guī)則、施工常見(jiàn)表現(xiàn)、手勢(shì)含義)結(jié)合起來(lái)做推理,使其在面對(duì)這種長(zhǎng)尾場(chǎng)景時(shí),可以更容易地給出合理的語(yǔ)義判斷,從而指導(dǎo)后續(xù)決策。

VLM能改善的第二個(gè)問(wèn)題是人機(jī)交互與自然語(yǔ)言導(dǎo)航的落地。現(xiàn)在的車機(jī)語(yǔ)音大多是命令式的“導(dǎo)航到A點(diǎn)”或“下一出口右轉(zhuǎn)”,當(dāng)用戶用更口語(yǔ)、更復(fù)雜的描述方式時(shí),傳統(tǒng)系統(tǒng)無(wú)法把語(yǔ)言和實(shí)時(shí)視覺(jué)上下文聯(lián)系起來(lái)。

VLM就能把司機(jī)或乘客的自然語(yǔ)言指令和車載攝像頭看到的場(chǎng)景對(duì)齊,理解這句話在當(dāng)前路況下是什么意思,比如把“這條路前面經(jīng)常堵,能不能走靠右那條出口再掉頭”的模糊表達(dá)轉(zhuǎn)成具體的可執(zhí)行策略。這樣一來(lái),用戶和自動(dòng)駕駛系統(tǒng)之間的溝通就能更加自然,駕駛體驗(yàn)也會(huì)更友好。

VLM還能提升小目標(biāo)和潛在危險(xiǎn)的識(shí)別能力。交通環(huán)境中很多致險(xiǎn)源并不是清晰的、尺寸很大的對(duì)象,而是小而不顯眼的障礙物、站在路邊的騎車人突然靠近車道、或者有物體在遠(yuǎn)處活動(dòng)等邊緣場(chǎng)景。

VLM的優(yōu)勢(shì)在于,它不只是判斷有沒(méi)有看到某個(gè)物體,而是能把視覺(jué)中一些并不顯眼的線索,與語(yǔ)言層面的場(chǎng)景經(jīng)驗(yàn)和上下文結(jié)合起來(lái)一起推斷。比如在路面上檢測(cè)到零散的撒落物時(shí),單純從目標(biāo)檢測(cè)置信度來(lái)看,這些物體可能尺寸小、形態(tài)不規(guī)則,很容易被判定為風(fēng)險(xiǎn)不高的場(chǎng)景。

但VLM可以進(jìn)一步引入語(yǔ)義層面的判斷,把“路面有散落物”和“這些物體在短時(shí)間內(nèi)可能被前車卷起、對(duì)后車造成二次風(fēng)險(xiǎn)”聯(lián)系起來(lái),從而把場(chǎng)景理解為潛在危險(xiǎn)狀態(tài)。這樣一來(lái),自動(dòng)駕駛系統(tǒng)生成的策略就會(huì)更謹(jǐn)慎,而不是只根據(jù)檢測(cè)分?jǐn)?shù)高低來(lái)決定是否需要減速或避讓。

VLM還可以為自動(dòng)駕駛系統(tǒng)提供可解釋的“說(shuō)話能力”。在事故回溯、決策審查、或是向乘客解釋行為時(shí),VLM可以把自己的感知和推理以自然語(yǔ)言形式輸出,說(shuō)明“我為什么在這里剎車、為什么沒(méi)有變道”,這種解釋能力對(duì)安全監(jiān)管和用戶信任都非常有幫助。相比黑箱的深度模型,能輸出語(yǔ)義解釋的系統(tǒng)更容易被接受。

把VLM放到車上,需要解決哪些問(wèn)題?

現(xiàn)在很多VLM模型參數(shù)多、計(jì)算量大,推理并不適合毫秒級(jí)響應(yīng)的車載控制回路。要解決這個(gè)問(wèn)題,不能把VLM直接放在閉環(huán)控制里,而是把它當(dāng)作“慢邏輯”或“輔助認(rèn)知模塊”。如在常規(guī)、高頻的感知—控制回路里仍然用輕量級(jí)的視覺(jué)模型和規(guī)則來(lái)完成,VLM則時(shí)在遇到模糊場(chǎng)景、異常情況或需要語(yǔ)義推理時(shí)參與決策,提供解釋和建議。這樣可以平衡實(shí)時(shí)性和深度理解,但也需要解決如何在兩套系統(tǒng)之間同步信息、如何融合不同模塊的置信度、以及如何避免沖突指令等問(wèn)題。

VLM在訓(xùn)練時(shí)還會(huì)學(xué)習(xí)大量視覺(jué)與語(yǔ)言的統(tǒng)計(jì)規(guī)律,但交通場(chǎng)景和規(guī)則具有地域性、文化性差異,同一個(gè)手勢(shì)在不同國(guó)家含義可能不同,臨時(shí)路標(biāo)的樣式和語(yǔ)義也會(huì)變化。如果不做定向化的本地化訓(xùn)練或規(guī)則校準(zhǔn),VLM可能在一些地區(qū)出現(xiàn)理解偏差。這就需要把VLM的輸出與明確的法規(guī)數(shù)據(jù)庫(kù)、地圖語(yǔ)義和本地化規(guī)則耦合,形成可控的語(yǔ)義層。

雖然VLM能輸出解釋,但它的內(nèi)部推理仍有黑箱成分,尤其是在多模態(tài)交互推理時(shí),模型可能基于復(fù)雜的特征組合得出結(jié)論。對(duì)于自動(dòng)駕駛這種高安全性場(chǎng)景,單靠模型隱含的解釋還不夠,必須設(shè)計(jì)可驗(yàn)證的冗余機(jī)制和形式化的安全檢查,確保模型輸出不會(huì)在關(guān)鍵時(shí)刻誤導(dǎo)控制器。

訓(xùn)練強(qiáng)大的VLM需要如車載視頻、圖像注釋、語(yǔ)音與文本等大量標(biāo)注或弱監(jiān)督的跨模態(tài)數(shù)據(jù)。這些數(shù)據(jù)的收集、標(biāo)注和使用涉及隱私、合規(guī)與標(biāo)注成本問(wèn)題。需要制定嚴(yán)格的數(shù)據(jù)治理策略,并盡量采用如少樣本學(xué)習(xí)、遷移學(xué)習(xí)或知識(shí)蒸餾等數(shù)據(jù)高效訓(xùn)練方法,減少對(duì)大規(guī)模標(biāo)注數(shù)據(jù)的依賴。

如何將VLM和現(xiàn)有自動(dòng)駕駛系統(tǒng)結(jié)合起來(lái)

要讓VLM在自動(dòng)駕駛系統(tǒng)中真正發(fā)揮作用,同時(shí)又不引入不可控風(fēng)險(xiǎn),比較現(xiàn)實(shí)的做法不是讓它直接接管控制,而是從系統(tǒng)架構(gòu)上給它一個(gè)合適的位置。

一個(gè)常見(jiàn)思路是采用分層協(xié)同的方式,把車端最核心的感知與控制閉環(huán)繼續(xù)保持為高頻、低延遲的體系,用來(lái)應(yīng)對(duì)絕大多數(shù)確定性較強(qiáng)的場(chǎng)景,VLM則可放在中低頻層,作為情景理解和語(yǔ)義推理模塊存在。當(dāng)系統(tǒng)遇到規(guī)則難以覆蓋、感知結(jié)果存在歧義的復(fù)雜或模糊場(chǎng)景時(shí),由VLM給出更高層的語(yǔ)義判斷和風(fēng)險(xiǎn)提示,再把這些信息傳遞給決策層參考。這樣做的好處是,自動(dòng)駕駛的實(shí)時(shí)性和安全底線仍然由成熟可靠的模塊保證,VLM的語(yǔ)義能力只在“需要思考”的時(shí)候介入,不會(huì)拖慢整體響應(yīng)。

在這個(gè)基礎(chǔ)上,VLM的輸出本身也需要被約束。VLM的結(jié)果應(yīng)被當(dāng)成一種參考意見(jiàn),而不是直接當(dāng)成最終指令。也就是說(shuō),VLM可以告訴系統(tǒng)“我覺(jué)得這個(gè)場(chǎng)景可能意味著什么”,但不能直接決定車該怎么開(kāi)。它給出的判斷,需要和高精地圖里已有的信息、明確寫在交通法規(guī)里的規(guī)則、車輛本身能不能做到的物理限制,以及雷達(dá)、激光雷達(dá)這些更穩(wěn)定的傳感器數(shù)據(jù)放在一起綜合判斷。自動(dòng)駕駛系統(tǒng)應(yīng)用一套清晰、可檢查的邏輯去比對(duì)這些信息,看看它們是不是互相一致、有沒(méi)有明顯沖突。

這樣做的好處是,如果VLM在某些不熟悉的區(qū)域,或者遇到少見(jiàn)場(chǎng)景時(shí)判斷不太準(zhǔn),整套系統(tǒng)也不會(huì)被它“帶偏”。一旦其他傳感器或規(guī)則給出了更明確、更可靠的信號(hào),系統(tǒng)就可以否掉有風(fēng)險(xiǎn)的操作,選擇更保守、更安全的行為。

要讓VLM真正跑在車上,還需要對(duì)模型進(jìn)行針對(duì)性的壓縮和優(yōu)化,把原本偏研究級(jí)的大模型能力,轉(zhuǎn)化為適合車端部署的版本。常見(jiàn)的做法包括通過(guò)知識(shí)蒸餾把語(yǔ)義理解能力遷移到更小的模型上,結(jié)合剪枝和量化降低算力和存儲(chǔ)需求,只保留對(duì)駕駛決策最有價(jià)值的部分。在算力條件允許的情況下,也可以采用邊緣—云協(xié)同的方式,把復(fù)雜、耗時(shí)的推理放在車端之外的邊緣計(jì)算資源上完成,車端則負(fù)責(zé)調(diào)用結(jié)果、做一致性校驗(yàn)和短時(shí)緩存,以此在性能和實(shí)時(shí)性之間取得平衡。

對(duì)于自動(dòng)駕駛系統(tǒng)來(lái)說(shuō),應(yīng)要把VLM的可解釋性當(dāng)成系統(tǒng)級(jí)能力來(lái)設(shè)計(jì),而不是模型的附加功能。相比只輸出一個(gè)結(jié)論,讓模型盡可能給出“為什么會(huì)做出這個(gè)判斷”的語(yǔ)義解釋,并把這些解釋與對(duì)應(yīng)的視覺(jué)證據(jù)、時(shí)間戳一同記錄下來(lái),可以直接服務(wù)于事故分析、系統(tǒng)調(diào)試和監(jiān)管合規(guī)。這樣的設(shè)計(jì)不僅有助于工程團(tuán)隊(duì)理解和改進(jìn)系統(tǒng)行為,也能在一定程度上提升用戶和監(jiān)管機(jī)構(gòu)對(duì)自動(dòng)駕駛系統(tǒng)的信任度。

這樣一來(lái),VLM不再是一個(gè)孤立的大模型,而是可以嵌入到一套有邊界、有約束、可審計(jì)的自動(dòng)駕駛架構(gòu)中,在發(fā)揮語(yǔ)義理解優(yōu)勢(shì)的同時(shí),把風(fēng)險(xiǎn)控制在工程可接受的范圍內(nèi)。

最后的話

VLM真正的價(jià)值,并不在于它“懂得更多”,而在于它為自動(dòng)駕駛補(bǔ)上了過(guò)去一直缺失的一層語(yǔ)義理解能力。它讓系統(tǒng)不再只圍繞檢測(cè)分?jǐn)?shù)和規(guī)則觸發(fā)做反應(yīng),而是可以嘗試回答“這個(gè)場(chǎng)景意味著什么、接下來(lái)可能會(huì)發(fā)生什么”。在自動(dòng)駕駛中加入VLM,可以讓自動(dòng)駕駛系統(tǒng)在面對(duì)不確定性時(shí)更有“分寸感”,可以做到不僅能看得更懂場(chǎng)景,更知道哪里該做出謹(jǐn)慎的動(dòng)作。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3751

    瀏覽量

    52099
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    793

    文章

    14879

    瀏覽量

    179783
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    自動(dòng)駕駛汽車如何實(shí)現(xiàn)自動(dòng)駕駛

    人類駕駛員而言是非常直觀且有效的指令,但對(duì)于自動(dòng)駕駛汽車來(lái)說(shuō),則意味著需要一套極其復(fù)雜的感知、理解與決策鏈路。 自動(dòng)駕駛如何看清文字? 自動(dòng)駕駛汽車感知漢字的第一步是場(chǎng)景文本識(shí)別技術(shù),
    的頭像 發(fā)表于 02-10 08:50 ?628次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b>汽車如何實(shí)現(xiàn)<b class='flag-5'>自動(dòng)駕駛</b>

    已有VLM自動(dòng)駕駛為什么還要探索VLA?

    時(shí)(長(zhǎng)尾場(chǎng)景),會(huì)因規(guī)則覆蓋不足而表現(xiàn)僵化。 隨著大語(yǔ)言模型和視覺(jué)語(yǔ)言模型(VLM)的爆發(fā),開(kāi)發(fā)者們意識(shí)到,如果車輛能像人類一樣擁有常識(shí),理解什么是“潮汐車道”,知道“救護(hù)車在后方鳴笛需要避讓”,那么自動(dòng)駕駛的上限將
    的頭像 發(fā)表于 02-03 09:04 ?200次閱讀
    已有<b class='flag-5'>VLM</b>,<b class='flag-5'>自動(dòng)駕駛</b>為什么還要探索VLA?

    如何設(shè)計(jì)好自動(dòng)駕駛ODD?

    為確定自動(dòng)駕駛的可使用范圍,會(huì)給自動(dòng)駕駛設(shè)置一個(gè)運(yùn)行設(shè)計(jì)域(Operational Design Domain,ODD)。ODD的作用就是用來(lái)明確自動(dòng)駕駛在什么情況下能工作,在什么情況下不能工作,給車設(shè)定“工作范圍”。
    的頭像 發(fā)表于 01-24 09:27 ?1505次閱讀

    大模型中常提的快慢思考會(huì)對(duì)自動(dòng)駕駛產(chǎn)生什么影響?

    2024年7月,理想汽車發(fā)布的基于端到端模型、VLM視覺(jué)語(yǔ)言模型和世界模型的全新自動(dòng)駕駛技術(shù)架構(gòu)標(biāo)志著其全棧自研的智能駕駛研發(fā)進(jìn)入了新階段。該架構(gòu)的算法原型創(chuàng)新性地受到了諾貝爾獎(jiǎng)得主丹尼爾·卡尼曼
    的頭像 發(fā)表于 11-22 10:59 ?2498次閱讀
    大模型中常提的快慢思考會(huì)對(duì)<b class='flag-5'>自動(dòng)駕駛</b>產(chǎn)生什么影響?

    置信度驗(yàn)證對(duì)于自動(dòng)駕駛來(lái)說(shuō)重要嗎?

    對(duì)于自動(dòng)駕駛來(lái)說(shuō)的作用,如有不準(zhǔn)確之處,歡迎大家留言指正。 為什么這置信度驗(yàn)證是個(gè)重要問(wèn)題 所謂置信度驗(yàn)證,就是檢驗(yàn)自動(dòng)駕駛系統(tǒng)在它“自認(rèn)為正確”的判斷上,到底有多可靠。在基于規(guī)則的自動(dòng)駕駛
    的頭像 發(fā)表于 11-12 08:54 ?810次閱讀
    置信度驗(yàn)證對(duì)于<b class='flag-5'>自動(dòng)駕駛</b>來(lái)說(shuō)<b class='flag-5'>重要</b>嗎?

    不同等級(jí)的自動(dòng)駕駛技術(shù)要求上有何不同?

    談到自動(dòng)駕駛,不可避免地會(huì)涉及到自動(dòng)駕駛分級(jí),美國(guó)汽車工程師學(xué)會(huì)(SAE)根據(jù)自動(dòng)駕駛系統(tǒng)與人類駕駛員參與駕駛行為程度的不同,將
    的頭像 發(fā)表于 10-18 10:17 ?2707次閱讀

    卡車、礦車的自動(dòng)駕駛和乘用車的自動(dòng)駕駛在技術(shù)要求上有何不同?

    [首發(fā)于智駕最前沿微信公眾號(hào)]自動(dòng)駕駛技術(shù)的發(fā)展,讓組合輔助駕駛得到大量應(yīng)用,但現(xiàn)在對(duì)于自動(dòng)駕駛技術(shù)的宣傳,普遍是在乘用車領(lǐng)域,而對(duì)于卡車、礦車的自動(dòng)駕駛發(fā)展,卻鮮有提及。其實(shí)在卡車、
    的頭像 發(fā)表于 06-28 11:38 ?1364次閱讀
    卡車、礦車的<b class='flag-5'>自動(dòng)駕駛</b>和乘用車的<b class='flag-5'>自動(dòng)駕駛</b>在技術(shù)要求上有何不同?

    小馬智行助力公路干線物流自動(dòng)駕駛發(fā)展

    現(xiàn)狀及未來(lái)前景,向行業(yè)傳遞了干線物流車路云產(chǎn)業(yè)落地趨勢(shì),具有重要的行業(yè)意義。小馬智行作為報(bào)告的自動(dòng)駕駛技術(shù)組牽頭單位,青騅物流作為報(bào)告的商業(yè)組主要參與單位,為此次報(bào)告的發(fā)布做出了重要貢獻(xiàn)。
    的頭像 發(fā)表于 06-19 13:59 ?1120次閱讀

    淺析4D-bev標(biāo)注技術(shù)在自動(dòng)駕駛領(lǐng)域的重要

    ?自動(dòng)駕駛技術(shù)的發(fā)展日新月異。從最初簡(jiǎn)單的輔助駕駛功能,逐步邁向高度自動(dòng)化甚至完全自動(dòng)駕駛的階段。其中,海量且精準(zhǔn)的數(shù)據(jù)是訓(xùn)練高性能自動(dòng)駕駛
    的頭像 發(fā)表于 06-12 16:10 ?2333次閱讀

    為什么仿真對(duì)于自動(dòng)駕駛來(lái)說(shuō)非常重要?

    [首發(fā)于智駕最前沿微信公眾號(hào)]自動(dòng)駕駛仿真是當(dāng)前自動(dòng)駕駛技術(shù)研發(fā)與驗(yàn)證體系中不可或缺的重要環(huán)節(jié)。它通過(guò)構(gòu)建虛擬的道路場(chǎng)景、車輛動(dòng)力學(xué)模型以及傳感器感知環(huán)境,實(shí)現(xiàn)對(duì)自動(dòng)駕駛系統(tǒng)在各種復(fù)雜
    的頭像 發(fā)表于 05-23 09:13 ?873次閱讀
    為什么仿真對(duì)于<b class='flag-5'>自動(dòng)駕駛</b>來(lái)說(shuō)非常<b class='flag-5'>重要</b>?

    自動(dòng)駕駛安全基石:ODD

    電子發(fā)燒友網(wǎng)綜合報(bào)道 自動(dòng)駕駛ODD(Operational Design Domain)即設(shè)計(jì)運(yùn)行域,是指自動(dòng)駕駛系統(tǒng)被設(shè)計(jì)為安全、有效運(yùn)行的具體條件范圍。它定義了自動(dòng)駕駛汽車在哪些環(huán)境、場(chǎng)景
    的頭像 發(fā)表于 05-19 03:52 ?6410次閱讀

    自動(dòng)駕駛大模型中常提的Token是個(gè)啥?對(duì)自動(dòng)駕駛有何影響?

    近年來(lái),人工智能技術(shù)迅速發(fā)展,大規(guī)模深度學(xué)習(xí)模型(即大模型)在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別以及自動(dòng)駕駛等多個(gè)領(lǐng)域取得了突破性進(jìn)展。自動(dòng)駕駛作為未來(lái)智能交通的重要方向,其核心技術(shù)之一便是對(duì)海量
    的頭像 發(fā)表于 03-28 09:16 ?1336次閱讀

    NVIDIA Halos自動(dòng)駕駛汽車安全系統(tǒng)發(fā)布

    自動(dòng)駕駛汽車的開(kāi)發(fā)。正確的技術(shù)與框架對(duì)確保自動(dòng)駕駛汽車駕駛員、乘客和行人的安全至關(guān)重要。 因此,NVIDIA 推出了NVIDIA Halos綜合安全系統(tǒng),將 NVIDIA 的汽車硬件、
    的頭像 發(fā)表于 03-25 14:51 ?1173次閱讀