91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

VLA模型能幫助純視覺(jué)自動(dòng)駕駛走向成熟嗎?

智駕最前沿 ? 來(lái)源:智駕最前沿 ? 作者:智駕最前沿 ? 2025-08-26 09:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號(hào)]最近在和一位小伙伴交流時(shí),他提出了一個(gè)非常有趣的問(wèn)題:VLA模型是否更適合純視覺(jué)系統(tǒng)?它能幫助純視覺(jué)系統(tǒng)算法走向成熟嗎?這個(gè)問(wèn)題非常有意思,對(duì)于這個(gè)問(wèn)題,先講結(jié)論,VLA(Vision-Language-Action,視覺(jué)—語(yǔ)言—?jiǎng)幼鳎┎皇羌円曈X(jué)系統(tǒng)的“一鍵升級(jí)包”,但它能為純視覺(jué)方案注入非常有價(jià)值的能力和訓(xùn)練范式,推動(dòng)算法走向更成熟的方向。換句話說(shuō),VLA模型給自動(dòng)駕駛帶來(lái)的不是簡(jiǎn)單的替代,而是新的工具箱和新的訓(xùn)練思路,把它用在合適的位置、以合適的方法去融合和驗(yàn)證,能讓純視覺(jué)系統(tǒng)變得更魯棒、更有語(yǔ)義理解力,但它也帶來(lái)新的復(fù)雜性、數(shù)據(jù)需求與工程風(fēng)險(xiǎn),需要謹(jǐn)慎對(duì)待。

wKgZPGitDOyAZ3npAAAQo00DEvw362.jpg

什么是VLA?

在詳細(xì)聊今天的話題前,要先弄清“VLA是什么”。VLA一詞近兩年開(kāi)始在學(xué)術(shù)界與產(chǎn)業(yè)圈流行起來(lái),其核心思想是把視覺(jué)(camera圖像)、語(yǔ)言(自然語(yǔ)言或符號(hào)描述)和動(dòng)作(機(jī)器人或車(chē)輛的控制指令、軌跡)放在同一個(gè)大模型里進(jìn)行聯(lián)合建模和端到端訓(xùn)練。典型的做法是先用大規(guī)模的視覺(jué)-語(yǔ)言模型(VLM)作為感知與推理的骨干,再在其上接一個(gè)動(dòng)作解碼器,把視覺(jué)與語(yǔ)言得到的語(yǔ)義表示直接映射為連續(xù)或離散的動(dòng)作輸出。VLM起初被用于機(jī)器人操控(例如RT-2的工作方向),隨后出現(xiàn)了開(kāi)源的OpenVLA和一些面向通用具身控制的大模型(如近期行業(yè)報(bào)道中的Helix、NVIDIA等方案),這些都把“看得懂(vision)+聽(tīng)得懂(language)”和“能做事(action)”連成了一條鏈。

wKgZO2itDOyAPzXnAABhun9Lczk106.jpg

那在談及VLA模型時(shí),為什么會(huì)將其與“純視覺(jué)”放在同一個(gè)話題里比較?其實(shí)過(guò)去幾年里,視覺(jué)-語(yǔ)言大模型(VLM)展現(xiàn)了很強(qiáng)的泛化與推理能力,從圖像里抽取細(xì)粒度語(yǔ)義信息、結(jié)合世界知識(shí)做推斷、把場(chǎng)景轉(zhuǎn)換成可讀的自然語(yǔ)言描述,這些都是VLM的強(qiáng)項(xiàng)。而把這些能力和控制策略(動(dòng)作)連接起來(lái)的想法,是為了做到“感知+推理+控制”的更緊耦合。對(duì)于自動(dòng)駕駛汽車(chē)來(lái)說(shuō),若模型不僅可以告訴你前方有輛自行車(chē),還可以根據(jù)目標(biāo)和約束直接輸出可執(zhí)行的動(dòng)作軌跡或轉(zhuǎn)向/速度指令,這樣有效提升自動(dòng)駕駛的能力。大模型之所以被廣泛應(yīng)用于自動(dòng)駕駛,主要原因有兩點(diǎn),一是“少模塊化,多端到端”的趨勢(shì)可以簡(jiǎn)化工程鏈路、把隱含知識(shí)留在模型里;二是大模型的預(yù)訓(xùn)練帶來(lái)了跨場(chǎng)景遷移能力,有機(jī)會(huì)減少為每個(gè)場(chǎng)景單獨(dú)標(biāo)注的大量工時(shí)。這也解釋了為什么會(huì)把VLA用到自動(dòng)駕駛——尤其是一些希望主要依靠攝像頭(純視覺(jué))實(shí)現(xiàn)大部分感知與決策功能的團(tuán)隊(duì)。

wKgZPGitDO2AOuABAAAR42n7O-I267.jpg

VLA真的更適合純視覺(jué)嗎?

VLA是否更適合純視覺(jué)系統(tǒng)?這個(gè)問(wèn)題其實(shí)要分兩層來(lái)講,一是概念層面,二是工程/安全層面。從概念上討論,VLA天生是多模態(tài)的,它把語(yǔ)言作為中間的抽象層,使模型能用更高層次的語(yǔ)義去理解場(chǎng)景,這對(duì)于只靠像素信息的純視覺(jué)系統(tǒng)是個(gè)強(qiáng)補(bǔ)充。語(yǔ)言可以作為監(jiān)督信號(hào)、作為任務(wù)指令的載體,也可以提供對(duì)復(fù)雜交通場(chǎng)景的高階描述(比如“前方有人追球橫穿,注意減速讓行”),從而把視覺(jué)感知的“像素到語(yǔ)義”的映射變得更明確、更可解釋。換句話說(shuō),VLA為純視覺(jué)系統(tǒng)提供了一個(gè)更強(qiáng)的語(yǔ)義通道和訓(xùn)練范式,這對(duì)提升視覺(jué)模型在長(zhǎng)尾場(chǎng)景下的理解能力是有幫助的。

但工程與安全層面又把問(wèn)題拉回現(xiàn)實(shí)。自動(dòng)駕駛不是只看懂場(chǎng)景就夠了,它還要求確定性、實(shí)時(shí)性、可驗(yàn)證性以及在各種傳感器失效條件下的冗余能力。當(dāng)前行業(yè)內(nèi)將自動(dòng)駕駛系統(tǒng)拆成感知-定位-規(guī)劃-控制幾個(gè)模塊,這并非純粹為了便于功能區(qū)分,而是為了各層次的可控與可驗(yàn)證。當(dāng)把這些都塞進(jìn)一個(gè)端到端的VLA模型里,將會(huì)面臨多個(gè)問(wèn)題,其中包括動(dòng)作輸出的精確度與時(shí)延能否滿足實(shí)時(shí)閉環(huán)控制需求?模型在極端少見(jiàn)場(chǎng)景下的失敗模式是否可被解釋并安全地退回?模型輸出是否能滿足法規(guī)/認(rèn)證所需的確定性證明?這些問(wèn)題在機(jī)器人領(lǐng)域被部分接受(因?yàn)闄C(jī)器人在某些實(shí)驗(yàn)條件下能用高頻閉環(huán)控制、并有直接動(dòng)作標(biāo)簽做監(jiān)督),但在車(chē)規(guī)級(jí)自動(dòng)駕駛上,特別是高速公路與復(fù)雜城市環(huán)境,風(fēng)險(xiǎn)容忍度低,監(jiān)管要求高,單純把控制交給一個(gè)大模型目前仍然困難重重。

wKgZO2itDPCAD8cIAAASG3BOmsQ752.jpg

VLA如何推動(dòng)純視覺(jué)成熟?

那么VLA能如何“幫助”純視覺(jué)算法成熟?這里可以把它視為若干可借鑒、可組合的能力與工具。VLA的大規(guī)模多模態(tài)預(yù)訓(xùn)練能給視覺(jué)模型帶來(lái)更強(qiáng)的語(yǔ)義表示,用語(yǔ)言監(jiān)督或?qū)R,視覺(jué)特征更容易學(xué)到“概念級(jí)”的判別力,進(jìn)而提升小樣本場(chǎng)景下的魯棒性與可解釋性。對(duì)純視覺(jué)團(tuán)隊(duì)來(lái)說(shuō),這等于把一批“世界知識(shí)”和“語(yǔ)義理解”注入到視覺(jué)特征上,而這些正是純像素監(jiān)督常常缺乏的。OpenVLA等開(kāi)源工作已經(jīng)展示了把大量示教數(shù)據(jù)與語(yǔ)言描述結(jié)合后,模型在跨任務(wù)泛化上的提升。

此外,VLA提供了新的監(jiān)督信號(hào)和訓(xùn)練范式。傳統(tǒng)視覺(jué)感知的訓(xùn)練主要是像素級(jí)或框級(jí)標(biāo)簽(例如檢測(cè)框、語(yǔ)義分割標(biāo)簽),這些標(biāo)注既昂貴又難覆蓋長(zhǎng)尾。VLA能把自然語(yǔ)言描述、指令序列或軌跡數(shù)據(jù)當(dāng)作監(jiān)督,支持行為克隆、序列預(yù)測(cè)與從語(yǔ)言到動(dòng)作的映射學(xué)習(xí)。這意味著在一些可控場(chǎng)景里,純視覺(jué)系統(tǒng)可以借助VLA-style的蒸餾或聯(lián)合訓(xùn)練,學(xué)習(xí)到行為傾向(behavioralpriors)和策略級(jí)別的特征,從而在決策層面擁有更一致的語(yǔ)義基礎(chǔ)。行業(yè)里用VLM預(yù)訓(xùn)練然后微調(diào)到動(dòng)作任務(wù),已經(jīng)證明了這種思路的潛力。

VLA還可以作為“模擬到現(xiàn)實(shí)”橋梁與數(shù)據(jù)合成利器。純視覺(jué)系統(tǒng)在長(zhǎng)尾極端場(chǎng)景上的缺樣本問(wèn)題尤其明顯,而VLA的多模態(tài)預(yù)訓(xùn)練和生成能力可以在模擬環(huán)境中生成帶有語(yǔ)言注釋的復(fù)雜交互樣本,或者把真實(shí)場(chǎng)景的視覺(jué)內(nèi)容轉(zhuǎn)成結(jié)構(gòu)化的語(yǔ)言描述用于擴(kuò)充訓(xùn)練集。這種利用語(yǔ)義級(jí)別增強(qiáng)的數(shù)據(jù)合成,比單純的像素增強(qiáng)更能補(bǔ)齊模型在理解復(fù)雜交通參與者行為上的短板,從而幫助純視覺(jué)感知模塊在語(yǔ)義判斷上更成熟。

以上都是“助力”的方面,再說(shuō)說(shuō)現(xiàn)實(shí)的限制與需要警惕的點(diǎn)。第一是動(dòng)作監(jiān)督數(shù)據(jù)短缺且昂貴。要讓模型學(xué)會(huì)把視覺(jué)表示轉(zhuǎn)成安全可靠的控制命令,需要大量高質(zhì)量的軌跡/控制數(shù)據(jù)(帶時(shí)間戳的閉環(huán)示教、各種速度/轉(zhuǎn)向控制序列等),這些數(shù)據(jù)比標(biāo)注圖片要難得多。雖然在機(jī)器人社區(qū)出現(xiàn)了一些百萬(wàn)級(jí)示教數(shù)據(jù)集(OpenX-Embodiment類(lèi)),但車(chē)規(guī)級(jí)的多場(chǎng)景、長(zhǎng)時(shí)間序列數(shù)據(jù)仍然稀缺,系統(tǒng)因此對(duì)示教數(shù)據(jù)的依賴(lài)會(huì)成為瓶頸。

第二是閉環(huán)控制頻率與延遲問(wèn)題。車(chē)輛控制要求毫秒級(jí)別甚至更高的響應(yīng)與穩(wěn)定性,而大型VLM/VLA的推理延遲和算力成本可能無(wú)法直接滿足這一點(diǎn)。行業(yè)里常見(jiàn)的做法是把VLA用作“慢思考”(高層決策、意圖預(yù)測(cè)、策略選擇)而不直接負(fù)責(zé)高頻控制環(huán),這樣既能利用VLA的推理能力,又保留傳統(tǒng)控制環(huán)的實(shí)時(shí)性與確定性。如把VLA輸出的高層指令(減速、超車(chē)、讓行)交給傳統(tǒng)的規(guī)劃與控制模塊去執(zhí)行,這是一種折衷的工程路徑。

第三是安全可驗(yàn)證與退避策略。純視覺(jué)系統(tǒng)本身就有傳感器盲區(qū)與誤識(shí)別問(wèn)題,把更多“決策責(zé)任”壓到端到端模型上,增加了不可預(yù)見(jiàn)的失敗模式。智駕最前沿以為,從合規(guī)與工程管理角度,實(shí)際可行的路線更傾向于混合架構(gòu),即用VLA提供豐富語(yǔ)義和策略建議,同時(shí)維持一個(gè)獨(dú)立的規(guī)則化安全棧(基于徑向冗余傳感器、規(guī)則判斷和基線控制器)來(lái)執(zhí)行最后的安全約束。換句話說(shuō),用VLA加強(qiáng)“智能”和“理解”,但不把生命線交出去。

wKgZO2itDPaAWA-5AAASAJELks8560.jpg

VLA應(yīng)如何應(yīng)用于純視覺(jué)?

那VLA可以如何應(yīng)用于純視覺(jué)自動(dòng)駕駛?其實(shí)我們可以把VLA看作“語(yǔ)義增強(qiáng)器”和“策略導(dǎo)師”,優(yōu)先用來(lái)提升感知的語(yǔ)義層面與策略級(jí)別的學(xué)習(xí),而不是直接替代低層控制??梢圆捎玫淖龇òㄓ肰LM/VLA預(yù)訓(xùn)練得到的視覺(jué)特征去初始化純視覺(jué)感知網(wǎng)絡(luò);用語(yǔ)言對(duì)齊的信號(hào)去做多任務(wù)監(jiān)督(把檢測(cè)/分割/行為預(yù)測(cè)與描述性語(yǔ)言一起學(xué));以及用VLA在模擬環(huán)境中合成帶文本標(biāo)注的復(fù)雜交互場(chǎng)景來(lái)增強(qiáng)稀有長(zhǎng)尾樣本。這樣可以把VLA的長(zhǎng)處最大化,同時(shí)把風(fēng)險(xiǎn)降到可控范圍。

此外,數(shù)據(jù)治理要做好分級(jí)和校驗(yàn)。把動(dòng)作學(xué)習(xí)當(dāng)作主訓(xùn)練目標(biāo)時(shí),需要對(duì)示教數(shù)據(jù)做嚴(yán)格的質(zhì)量控制和異常剔除,并配套構(gòu)建能做因果歸因和反事實(shí)測(cè)試的離線評(píng)價(jià)體系。車(chē)輛的動(dòng)作輸出不能只看在訓(xùn)練集上的平均誤差,還必須評(píng)估極端情景、邊緣案例與連鎖反應(yīng)的安全性。這就要求研發(fā)團(tuán)隊(duì)在引入VLA時(shí),投入等量甚至更多資源用于構(gòu)建嚴(yán)密的仿真驗(yàn)證、場(chǎng)景回放和閉環(huán)安全測(cè)試。

軟硬件協(xié)同設(shè)計(jì)更是不可或缺。VLA的計(jì)算量與推理特性決定了它的部署方式,是完全云端的輔助推理、邊緣加速的半實(shí)時(shí)部署,還是僅用于離線訓(xùn)練與線上稀疏調(diào)用,每種選擇對(duì)應(yīng)不同的延遲與安全權(quán)衡。對(duì)于以攝像頭為主的車(chē)輛,可以把VLA的推理任務(wù)劃分成“長(zhǎng)期/慢速?zèng)Q策”和“短期/快速策略提示”兩類(lèi),把高頻控制留給車(chē)端的專(zhuān)用控制器,同時(shí)把VLA的高階輸出作為約束或建議融入規(guī)劃器。這樣既能利用VLA的通用性,也能滿足車(chē)規(guī)級(jí)的可靠性需求。

wKgZO2itDPeAAzsUAAARwcz1hbg949.jpg

總結(jié)

未來(lái)VLA會(huì)如何應(yīng)用于自動(dòng)駕駛?短期內(nèi),VLA在自動(dòng)駕駛領(lǐng)域最現(xiàn)實(shí)的作用是成為“認(rèn)知與策略的增強(qiáng)模塊”,它能把語(yǔ)義理解、長(zhǎng)尾場(chǎng)景歸納和跨場(chǎng)景遷移做得更好,幫助純視覺(jué)系統(tǒng)在語(yǔ)義判斷和策略生成層面成熟。中期看,隨著數(shù)據(jù)量的積累、模型推理效率的提升以及可解釋性技術(shù)(如可控性約束、可證明安全退避)的進(jìn)步,VLA有希望承擔(dān)更多高層決策任務(wù),成為自動(dòng)駕駛堆棧中不可或缺的一環(huán)。長(zhǎng)期則是對(duì)“具身智能”的更宏大愿景,把車(chē)輛看成具備長(zhǎng)期記憶、世界模型和自然語(yǔ)言交互能力的智能體,VLA這樣的范式會(huì)是基礎(chǔ)設(shè)施之一,開(kāi)源項(xiàng)目(如OpenVLA)和商業(yè)嘗試(RT-2、Helix、NVIDIA與車(chē)企的研究)都在證明這一點(diǎn)。

總結(jié)一下,VLA并不是單純替代純視覺(jué)系統(tǒng)的“捷徑”,而是一套強(qiáng)有力的工具和訓(xùn)練范式。它能把語(yǔ)言作為橋梁,把視覺(jué)表示提升到語(yǔ)義級(jí)別,能帶來(lái)更好的跨場(chǎng)景泛化和更強(qiáng)的策略學(xué)習(xí)能力,這對(duì)純視覺(jué)算法的成熟有明確的正向作用。對(duì)行業(yè)來(lái)說(shuō),當(dāng)前值得投入的方向包括如何高效利用VLM預(yù)訓(xùn)練特征、如何用語(yǔ)言信號(hào)做強(qiáng)化/模仿學(xué)習(xí)的橋接、如何在仿真與現(xiàn)實(shí)之間縮小差距、以及如何設(shè)計(jì)可驗(yàn)證的退避與冗余機(jī)制。只要把這些問(wèn)題弄扎實(shí),VLA對(duì)純視覺(jué)系統(tǒng)的成熟將是真正有價(jià)值的推動(dòng)力。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Vla
    Vla
    +關(guān)注

    關(guān)注

    0

    文章

    20

    瀏覽量

    5898
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    794

    文章

    14893

    瀏覽量

    180101
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    為什么光照對(duì)視覺(jué)自動(dòng)駕駛影響較大?

    自動(dòng)駕駛的技術(shù)路線中,視覺(jué)方案因其模仿人類(lèi)駕駛邏輯與低廉的硬件成本,一直是很多車(chē)企的選擇。但這種高度依賴(lài)攝像頭的感知方式,在夜幕降臨、車(chē)輛駛?cè)胗陌档乃淼?,或是遭遇?qiáng)烈的逆光直射、漫
    的頭像 發(fā)表于 03-09 17:06 ?738次閱讀

    視覺(jué)自動(dòng)駕駛識(shí)別出高透明玻璃墻嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]最近在和大家聊視覺(jué)自動(dòng)駕駛能否識(shí)別3D圖像時(shí),有小伙伴提問(wèn),視覺(jué)自動(dòng)駕
    的頭像 發(fā)表于 02-18 08:49 ?1.1w次閱讀
    <b class='flag-5'>純</b><b class='flag-5'>視覺(jué)</b><b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>能</b>識(shí)別出高透明玻璃墻嗎?

    如何構(gòu)建適合自動(dòng)駕駛的世界模型?

    [首發(fā)于智駕最前沿微信公眾號(hào)]世界模型經(jīng)歷了系統(tǒng)動(dòng)力學(xué)階段(1960年~2000年)、認(rèn)知科學(xué)階段(2001年~2017年)、深度學(xué)習(xí)階段(2018年至今),但將其應(yīng)用到自動(dòng)駕駛汽車(chē)上,還是近幾年才
    的頭像 發(fā)表于 02-18 08:14 ?1.1w次閱讀
    如何構(gòu)建適合<b class='flag-5'>自動(dòng)駕駛</b>的世界<b class='flag-5'>模型</b>?

    已有VLM,自動(dòng)駕駛為什么還要探索VLA?

    時(shí)(長(zhǎng)尾場(chǎng)景),會(huì)因規(guī)則覆蓋不足而表現(xiàn)僵化。 隨著大語(yǔ)言模型視覺(jué)語(yǔ)言模型(VLM)的爆發(fā),開(kāi)發(fā)者們意識(shí)到,如果車(chē)輛像人類(lèi)一樣擁有常識(shí),理解什么是“潮汐車(chē)道”,知道“救護(hù)車(chē)在后方鳴笛
    的頭像 發(fā)表于 02-03 09:04 ?229次閱讀
    已有VLM,<b class='flag-5'>自動(dòng)駕駛</b>為什么還要探索<b class='flag-5'>VLA</b>?

    視覺(jué)自動(dòng)駕駛的優(yōu)勢(shì)和劣勢(shì)有哪些?

    [首發(fā)于智駕最前沿微信公眾號(hào)]最近有很多小伙伴在后臺(tái)詢問(wèn)視覺(jué)自動(dòng)駕駛的優(yōu)劣,視覺(jué)自動(dòng)駕駛以其
    的頭像 發(fā)表于 01-18 09:50 ?2167次閱讀
    <b class='flag-5'>純</b><b class='flag-5'>視覺(jué)</b><b class='flag-5'>自動(dòng)駕駛</b>的優(yōu)勢(shì)和劣勢(shì)有哪些?

    VLA與世界模型有什么不同?

    [首發(fā)于智駕最前沿微信公眾號(hào)]當(dāng)前自動(dòng)駕駛行業(yè),各車(chē)企的技術(shù)路徑普遍選擇了單車(chē)智能方向。而在實(shí)際落地過(guò)程中,不同企業(yè)選擇了差異化的技術(shù)實(shí)現(xiàn)方式,部分車(chē)企側(cè)重于視覺(jué)—語(yǔ)言—?jiǎng)幼?b class='flag-5'>模型(Vision
    的頭像 發(fā)表于 12-17 09:13 ?650次閱讀
    <b class='flag-5'>VLA</b>與世界<b class='flag-5'>模型</b>有什么不同?

    視覺(jué)自動(dòng)駕駛會(huì)像人眼一樣“近視”嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛領(lǐng)域,視覺(jué)路線逐漸獲得了一部分從業(yè)者和研究者的認(rèn)可與支持。隨著雙目乃至三目攝像頭方案的應(yīng)用,通過(guò)視差計(jì)算、結(jié)構(gòu)約束和算法建模,攝像頭已經(jīng)具備了一定程度的深度
    的頭像 發(fā)表于 12-15 09:23 ?765次閱讀
    <b class='flag-5'>純</b><b class='flag-5'>視覺(jué)</b><b class='flag-5'>自動(dòng)駕駛</b>會(huì)像人眼一樣“近視”嗎?

    沒(méi)有地圖,視覺(jué)自動(dòng)駕駛就只能摸瞎嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]最近在一篇討論高精度地圖的文章中,有位小伙伴提到一個(gè)非常有趣的觀點(diǎn)“如果人在陌生的目的地,只依托視覺(jué)(眼睛)去辨別道路,若沒(méi)有導(dǎo)航,就只能摸瞎”。對(duì)于視覺(jué)
    的頭像 發(fā)表于 11-27 17:22 ?1467次閱讀
    沒(méi)有地圖,<b class='flag-5'>純</b><b class='flag-5'>視覺(jué)</b><b class='flag-5'>自動(dòng)駕駛</b>就只能摸瞎嗎?

    VLA能解決自動(dòng)駕駛中的哪些問(wèn)題?

    、語(yǔ)言表達(dá)和動(dòng)作控制這三者整合到一個(gè)統(tǒng)一的模型框架中。 與傳統(tǒng)自動(dòng)駕駛系統(tǒng)將感知、預(yù)測(cè)、規(guī)劃、控制拆解為多個(gè)獨(dú)立模塊的做法不同,VLA可以縮短“看見(jiàn)什么”和“如何行動(dòng)”之間的鴻溝,構(gòu)建一個(gè)
    的頭像 發(fā)表于 11-25 08:53 ?500次閱讀
    <b class='flag-5'>VLA</b>能解決<b class='flag-5'>自動(dòng)駕駛</b>中的哪些問(wèn)題?

    VLA和世界模型,誰(shuí)才是自動(dòng)駕駛的最優(yōu)解?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)發(fā)展,其實(shí)現(xiàn)路徑也呈現(xiàn)出兩種趨勢(shì),一邊是以理想、小鵬、小米為代表的VLA視覺(jué)—語(yǔ)言—行動(dòng))模型路線;另一邊則是以華為、蔚來(lái)為主導(dǎo)的世界
    的頭像 發(fā)表于 11-05 08:55 ?798次閱讀
    <b class='flag-5'>VLA</b>和世界<b class='flag-5'>模型</b>,誰(shuí)才是<b class='flag-5'>自動(dòng)駕駛</b>的最優(yōu)解?

    自動(dòng)駕駛上常提的VLA與世界模型有什么區(qū)別?

    自動(dòng)駕駛中常提的VLA,全稱(chēng)是Vision-Language-Action,直譯就是“視覺(jué)-語(yǔ)言-動(dòng)作”。VLA的目標(biāo)是把相機(jī)或傳感器看到的畫(huà)面、
    的頭像 發(fā)表于 10-18 10:15 ?1175次閱讀

    VLA,是完全自動(dòng)駕駛的必經(jīng)之路?

    芯片,以及英偉達(dá)Thor的上車(chē),越來(lái)越多的智駕方案選擇VLA的路徑。 ? 那么本文就梳理一下當(dāng)前智駕領(lǐng)域集中主流的大模型技術(shù)路線,以及各家廠商實(shí)現(xiàn)方式的區(qū)別和發(fā)展。 ? VLA 和VLM ?
    的頭像 發(fā)表于 06-18 00:06 ?9348次閱讀

    視覺(jué)自動(dòng)駕駛會(huì)有哪些安全問(wèn)題?

    強(qiáng)調(diào)視覺(jué)系統(tǒng)的先進(jìn)性。視覺(jué)自動(dòng)駕駛是指在車(chē)輛自動(dòng)駕駛系統(tǒng)中僅依賴(lài)攝像頭而不使用激光雷達(dá)或毫米波雷達(dá)等主動(dòng)傳感器。特斯拉率先倡導(dǎo)這一路線,宣
    的頭像 發(fā)表于 06-16 09:56 ?1012次閱讀
    <b class='flag-5'>純</b><b class='flag-5'>視覺(jué)</b>的<b class='flag-5'>自動(dòng)駕駛</b>會(huì)有哪些安全問(wèn)題?

    自動(dòng)駕駛視覺(jué)替代不了激光雷達(dá)?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)的不斷發(fā)展,視覺(jué)和激光雷達(dá)(LiDAR)兩種主流環(huán)境感知成為了大家的熱議話題?;跀z像頭的“視覺(jué)
    的頭像 發(fā)表于 06-11 09:06 ?950次閱讀

    視覺(jué)自動(dòng)駕駛如何理解路邊畫(huà)報(bào)上的人?

    行業(yè)來(lái)說(shuō),其實(shí)是一個(gè)值得深思的問(wèn)題。隨著自動(dòng)駕駛技術(shù)下沉到消費(fèi)市場(chǎng),基于視覺(jué)自動(dòng)駕駛系統(tǒng)就是依托于車(chē)載攝像頭來(lái)識(shí)別路況,如果遇到了類(lèi)似海報(bào)上的人,尤其是遇到了與真人大小類(lèi)似的人物海
    的頭像 發(fā)表于 05-19 09:16 ?748次閱讀