91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

已有VLM,自動駕駛為什么還要探索VLA?

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2026-02-03 09:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號]自動駕駛技術正處于發(fā)展的轉折點。過去十幾年間,行業(yè)長期依賴模塊化的技術路徑,即將駕駛任務拆解為感知、預測、規(guī)劃和控制四個獨立環(huán)節(jié)。這種結構雖然清晰,但在面對突發(fā)狀況時(長尾場景),會因規(guī)則覆蓋不足而表現(xiàn)僵化。

隨著大語言模型和視覺語言模型(VLM)的爆發(fā),開發(fā)者們意識到,如果車輛能像人類一樣擁有常識,理解什么是“潮汐車道”,知道“救護車在后方鳴笛需要避讓”,那么自動駕駛的上限將得到極大提升。

然而,當真正將視覺語言模型引入座艙和駕駛系統(tǒng)后,一個新的問題出現(xiàn)了,模型雖然能言善辯,能解釋復雜的路況,卻無法精準地轉動方向盤。這種從“腦子懂了”到“手腳協(xié)調”的跨越,正是視覺-語言-動作模型(VLA)被推向臺前的主要原因。

wKgZPGmBSa-AT3YfAAAQo00DEvw103.jpg

視覺語言模型的語義底座與行動短板

視覺語言模型(VLM)在自動駕駛領域打破了感知的天花板。傳統(tǒng)的感知算法只能識別如汽車、行人或交通燈等預定義的標簽,而對于路邊一個形態(tài)奇特的充氣廣告人,或者地面上一攤反光的水漬,傳統(tǒng)模型將無法給出合理的解釋。

視覺語言模型通過在互聯(lián)網數據上進行預訓練,獲得了一種近乎于人類的常識推理能力。它不再僅將像素點分類,而是能夠理解場景中的深層邏輯。比如,它能識別出前方車輛開啟的雙閃燈意味著故障,并建議后車進行繞行,這種基于語義的推理能力是傳統(tǒng)規(guī)則算法難以企及的。

雖然視覺語言模型在環(huán)境建模和交互決策建議方面表現(xiàn)優(yōu)異,但它在直接驅動車輛運行上依舊存在著先天不足,這主要體現(xiàn)在其輸出邏輯與物理世界控制指令之間的脫節(jié)上。目前的視覺語言模型大多是為文本生成而設計的,其輸出結果一般是自然語言,比如“我看到前方有行人,我應該減速”。

wKgZO2mBSbCAASbwAEASN_5zzys147.jpg

圖片源自:網絡

然而,對于車輛底盤而言,它需要的是具體的制動壓力、轉向扭矩或者是精確到分米的行駛軌跡點。這種從文本描述到物理操作的轉換過程,需要一個額外的翻譯模塊。這個模塊一旦出現(xiàn)理解偏差,或者因為模型之間無法進行聯(lián)合優(yōu)化,就會導致信息在傳遞中丟失。這將造成了一個尷尬的現(xiàn)象,模型可能在語言層面正確識別了危險,但在實際操作中卻未能及時做出反應,這種現(xiàn)象被稱為行動鴻溝。

此外,視覺語言模型的實時性也是一大硬傷。在高速行駛的自動駕駛場景中,毫秒級的延遲就可能決定安全與否。主流的視覺語言模型通常擁有極大的參數量,在處理高分辨率圖像并生成連貫文本時,其推理延遲將達到數百毫秒甚至秒級,這遠遠無法滿足每秒需要進行數十次計算的實時控制需求。

由于視覺語言模型架構本身并不是為了輸出高頻、精確的控制信號而優(yōu)化的,因此在很長一段時間里,其只能作為一種慢思考的插件,掛載在現(xiàn)有的自動駕駛系統(tǒng)旁提供參考,而無法真正主導駕駛過程。這種被動性限制了它在復雜動態(tài)環(huán)境下的應用潛力,從而促使研究者們尋求一種能夠將理解與行動深度耦合的新技術路徑。

wKgZPGmBSbGAAprqAAAR42n7O-I425.jpg

視覺語言動作模型的一體化升級

視覺-語言-動作模型(VLA)的出現(xiàn),本質上是將車輛的認知系統(tǒng)與執(zhí)行系統(tǒng)進行了一次徹底的物理融合。它不再把駕駛看作是先理解場景再執(zhí)行動作的兩個獨立步驟,而是將其視為一個統(tǒng)一的、從傳感器輸入到執(zhí)行器輸出的端到端學習過程。

wKgZO2mBSbGAfE-bAACupHq5c98045.jpg

VLA框架示意圖,圖片源自:網絡

在這種技術框架下,視覺特征、語言指令和駕駛動作被編碼到同一個高維特征空間中進行交互。這意味著模型在學習如何識別紅綠燈的同時,也在學習遇到紅燈時應該如何調節(jié)剎車踏板。這種深度的耦合使得模型能夠從海量的數據中提取出超越簡單規(guī)則的駕駛技巧,從而表現(xiàn)出更加類人的駕駛行為。

想實現(xiàn)這一融合,關鍵技術之一是動作的標記化處理。受谷歌機器人模型RT-2的啟發(fā),自動駕駛領域的VLA模型嘗試將車輛的如轉向、加速、制動等駕駛動作轉化為一種特殊的詞匯表。在這種設定下,生成一段平滑的變道軌跡,在模型看來與寫出一個句子并無本質區(qū)別。

通過將連續(xù)的物理空間離散化為一系列動作標記,VLA模型能夠直接利用大型語言模型的自回歸特性來預測接下來的駕駛行為。這種方法的精妙之處在于,它讓模型在做出動作預測的同時,還能附帶輸出這一動作背后的邏輯理由,極大地提升了系統(tǒng)的可解釋性。舉個例子,當車輛突然剎車時,它不僅能執(zhí)行動作,還能同步反饋是因為看到了盲區(qū)內竄出的外賣車,這種透明度對于建立用戶對自動駕駛的信任至關重要。

在VLA的驅動下,自動駕駛車輛表現(xiàn)出了前所未有的泛化能力。傳統(tǒng)的系統(tǒng)在進入一個從未見過的陌生城市或遇到罕見的特殊路障時,由于缺乏預設規(guī)則,會表現(xiàn)得不知所措甚至原地停滯。而VLA模型憑借其預訓練階段習得的通用世界知識,可以根據環(huán)境中的語義線索進行即時推理。

例如,當它在路邊看到一個寫著臨時施工的告示牌時,即便系統(tǒng)沒有預裝該路段的地圖信息,它也能通過閱讀牌子上的文字并結合視覺觀察,自主規(guī)劃出一條繞行路徑。這種對未知環(huán)境的強適應性,被視為從輔助駕駛向全自動駕駛跨越的關鍵一步。

wKgZPGmBSbKAc_tAAAASG3BOmsQ174.jpg

動作標記化與物理一致性的技術平衡

盡管將動作轉化為語言標記為模型的一體化掃清了障礙,但在自動駕駛這種對精度要求極高的場景中,如何確保生成的標記能夠轉化為平滑且符合車輛動力學的軌跡,依然是一個巨大挑戰(zhàn)。

如果僅僅是簡單地離散化,模型輸出的動作可能會出現(xiàn)抖動,導致車輛行駛不順暢。為了解決這一問題,行業(yè)內涌現(xiàn)出了多種軌跡生成的技術方案。其中一種典型做法是利用動作碼本,將車輛可能行駛的二維空間劃分為精細的網格。

例如,在ReflectDrive等研究中,開發(fā)者將駕駛空間設定為以車輛為中心的一個矩形區(qū)域,并以固定分辨率進行切分,從而生成數以百計的備選標記。通過這種方式,模型輸出的每一個標記都對應著物理空間中一個真實的坐標點,從而保證了動作生成的物理落地。

然而,離散標記無法捕捉到復雜交通場景中的細微連續(xù)變化。因此,另一種更為先進的技術是將擴散模型引入VLA的動作生成中。擴散模型的強項在于它能夠通過迭代去噪的過程,從概率分布中提取出最符合當前上下文的連續(xù)軌跡。

在這種架構下,大型語言模型骨干負責定性,即決定車輛應該左轉還是右轉,而擴散模型負責定量,即計算出具體的行駛路徑曲線。理想汽車在MindVLA架構中就應用了這種組合,其模型先生成語義層面的動作標記,再通過擴散解碼器將其轉化為經過優(yōu)化的軌跡,這使得車輛在擁堵路口博弈或狹窄車位泊車時,能夠展現(xiàn)出極其絲滑的操作。

wKgZO2mBSbKAFGvbAABPvEXcN2U801.jpg

圖片源自:網絡

為了進一步確保安全性,還有技術開發(fā)了針對動作標記的反射修正機制。在模型輸出初步的動作序列后,系統(tǒng)會引入一個專門的安全評分模塊,利用車輛動力學約束和障礙物預測信息對該序列進行快速質檢。

如果發(fā)現(xiàn)預測的軌跡點有碰撞風險,模型會基于離散化的動作碼本在局部范圍內進行高效搜索,尋找安全的替代錨點,并要求擴散模型以此為基準重新生成周邊軌跡。這種循環(huán)往復的自我審視過程,模擬了人類駕駛員在做出決定后發(fā)現(xiàn)不妥并迅速修正的心理過程,極大增強了系統(tǒng)在極端情況下的生存能力。

wKgZPGmBSbOAGQKXAAASAJELks8995.jpg

認知雙系統(tǒng)理論在量產中的實踐

在將龐大的VLA模型推向車載平臺的過程中,將面臨一個殘酷的現(xiàn)實,那就是車載芯片的算力和功耗預算是極為有限的。盡管英偉達推出了Thor這樣算力高達2000 TOPS的芯片,但要流暢運行一個擁有數十億參數且需要高頻響應的VLA模型,依然捉襟見肘。

為了解決這個問題,業(yè)界引入了心理學中的認知雙系統(tǒng)理論。這一理論認為人類的大腦存在兩個系統(tǒng),系統(tǒng)1是快系統(tǒng),負責本能、直覺和下意識的快速反應;系統(tǒng)2是慢系統(tǒng),負責邏輯、分析和復雜的決策推理。在自動駕駛的VLA架構中,開發(fā)者們通過巧妙的設計重構了這一模型。

wKgZO2mBSbOAd413AABC0SQoZqQ936.jpg

圖片源自:網絡

具體的實現(xiàn)方式是構建一個異構的推理模型。系統(tǒng)2由完整的大語言模型組成,它像一個資深的教官,負責觀察全局路況、解析復雜的交通規(guī)則以及制定長期的駕駛策略。由于它非常重,通常以較低的頻率運行(例如每秒運行一兩次)。

而系統(tǒng)1則是一個輕量級的動作執(zhí)行模塊,它實時接收系統(tǒng)2輸出的深層特征作為指導,并結合最新的傳感器數據,以極高的頻率(如100Hz)輸出具體的控制指令。這種快慢結合的模式,既保留了大模型的智慧,又確保了車輛在遭遇緊急切入或行人橫穿時,能像人類本能一樣迅速制動,而不必等待大模型漫長的思考時間。

為了進一步提升效率,混合專家架構(MoE)被證明是VLA走向實用的利器。在MindVLA等先進模型中,并非所有的神經元在駕駛時都同時工作,而是將模型拆分為多個領域的專家模塊。比如有的專家擅長處理高速巡航,有的擅長處理雨天感知,有的則專精于狹窄路口的博弈。

在實際運行時,路由算法會根據當前路況,動態(tài)激活最相關的少數專家模塊。這種稀疏激活的技術,使得模型在擁有巨大知識容量的同時,實際計算消耗可以維持在較低水平。結合稀疏注意力機制和并行解碼技術,目前的VLA模型已經能夠實現(xiàn)在車載端的毫秒級響應,這標志著認知驅動的自動駕駛正正式從學術研究轉向量產工程。

wKgZPGmBSbSAX6xMAAARwcz1hbg267.jpg

視覺語言動作模型在真實世界的演進邏輯

在實際部署中,VLA模型的訓練數據不再局限于簡單的駕駛視頻。為了讓模型真正理解語言與動作之間的因果關系,研究者們開發(fā)了諸如Action Dreaming(動作夢境)這樣的創(chuàng)新方法。

在傳統(tǒng)的訓練中,模型看到的是“司機看到紅燈于是停車”的單一結果。然而,為了讓模型理解指令的邊界,開發(fā)者會在模擬器中創(chuàng)造出各種虛假的未來。如對于同一個視覺場景,給模型輸入“直行”和“左轉”兩種指令,并讓它預測兩種不同的物理后果。通過這種反事實推理的訓練,VLA模型能夠建立起深層的語言-動作對齊,從而在現(xiàn)實中更準確地執(zhí)行人類的自然語言指令。

wKgZO2mBSbSAIxUGAAadZZ1MXyI278.jpg

圖片源自:網絡

這種對齊能力的提升,催生了一批具有代表性的工業(yè)界項目。Wayve推出的LINGO-2是首個在公共道路上測試的閉環(huán)VLA模型,它能夠邊開車邊解說,通過實時語音反饋其為何減速、為何繞行,從而讓車內乘客能夠實時洞察車輛的思維邏輯。

而理想汽車推出的MindVLA,則更進一步地強調了空間智能的整合。通過自主研發(fā)的3D Gaussian(3D高斯)表征技術,MindVLA能夠將復雜的城市街道轉化為一種可計算的、具備幾何精確度的三維語義空間。在這種空間內,動作的生成不再是盲目的黑盒預測,而是基于對障礙物物理邊界的深刻理解。這使得它即便在無圖的陌生車庫內,也能憑借純粹的視覺和語義推理,像老司機一樣找到車位并完成停放。

VLA模型在自動駕駛領域的意義遠不止于駕駛任務本身。它實際上是在構建一個通用的物理世界代理。隨著這一技術的日趨成熟,車輛將從一個單純的代步工具進化為一個具備理解和執(zhí)行能力的智能體。

未來,用戶可能不再需要設置復雜的導航點,只需隨口一句“去最近的超市買點面包”,VLA驅動的車輛便能通過搜索興趣點、理解交通流、規(guī)劃路線、規(guī)避風險,并最終準確地停在超市門口。這種從規(guī)則驅動到語義認知,再到物理行動的閉環(huán),不僅解決了自動駕駛的長尾問題,更開啟了物理人工智能的新時代。

wKgZPGmBSbWARtLHAAATCLDSk7w130.jpg

總結與未來展望

視覺語言動作模型(VLA)在自動駕駛中的崛起,標志著人工智能從純粹的信息處理向物理實體交互的質變。相比于視覺語言模型(VLM),VLA的核心價值在于它消除了語義理解與物理執(zhí)行之間的斷層,通過統(tǒng)一的端到端框架,實現(xiàn)了感知、決策與控制的深度集成。這一跨越使得自動駕駛車輛能夠擺脫對高精地圖和繁瑣手工規(guī)則的依賴,轉而依靠通用的常識和實時推理來處理復雜多變的現(xiàn)實環(huán)境。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Vla
    Vla
    +關注

    關注

    0

    文章

    20

    瀏覽量

    5895
  • 自動駕駛
    +關注

    關注

    793

    文章

    14882

    瀏覽量

    179815
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    什么是VLM?為什么它對自動駕駛很重要?

    VLM,即視覺語言模型,簡單理解下,其就是把“看見的東西”和“說出來的話”放在同一個腦子里理解的模型。我們平時把相機拍到的畫面交給視覺模型去做檢測、分割、深度估計這些任務,語音或文本交給語言模型去處理。
    的頭像 發(fā)表于 02-14 20:29 ?1.6w次閱讀

    如何設計好自動駕駛ODD?

    為確定自動駕駛的可使用范圍,會給自動駕駛設置一個運行設計域(Operational Design Domain,ODD)。ODD的作用就是用來明確自動駕駛在什么情況下能工作,在什么情況下不能工作,給車設定“工作范圍”。
    的頭像 發(fā)表于 01-24 09:27 ?1507次閱讀

    VLA與世界模型有什么不同?

    [首發(fā)于智駕最前沿微信公眾號]當前自動駕駛行業(yè),各車企的技術路徑普遍選擇了單車智能方向。而在實際落地過程中,不同企業(yè)選擇了差異化的技術實現(xiàn)方式,部分車企側重于視覺—語言—動作模型(Vision
    的頭像 發(fā)表于 12-17 09:13 ?620次閱讀
    <b class='flag-5'>VLA</b>與世界模型有什么不同?

    邁向自動駕駛:地平線技術生態(tài)大會探索自動駕駛規(guī)模化商用路徑

    ”2025 地平線技術生態(tài)大會。近百位企業(yè)管理者、行業(yè)專家齊聚一堂,共同探索產業(yè)高質量發(fā)展的創(chuàng)新路徑。 ? 作為大會的深度思想場,“邁向全域自動駕駛的規(guī)?;逃谩睂n}論壇,聚焦自動駕駛出租車、無人物流、干線物流等業(yè)態(tài),深入探討如
    的頭像 發(fā)表于 12-12 11:51 ?759次閱讀
    邁向<b class='flag-5'>自動駕駛</b>:地平線技術生態(tài)大會<b class='flag-5'>探索</b><b class='flag-5'>自動駕駛</b>規(guī)?;逃寐窂? />    </a>
</div>                              <div   id=

    VLA能解決自動駕駛中的哪些問題?

    [首發(fā)于智駕最前沿微信公眾號]很多從事自動駕駛的小伙伴應該對VLA這個概念已經非常熟悉了。VLA即“Visual-Language-Action”(視覺—語言—動作)模型,它的核心是將視覺信息
    的頭像 發(fā)表于 11-25 08:53 ?488次閱讀
    <b class='flag-5'>VLA</b>能解決<b class='flag-5'>自動駕駛</b>中的哪些問題?

    大模型中常提的快慢思考會對自動駕駛產生什么影響?

    2024年7月,理想汽車發(fā)布的基于端到端模型、VLM視覺語言模型和世界模型的全新自動駕駛技術架構標志著其全棧自研的智能駕駛研發(fā)進入了新階段。該架構的算法原型創(chuàng)新性地受到了諾貝爾獎得主丹尼爾·卡尼曼
    的頭像 發(fā)表于 11-22 10:59 ?2499次閱讀
    大模型中常提的快慢思考會對<b class='flag-5'>自動駕駛</b>產生什么影響?

    VLA和世界模型,誰才是自動駕駛的最優(yōu)解?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術發(fā)展,其實現(xiàn)路徑也呈現(xiàn)出兩種趨勢,一邊是以理想、小鵬、小米為代表的VLA(視覺—語言—行動)模型路線;另一邊則是以華為、蔚來為主導的世界模型(World
    的頭像 發(fā)表于 11-05 08:55 ?783次閱讀
    <b class='flag-5'>VLA</b>和世界模型,誰才是<b class='flag-5'>自動駕駛</b>的最優(yōu)解?

    自動駕駛上常提的VLA與世界模型有什么區(qū)別?

    自動駕駛中常提的VLA,全稱是Vision-Language-Action,直譯就是“視覺-語言-動作”。VLA的目標是把相機或傳感器看到的畫面、能理解和處理自然語言的大模型能力,和最終控制車輛
    的頭像 發(fā)表于 10-18 10:15 ?1151次閱讀

    卡車、礦車的自動駕駛和乘用車的自動駕駛在技術要求上有何不同?

    [首發(fā)于智駕最前沿微信公眾號]自動駕駛技術的發(fā)展,讓組合輔助駕駛得到大量應用,但現(xiàn)在對于自動駕駛技術的宣傳,普遍是在乘用車領域,而對于卡車、礦車的自動駕駛發(fā)展,卻鮮有提及。其實在卡車、
    的頭像 發(fā)表于 06-28 11:38 ?1384次閱讀
    卡車、礦車的<b class='flag-5'>自動駕駛</b>和乘用車的<b class='flag-5'>自動駕駛</b>在技術要求上有何不同?

    小馬智行助力公路干線物流自動駕駛發(fā)展

    近日,世界交通運輸大會-大通道貨車自動駕駛創(chuàng)新探索論壇于蘇州舉行。在論壇上,由中交投資發(fā)起,小馬智行和青騅物流參編的《公路干線物流自動駕駛發(fā)展報告》正式發(fā)布,報告展示了當前干線物流自動駕駛
    的頭像 發(fā)表于 06-19 13:59 ?1121次閱讀

    VLA,是完全自動駕駛的必經之路?

    芯片,以及英偉達Thor的上車,越來越多的智駕方案選擇VLA的路徑。 ? 那么本文就梳理一下當前智駕領域集中主流的大模型技術路線,以及各家廠商實現(xiàn)方式的區(qū)別和發(fā)展。 ? VLAVLM ?
    的頭像 發(fā)表于 06-18 00:06 ?9303次閱讀

    自動駕駛安全基石:ODD

    電子發(fā)燒友網綜合報道 自動駕駛ODD(Operational Design Domain)即設計運行域,是指自動駕駛系統(tǒng)被設計為安全、有效運行的具體條件范圍。它定義了自動駕駛汽車在哪些環(huán)境、場景
    的頭像 發(fā)表于 05-19 03:52 ?6414次閱讀

    劉強東,進軍汽車領域# 京東# 自動駕駛# 自動駕駛出租車# 京東自動駕駛快遞車

    自動駕駛
    jf_15747056
    發(fā)布于 :2025年05月09日 17:44:10

    自動駕駛經歷了哪些技術拐點?

    ,到如今以AI為核心驅動的自動駕駛系統(tǒng),各大車企都在不斷加碼研發(fā)投入,試圖在未來市場中占據制高點。那自動駕駛發(fā)展至今,經歷了哪些技術拐點呢? 自動駕駛系統(tǒng)的發(fā)展歷程 自動駕駛技術的發(fā)展
    的頭像 發(fā)表于 04-27 15:54 ?851次閱讀
    <b class='flag-5'>自動駕駛</b>經歷了哪些技術拐點?

    理想汽車推出全新自動駕駛架構

    2025年3月18日,理想汽車自動駕駛技術研發(fā)負責人賈鵬在NVIDIA GTC 2025發(fā)表主題演講《VLA:邁向自動駕駛物理智能體的關鍵一步》,分享了理想汽車對于下一代自動駕駛技術M
    的頭像 發(fā)表于 03-19 14:12 ?1095次閱讀