91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么把VLA直接放上自動駕駛汽車沒那么容易?

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2025-09-23 09:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號]在自動駕駛領(lǐng)域,經(jīng)常會有技術(shù)提出將VLA(視覺—語言—動作模型)應(yīng)用到自動駕駛上。VLA的作用就是把看、懂、決策三件事交給一個大模型,攝像頭看到畫面,模型用“視覺+語言”去理解場景和意圖,最后直接輸出要不要轉(zhuǎn)向、踩剎車這樣的動作。這個模型的好處顯而易見,模型能用更豐富的語義理解來輔助決策,理論上更靈活、更接近“人怎么想就怎么做”的需求。但從實際落地和安全角度看,直接將自動駕駛汽車的行駛?cè)拷唤oVLA,又有很多現(xiàn)實的難點和坑。

wKgZO2jR-NqASeV2AABcp8AnFYo712.jpg

wKgZPGjR-NqAIQQ8AAAQo00DEvw689.jpg

邊緣場景或?qū)㈦y以理解

大模型是靠大量數(shù)據(jù)學(xué)會“看”和“說”,但自動駕駛強調(diào)的是不能能“看”,更要能做對事。交通環(huán)境中常見的場景很容易被模型學(xué)會,但真正危險的往往是那些如臨時擺放的異物、非常規(guī)施工標(biāo)識、突然沖出來的行人、凹陷或濕滑的路面、以及復(fù)雜的多車交互等不常見的極端情況。把這些長尾場景都采集齊全幾乎不可能,尤其是要配套高質(zhì)量的動作標(biāo)簽(也就是在那些場景下“應(yīng)該怎么做”)更是難上加難。

對于邊緣場景,有些技術(shù)方案提出使用仿真幫忙補樣本,但仿真和真實世界總有差距。光照、材質(zhì)、行人行為建模都很難完全擬合現(xiàn)實。有時在仿真里“得分高”的策略,也可能利用了仿真里的漏洞,如果這些策略到了真車上反而會危險。對于大模型學(xué)習(xí)還有一點不容忽視,用于訓(xùn)練控制的標(biāo)簽必須是物理可實現(xiàn)的。不是所有人為操作示例都適合直接當(dāng)作監(jiān)督信號;一些看起來“聰明”的人為反應(yīng)其實依賴于人類的直覺和肉體補償(比如猛打方向時人的身體補償),模型直接模仿這些反而可能超出車輛動力學(xué)極限。

因此單靠堆數(shù)據(jù)和堆算力,無法把所有可能的危險都消滅掉。更可行的做法是把VLA用來補強語義理解和異常檢測,而不是把完全的控制權(quán)一次性托付給它。把它當(dāng)成能給出“高層建議”的大腦,而由經(jīng)過驗證的低級控制器來做最終執(zhí)行,會安全得多。

wKgZO2jR-NqAUVIhAAAR42n7O-I200.jpg

能想出來不等于能做得到

語言模型擅長推理和生成,但車輛有明確的物理約束。一個優(yōu)秀的駕駛“想法”可能需要的轉(zhuǎn)向角、加速度或車體傾斜等要求,有些在現(xiàn)實中可能根本實現(xiàn)不了。若不把這些物理約束強行嵌入到輸出環(huán)節(jié),模型又有可能提出不可行或危險的軌跡。對于這類問題,要么在模型輸出端加上物理約束或后驗校正,要么把動作空間離散化讓模型只選“有限個可行動作”。前者可以保持流暢性但增加工程復(fù)雜度,后者雖然簡單但犧牲了自然和效率。

還有就是時序問題。自動駕駛的控制回路有嚴(yán)格的頻率和延遲要求。若模型在算力受限的車端運行太慢,或者把重要推理放在云端遇到網(wǎng)絡(luò)波動,決策就會基于舊畫面來執(zhí)行,這反而會帶來駕駛風(fēng)險。那種“決策滯后于現(xiàn)實”的情況,比決策錯誤還危險。很多常見的解決思路是“快思維+慢思維”架構(gòu),小而穩(wěn)定的模型在車端做基礎(chǔ)感知和閉環(huán)控制,復(fù)雜的語義推理和策略優(yōu)化放在后臺或云端,只在非關(guān)鍵時刻下提供建議。但這要求架構(gòu)設(shè)計非常嚴(yán)謹(jǐn),必須保證背景推理的結(jié)論不會在關(guān)鍵時刻破壞即時控制路徑。

訓(xùn)練端到端系統(tǒng)常用的方法之一是強化學(xué)習(xí)或帶有獎勵的優(yōu)化。若獎勵函數(shù)設(shè)計不當(dāng),模型可能學(xué)到在訓(xùn)練或仿真中高分但現(xiàn)實里危險的策略。比如會利用某些規(guī)則漏洞快速完成任務(wù),或者在仿真里靠冒險動作取勝。解決這類問題需要把安全約束顯式納入訓(xùn)練目標(biāo),或采用混合監(jiān)督(讓模型既學(xué)專家示范也學(xué)安全約束),還要在訓(xùn)練里引入更多對抗和擾動場景。但這些措施會顯著抬高訓(xùn)練成本和驗證復(fù)雜度。

其實對于模型來說,算力和成本也是需要直面的問題,更大的模型意味著更貴、更耗電、更熱、需要更強的散熱設(shè)計,這直接影響整車成本和可靠性。這就要求廠商采用“既省錢又靠譜”的折中方案,而不是盲目堆模型參數(shù)。

wKgZO2jR-NuAPbafAAASG3BOmsQ017.jpg

黑箱很難過審,責(zé)任也難界定

傳統(tǒng)自動駕駛系統(tǒng)將感知、預(yù)測、規(guī)劃、控制等各模塊分得非常清晰,各模塊可以單獨驗收、打樁測試、形式化驗證。端到端的VLA可以把這些環(huán)節(jié)耦合在一起,提升效率,但出問題時也很難追根溯源。監(jiān)管機構(gòu)、保險公司和法律體系更信任可審計、可重放、可證明的決策路徑。一個不能解釋為何在某一時刻緊急轉(zhuǎn)向或未能剎停的黑箱模型,在面對事故調(diào)查和責(zé)任認(rèn)定會極為不利。

這就要求必須設(shè)計日志機制、關(guān)鍵中間態(tài)保存和可回溯的決策證據(jù)。把VLA用于生成解釋性文本(例如“由于前方有臨時施工牌,我建議減速”)是一條可行路徑,但這種解釋必須真實可驗證,不能只是后置拼湊的“借口”。此外,形式化安全約束和保證性測試在端到端系統(tǒng)里更難做,需要新的驗證方法論和更多的試驗數(shù)據(jù),短期內(nèi)法規(guī)適配也是一道門檻。

wKgZPGjR-NyAA86yAAASAJELks8633.jpg

視覺好用但不會在所有場景都看清

VLA的名字里有個“V”(視覺),這意味著相機會是主傳感器。相機能提供豐富的語義信息,但在弱光、逆光、霧霾、雨雪或被遮擋時,它的表現(xiàn)會明顯下降。雷達和激光雷達在測距和穿透性上有優(yōu)勢,但它們給出的信息不是“語義友好”的,對于“這是誰/這塊牌子意味著什么”的解釋不如視覺直觀。把視覺的語義理解和雷達/激光雷達的物理量整合起來,是一件技術(shù)上復(fù)雜但很有必要的事。

此外,同樣的視覺目標(biāo)在不同城市或國家外觀可能差別很大,標(biāo)準(zhǔn)交通標(biāo)識、路面材質(zhì)、車輛樣式都不同。模型的跨域遷移需要大量本地化數(shù)據(jù)和細致的微調(diào),不然在新環(huán)境中容易出問題,就像特斯拉FSD在國內(nèi)使用初期,其表現(xiàn)也并不是很好。簡而言之,要讓大模型做到“放車就能跑遍全世界”,現(xiàn)階段還不現(xiàn)實。

wKgZPGjR-NyAHunUAAARwcz1hbg090.jpg

如何安全地把控制權(quán)還給人?

VLA最大的優(yōu)勢之一是能用自然語言和人互動,這對用戶體驗很重要。但自然語言含糊和歧義性極高。用戶可能給出矛盾或不完整的指令,系統(tǒng)必須在理解意圖與遵守安全約束之間平衡。還有一個更現(xiàn)實的情況是,系統(tǒng)在遇到邊緣場景時,如何安全地把控制權(quán)還給人?人被動從乘客身份到主動接管需要時間和注意力切換,如果這個過程設(shè)計不當(dāng),就會增加風(fēng)險。因此,需要明確接管觸發(fā)條件、足夠的時間窗和清晰的提示方式,同時在設(shè)計上盡量減少對用戶即時高復(fù)雜度決策的依賴。

對于消費者來說,對自動駕駛汽車的信任也非常關(guān)鍵。一次危險的動作就可能毀掉用戶對系統(tǒng)的信心。要建立信任,系統(tǒng)需要持續(xù)可靠且能解釋自己的行為。VLA在解釋性輸出方面有天然優(yōu)勢,但前提是解釋必須準(zhǔn)確、可驗證,并且易于理解。

wKgZO2jR-N2Ac3wnAAATCLDSk7w761.jpg

可落地的折中策略

鑒于VLA模型不可不去面對的這些挑戰(zhàn),現(xiàn)階段最務(wù)實的做法是漸進式、混合式落地。把VLA用在語義理解、異常檢測、場景注釋、人機交互等對實時性不那么敏感但對語義能力要求高的功能上,讓它成為“智能的助手”;對于關(guān)鍵的高頻控制仍然交給經(jīng)過驗證的低級控制器。還有一種思路就是把VLA當(dāng)作慢思維:在后臺做長時間的策略優(yōu)化、駕駛風(fēng)格學(xué)習(xí)和復(fù)雜場景分析,再把受限的結(jié)論以可解釋且受約束的方式下發(fā)給車端控制系統(tǒng)。

對于商用化的模型,還必須設(shè)計好回退機制、日志與可審計模塊,并把它們寫進每一次版本的驗收標(biāo)準(zhǔn)。數(shù)據(jù)采集策略要優(yōu)先覆蓋那些影響安全的長尾場景,仿真和現(xiàn)實測試要結(jié)合進行,驗證體系要能給出可量化的安全證據(jù)而不是單純的性能曲線。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Vla
    Vla
    +關(guān)注

    關(guān)注

    0

    文章

    20

    瀏覽量

    5898
  • 自動駕駛
    +關(guān)注

    關(guān)注

    794

    文章

    14893

    瀏覽量

    180097
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    自動駕駛汽車如何完成超車?

    在我們?nèi)粘i_車時,別人想要超車,只要確認(rèn)后方、旁邊有沒有車,打個燈、稍微加速、換個車道就完成了。這一動作乍一看非常簡單,但對自動駕駛汽車來說,這個過程需要多方協(xié)調(diào)。 自動駕駛車輛要完成超車動作,必須
    的頭像 發(fā)表于 02-16 17:37 ?1.7w次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>汽車</b>如何完成超車?

    自動駕駛汽車如何實現(xiàn)自動駕駛

    人類駕駛員而言是非常直觀且有效的指令,但對于自動駕駛汽車來說,則意味著需要一套極其復(fù)雜的感知、理解與決策鏈路。 自動駕駛如何看清文字? 自動駕駛
    的頭像 發(fā)表于 02-10 08:50 ?656次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>汽車</b>如何實現(xiàn)<b class='flag-5'>自動駕駛</b>

    已有VLM,自動駕駛為什么還要探索VLA?

    時(長尾場景),會因規(guī)則覆蓋不足而表現(xiàn)僵化。 隨著大語言模型和視覺語言模型(VLM)的爆發(fā),開發(fā)者們意識到,如果車輛能像人類一樣擁有常識,理解什么是“潮汐車道”,知道“救護車在后方鳴笛需要避讓”,那么自動駕駛的上限將
    的頭像 發(fā)表于 02-03 09:04 ?229次閱讀
    已有VLM,<b class='flag-5'>自動駕駛</b>為什么還要探索<b class='flag-5'>VLA</b>?

    自動駕駛汽車如何檢測石頭這樣的小障礙物?

    [首發(fā)于智駕最前沿微信公眾號]最近有一位小伙伴留言,想讓我聊聊自動駕駛汽車對于石頭這樣的小障礙物,是使用什么視覺任務(wù)檢測的。在直接回答“如何檢測”之前,其實要思考一個更根本的問題,對于一個像石頭這樣
    的頭像 發(fā)表于 12-24 16:53 ?1134次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>汽車</b>如何檢測石頭這樣的小障礙物?

    VLA與世界模型有什么不同?

    [首發(fā)于智駕最前沿微信公眾號]當(dāng)前自動駕駛行業(yè),各車企的技術(shù)路徑普遍選擇了單車智能方向。而在實際落地過程中,不同企業(yè)選擇了差異化的技術(shù)實現(xiàn)方式,部分車企側(cè)重于視覺—語言—動作模型(Vision
    的頭像 發(fā)表于 12-17 09:13 ?650次閱讀
    <b class='flag-5'>VLA</b>與世界模型有什么不同?

    VLA能解決自動駕駛中的哪些問題?

    、語言表達和動作控制這三者整合到一個統(tǒng)一的模型框架中。 與傳統(tǒng)自動駕駛系統(tǒng)將感知、預(yù)測、規(guī)劃、控制拆解為多個獨立模塊的做法不同,VLA可以縮短“看見什么”和“如何行動”之間的鴻溝,構(gòu)建一個能直接將視覺輸入和語言描述映射到具體動作
    的頭像 發(fā)表于 11-25 08:53 ?500次閱讀
    <b class='flag-5'>VLA</b>能解決<b class='flag-5'>自動駕駛</b>中的哪些問題?

    自動駕駛汽車如何確定自己的位置和所在車道?

    [首發(fā)于智駕最前沿微信公眾號]我們平時開車時,判斷自己在哪條路、哪個車道,只需要看一眼導(dǎo)航、掃幾眼車道線、再聽聽提示就夠了。但對自動駕駛汽車來說,這件事既簡單又復(fù)雜。簡單在于自動駕駛汽車
    的頭像 發(fā)表于 11-18 09:03 ?904次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>汽車</b>如何確定自己的位置和所在車道?

    VLA和世界模型,誰才是自動駕駛的最優(yōu)解?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)發(fā)展,其實現(xiàn)路徑也呈現(xiàn)出兩種趨勢,一邊是以理想、小鵬、小米為代表的VLA(視覺—語言—行動)模型路線;另一邊則是以華為、蔚來為主導(dǎo)的世界模型(World
    的頭像 發(fā)表于 11-05 08:55 ?798次閱讀
    <b class='flag-5'>VLA</b>和世界模型,誰才是<b class='flag-5'>自動駕駛</b>的最優(yōu)解?

    自動駕駛上常提的VLA與世界模型有什么區(qū)別?

    自動駕駛中常提的VLA,全稱是Vision-Language-Action,直譯就是“視覺-語言-動作”。VLA的目標(biāo)是相機或傳感器看到的畫面、能理解和處理自然語言的大模型能力,和最
    的頭像 發(fā)表于 10-18 10:15 ?1175次閱讀

    如何確保自動駕駛汽車感知的準(zhǔn)確性?

    [首發(fā)于智駕最前沿微信公眾號]自動駕駛汽車想要自動駕駛,首先要做的就是能對周邊環(huán)境實現(xiàn)精準(zhǔn)感知,也就是能“看”清道路,那自動駕駛汽車如何在復(fù)
    的頭像 發(fā)表于 08-23 15:06 ?1686次閱讀
    如何確保<b class='flag-5'>自動駕駛</b><b class='flag-5'>汽車</b>感知的準(zhǔn)確性?

    自動駕駛汽車是如何準(zhǔn)確定位的?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)的快速發(fā)展,車輛的精準(zhǔn)定位成為安全駕駛與路徑規(guī)劃的核心基礎(chǔ)。相比于傳統(tǒng)人類駕駛依賴路標(biāo)和視覺判斷,自動駕駛
    的頭像 發(fā)表于 06-28 11:42 ?1286次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>汽車</b>是如何準(zhǔn)確定位的?

    VLA,是完全自動駕駛的必經(jīng)之路?

    芯片,以及英偉達Thor的上車,越來越多的智駕方案選擇VLA的路徑。 ? 那么本文就梳理一下當(dāng)前智駕領(lǐng)域集中主流的大模型技術(shù)路線,以及各家廠商實現(xiàn)方式的區(qū)別和發(fā)展。 ? VLA 和VLM ?
    的頭像 發(fā)表于 06-18 00:06 ?9347次閱讀

    NVIDIA Halos自動駕駛汽車安全系統(tǒng)發(fā)布

    自動駕駛汽車的開發(fā)。正確的技術(shù)與框架對確保自動駕駛汽車駕駛員、乘客和行人的安全至關(guān)重要。 因此,NVIDIA 推出了NVIDIA Halos綜合安全系統(tǒng),將 NVIDIA 的
    的頭像 發(fā)表于 03-25 14:51 ?1193次閱讀

    理想汽車推出全新自動駕駛架構(gòu)

    2025年3月18日,理想汽車自動駕駛技術(shù)研發(fā)負責(zé)人賈鵬在NVIDIA GTC 2025發(fā)表主題演講《VLA:邁向自動駕駛物理智能體的關(guān)鍵一步》,分享了理想
    的頭像 發(fā)表于 03-19 14:12 ?1114次閱讀