91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

理想MindVLA-o1讓自動駕駛更像人?

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2026-03-23 09:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號]最近理想汽車發(fā)布的MindVLA-o1引起了不少人的討論,今天就詳細和大家聊聊理想的MindVLA-o1到底實現(xiàn)了什么功能。其實從理想汽車的介紹中,MindVLA-o1的核心邏輯非常明確,即它不再把自動駕駛看作一個由感知、預(yù)測、規(guī)劃組成的拼圖游戲,而是試圖通過一個統(tǒng)一的視覺-語言-動作模型,直接去模擬人類司機的駕駛邏輯。

wKgZPGnAk_2AAIWbAABTJedny0U592.jpg

圖片源自:理想汽車

這種改變意味著車子不再是單純地執(zhí)行指令,而是在理解物理世界的基礎(chǔ)上進行思考。

傳統(tǒng)自動駕駛系統(tǒng)各功能其實是分開的,感知負責看見,規(guī)劃負責決策,控制負責執(zhí)行。這樣做的好處是結(jié)構(gòu)清楚,壞處也很明顯,就是各個模塊之間容易割裂,在遇到復(fù)雜場景時,信息傳遞不夠順,系統(tǒng)也很難形成統(tǒng)一理解。

MindVLA-o1做的就是盡量把這些能力放到一個模型里,讓它不只是“看見了什么”,還要“明白這意味著什么”,并進一步判斷“接下來該怎么做”。

wKgZO2nAk_2AbfdfAAAQo00DEvw941.jpg

從“看見路”到“理解路”

MindVLA-o1在感知層面不是單純把圖像識別做得更細,而是把三維空間理解補起來。理想采用以視覺為核心的3D ViT Encoder,同時把激光雷達點云當作三維幾何提示,幫助模型更好地理解真實空間結(jié)構(gòu)。這個做法的價值在于它讓模型不只是識別前方有車、有行人、有障礙物,還能更穩(wěn)定地把這些目標放到具體的三維關(guān)系里去理解。

wKgZPGnAk_6AVcGcAABW2MzCcvg568.jpg

圖片源自:理想汽車

這一步其實很關(guān)鍵,因為自動駕駛真正難的地方,從來不只是“有沒有看到”,而是“有沒有看懂”。同一個目標,在不同距離、不同遮擋、不同道路結(jié)構(gòu)下,系統(tǒng)對它的判斷會完全不同。把語義信息和三維空間信息合到一起,模型對場景的把握才會更完整。

理想還引入了前饋式3DGS表示,把靜態(tài)環(huán)境和動態(tài)物體分開建模,再通過下一幀預(yù)測作為自監(jiān)督信號,讓模型同時學到深度、語義和運動變化。這樣做的結(jié)果,是模型對環(huán)境的理解不再停留在單幀圖像,而是帶上了時間維度。

智駕最前沿以為,這部分其實是讓自動駕駛從二維識別往三維場景理解邁了一大步。它解決了自動駕駛一個很現(xiàn)實的問題,即車在路上面對的從來不是靜態(tài)圖片,而是連續(xù)變化的空間。

wKgZO2nAk_6AJQQ3AAAR42n7O-I323.jpg

從“判斷當下”到“推演下一秒”

如果說空間理解解決的是“眼前看得清”,那多模態(tài)思考解決的就是“接下來怎么想”。理想在MindVLA-o1里引入了預(yù)測式隱世界模型,讓模型能夠在隱空間里模擬未來的場景變化。

它不是簡單地做一個下一幀預(yù)測,而是把世界模型、多模態(tài)推理和駕駛行為聯(lián)合起來訓(xùn)練,讓模型在做決策之前,先在內(nèi)部把未來的可能性推演一遍。

這一點很像人類駕駛員的真實思考方式。人類駕駛員并不會只看當前這一秒的畫面,而是會順著路況、車速、交通參與者的動作,提前判斷接下來可能發(fā)生什么。

MindVLA-o1想做的,就是把這種能力放進模型里。它通過海量視頻預(yù)訓(xùn)練隱世界詞元,再持續(xù)強化世界模型推演能力,最后把這些能力和駕駛動作對齊。這樣一來,模型在面對復(fù)雜場景時,不只是做當下反應(yīng),還能提前形成對未來幾秒的判斷。

這也是智駕最前沿認為MindVLA-o1最有價值的地方之一。很多大模型講“會思考”,但在自動駕駛里,真正有用的思考不是抽象推理,而是對未來場景變化的預(yù)判。

車速、距離、軌跡、相對位置,這些東西都要求模型對時間有穩(wěn)定理解。只有把這種能力做進了系統(tǒng)里,才讓“想得更深”不只是口號。

wKgZO2nAk_-AA1OSAAASG3BOmsQ814.jpg

從“輸出動作”到“穩(wěn)定開車”

自動駕駛最后要實現(xiàn)的一定要落到動作上,而動作生成往往最容易暴露系統(tǒng)短板。理想在這里做的是統(tǒng)一行為生成。

MindVLA-o1使用VLA-MoE架構(gòu),并加入Action Expert,從3D場景特征、導(dǎo)航目標和駕駛指令中提取信息,再結(jié)合前面的多模態(tài)思考,直接生成高精度駕駛軌跡。

它不是把幾個模塊拼起來再湊一個結(jié)果,而是盡量讓“理解”和“動作”之間少一些中間損耗。

wKgZPGnAlACAJ-M4AAadZZ1MXyI757.jpg

圖片源自:網(wǎng)絡(luò)

在這個方面理想還有兩個很重要的設(shè)計。一個是并行解碼,也就是一次性生成所有軌跡點,提升實時性。另一個是離散擴散,用多輪迭代的方式去優(yōu)化軌跡,讓軌跡更連續(xù)、更穩(wěn)定,也更符合車輛動力學約束。

這個部分聽起來不像感知和推理那么“高大上”,但它恰恰決定了車開起來穩(wěn)不穩(wěn)。模型能不能在復(fù)雜場景下給出平順、可執(zhí)行、可控的動作,最終還是看這一層。

智駕最前沿覺得,MindVLA-o1在動作生成上的意義不在于“更會開車”,而在于它開始像一個真正的駕駛系統(tǒng),而不是一個只會給答案的模型。

自動駕駛最怕的其實不是看不見,而是看見了卻做出不穩(wěn)定、不連貫的動作。統(tǒng)一行為生成解決的,正是這個問題。

wKgZO2nAlACAcQ5kAAASAJELks8434.jpg

MindVLA-o1是一套會進化的系統(tǒng)?

MindVLA-o1不只是一個靜態(tài)模型,它背后還有一整套閉環(huán)強化學習和軟硬件協(xié)同設(shè)計。理想把傳統(tǒng)逐步優(yōu)化式重建,升級成前饋式場景重建,讓系統(tǒng)能更快生成大規(guī)模、高保真的駕駛場景,再結(jié)合世界模擬器持續(xù)訓(xùn)練和優(yōu)化。

這個思路的核心,不是靠一次訓(xùn)練定終局,而是讓模型在仿真和真實世界之間不斷循環(huán),持續(xù)修正自己。

與此同時,理想還把模型設(shè)計和硬件約束放到一起考慮。通過Roofline模型分析計算能力和內(nèi)存帶寬限制,再評估近2000種架構(gòu)配置,最終找出精度和推理延遲之間的平衡點。

wKgZPGnAlACALQpUAABQMQtwIVI953.jpg

圖片源自:理想汽車

這個動作很重要。因為自動駕駛不是實驗室里的模型比賽,模型再強,放不上車、跑不動、調(diào)不快,都沒有意義。MindVLA-o1能被認真討論,不只是因為它提出了新結(jié)構(gòu),更因為它把“怎么上車”這件事擺到了同等重要的位置。

從這個角度看,MindVLA-o1真正實現(xiàn)的,不是單點突破,而是一整套面向物理世界智能的能力拼接起來了。

看得更遠,是三維空間理解;想得更深,是多模態(tài)思考;行得更穩(wěn),是統(tǒng)一行為生成;進化更快,是閉環(huán)強化學習;部署更高效,是軟硬件協(xié)同。這五件事合在一起,才構(gòu)成了它的完整價值。

wKgZO2nAlAGAD6m-AAARwcz1hbg004.jpg

結(jié)語

如果只把MindVLA-o1看成一套自動駕駛新模型,理解會太窄。理想真正想表達的,是自動駕駛正在從“功能系統(tǒng)”走向“物理世界智能系統(tǒng)”。它現(xiàn)在當然還主要服務(wù)于車,但它的結(jié)構(gòu)已經(jīng)不再局限于車。視覺、語言、行動統(tǒng)一之后,模型就有了擴展到機器人等物理系統(tǒng)的可能。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 正激理想
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    6355
  • 自動駕駛
    +關(guān)注

    關(guān)注

    794

    文章

    14919

    瀏覽量

    180397
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    理想汽車發(fā)布下一代自動駕駛基礎(chǔ)模型MindVLA-o1

    2026年3月17日,理想汽車基座模型負責人詹錕出席NVIDIA GTC 2026,發(fā)表主題演講《MindVLA-o1:開啟全能范式——下一代統(tǒng)一視覺-語言-動作自動駕駛大模型探索》,發(fā)布
    的頭像 發(fā)表于 03-18 11:51 ?984次閱讀
    <b class='flag-5'>理想</b>汽車發(fā)布下一代<b class='flag-5'>自動駕駛</b>基礎(chǔ)模型<b class='flag-5'>MindVLA-o1</b>

    如何構(gòu)建適合自動駕駛的世界模型?

    提出的。那世界模型是自動駕駛落地的正解嗎? 什么是世界模型? 世界模型對于自動駕駛汽車來說,更像是給汽車大腦里繪制一張地圖,可以將環(huán)境的現(xiàn)狀和未來可能的演變都表示出來,
    的頭像 發(fā)表于 02-18 08:14 ?1.1w次閱讀
    如何構(gòu)建適合<b class='flag-5'>自動駕駛</b>的世界模型?

    Transformer如何自動駕駛大模型獲得思考能力?

    在談及自動駕駛時,Transformer一直是非常關(guān)鍵的技術(shù),為何Transformer在自動駕駛行業(yè)一直被提及?
    的頭像 發(fā)表于 02-01 09:15 ?4262次閱讀

    如何設(shè)計好自動駕駛ODD?

    為確定自動駕駛的可使用范圍,會給自動駕駛設(shè)置一個運行設(shè)計域(Operational Design Domain,ODD)。ODD的作用就是用來明確自動駕駛在什么情況下能工作,在什么情況下不能工作,給車設(shè)定“工作范圍”。
    的頭像 發(fā)表于 01-24 09:27 ?1594次閱讀

    端到端是怎么自動駕駛更像老司機的?

    [首發(fā)于智駕最前沿微信公眾號]如果將自動駕駛的發(fā)展史比作人類的學習歷程,那么在過去很長一段時間里,這個“學生”其實一直都在背誦極其繁瑣的教條。這一階段的自動駕駛系統(tǒng)使用的是模塊化架構(gòu),它的運行高度
    的頭像 發(fā)表于 01-21 09:29 ?245次閱讀
    端到端是怎么<b class='flag-5'>讓</b><b class='flag-5'>自動駕駛</b><b class='flag-5'>更像</b>老司機的?

    汽車行業(yè)迎來L3級自動駕駛上路潮!華為、小鵬、理想搶跑

    近日,國內(nèi)自動駕駛領(lǐng)域接連迎來重大進展!小鵬、理想兩大車企已分別在廣州和北京獲得L3級自動駕駛道路測試牌照,并啟動常態(tài)化道路測試。與此同時,鴻蒙智行也在深圳聯(lián)合相關(guān)部門,開啟了L3級有條件自動
    的頭像 發(fā)表于 12-24 18:08 ?1246次閱讀

    自動駕駛中毫米波雷達到底有何作用?

    毫米波雷達、超聲波雷達等感知硬件,更像是一個配角,成為自動駕駛技術(shù)實現(xiàn)的輔助硬件。那在自動駕駛中毫米波雷達到底有何作用?
    的頭像 發(fā)表于 12-10 17:07 ?1925次閱讀
    <b class='flag-5'>自動駕駛</b>中毫米波雷達到底有何作用?

    不同等級的自動駕駛技術(shù)要求上有何不同?

    談到自動駕駛,不可避免地會涉及到自動駕駛分級,美國汽車工程師學會(SAE)根據(jù)自動駕駛系統(tǒng)與人類駕駛員參與駕駛行為程度的不同,將
    的頭像 發(fā)表于 10-18 10:17 ?2756次閱讀

    卡車、礦車的自動駕駛和乘用車的自動駕駛在技術(shù)要求上有何不同?

    [首發(fā)于智駕最前沿微信公眾號]自動駕駛技術(shù)的發(fā)展,組合輔助駕駛得到大量應(yīng)用,但現(xiàn)在對于自動駕駛技術(shù)的宣傳,普遍是在乘用車領(lǐng)域,而對于卡車、礦車的
    的頭像 發(fā)表于 06-28 11:38 ?1538次閱讀
    卡車、礦車的<b class='flag-5'>自動駕駛</b>和乘用車的<b class='flag-5'>自動駕駛</b>在技術(shù)要求上有何不同?

    自動駕駛安全基石:ODD

    和限制下可以正常工作,是自動駕駛安全的核心概念之一。 ? 對于人類司機來說,在不同的道路上駕駛的能力也有所區(qū)別,比如新手司機在一些窄路、山路,或者交通狀況復(fù)雜的道路上可能會無所適從,也會判斷哪些路自己沒有
    的頭像 發(fā)表于 05-19 03:52 ?6581次閱讀

    AI將如何改變自動駕駛?

    自動駕駛帶來哪些變化?其實AI可以改變自動駕駛技術(shù)的各個環(huán)節(jié),從感知能力的提升到?jīng)Q策框架的優(yōu)化,從安全性能的增強到測試驗證的加速,AI可以自動駕駛從實驗室走向大規(guī)模商業(yè)化。 對于感知
    的頭像 發(fā)表于 05-04 09:58 ?909次閱讀

    自動駕駛大模型中常提的Token是個啥?對自動駕駛有何影響?

    、多模態(tài)傳感器數(shù)據(jù)的實時處理與決策。在這一過程中,大模型以其強大的特征提取、信息融合和預(yù)測能力為自動駕駛系統(tǒng)提供了有力支持。而在大模型的中,有一個“Token”的概念,有些看到后或許會問: Token是個啥?對自動駕駛
    的頭像 發(fā)表于 03-28 09:16 ?1418次閱讀

    NVIDIA Halos自動駕駛汽車安全系統(tǒng)發(fā)布

    NVIDIA 整合了從云端到車端的安全自動駕駛開發(fā)技術(shù)套件,涵蓋車輛架構(gòu)到 AI 模型,包括芯片、軟件、工具和服務(wù)。 物理 AI 正在為自動駕駛和機器開發(fā)技術(shù)的交叉領(lǐng)域釋放新的可能性,尤其是加速了
    的頭像 發(fā)表于 03-25 14:51 ?1217次閱讀