91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自動(dòng)駕駛中常提的VLM是個(gè)啥?與VLA有什么區(qū)別?

智駕最前沿 ? 來(lái)源:智駕最前沿 ? 作者:智駕最前沿 ? 2025-08-06 08:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號(hào)]自動(dòng)駕駛車輛要在復(fù)雜多變的道路環(huán)境中安全行駛,不僅需要“看見(jiàn)”前方的車輛、行人和路面標(biāo)志,還需要“讀懂”交通標(biāo)識(shí)上的文字提示、施工告示牌和乘客的語(yǔ)言指令。之前和大家討論過(guò)VLA,了解到視覺(jué)-語(yǔ)言-動(dòng)作模型,但在很多場(chǎng)景中,大家還會(huì)提到VLM,看起來(lái)與VLA非常類似,那VLM又是個(gè)啥?與VLA(Vision-Language-Action,視覺(jué)-語(yǔ)言-動(dòng)作)又有什么區(qū)別?

wKgZO2iSp_yAHgHwAAAQo00DEvw926.jpg

什么是VLM?

VLM即視覺(jué)-語(yǔ)言模型(Vision–Language Model),是一類讓計(jì)算機(jī)“看懂”圖像和“讀懂”文字能力合二為一的人工智能系統(tǒng),它通過(guò)在同一個(gè)模型中聯(lián)合處理視覺(jué)特征和語(yǔ)言信息,實(shí)現(xiàn)對(duì)圖片或視頻內(nèi)容的深度理解與自然語(yǔ)言互動(dòng)。VLM可以抽取圖像中的物體形狀、顏色、位置甚至動(dòng)作,然后將這些視覺(jué)嵌入與文本嵌入在多模態(tài) Transformer 中融合,讓模型學(xué)會(huì)把“畫(huà)面”映射成語(yǔ)義概念,再通過(guò)語(yǔ)言解碼器生成符合人類表達(dá)習(xí)慣的文字描述、回答問(wèn)題或創(chuàng)作故事。通俗來(lái)說(shuō),VLM 就像擁有視覺(jué)和語(yǔ)言雙重感官的“大腦”,能夠在看到一張照片后,不僅識(shí)別出里面的貓狗、車輛或建筑,還能用一句話或一段話把它們生動(dòng)地說(shuō)出來(lái),大大提升了 AI 在圖文檢索、輔助寫作、智能客服和機(jī)器人導(dǎo)航等場(chǎng)景中的實(shí)用價(jià)值。

wKgZO2iSp_2AEyOtAAAR42n7O-I853.jpg

如何讓VLM高效工作?

VLM可以將一幀原始的道路圖像轉(zhuǎn)換為計(jì)算機(jī)能處理的特征表示。這一過(guò)程通常由視覺(jué)編碼器完成,主流方案包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)和近年來(lái)興起的視覺(jué)Transformer(ViT)。它們會(huì)對(duì)圖像進(jìn)行分層處理,提取出道路紋理、車輛輪廓、行人形狀以及路牌文字等多種視覺(jué)特征,并將它們編碼為向量形式。語(yǔ)言編碼器和語(yǔ)言解碼器則負(fù)責(zé)處理自然語(yǔ)言的輸入與輸出,也采用基于Transformer的架構(gòu),將文字拆分為Token,然后學(xué)習(xí)各個(gè)Token之間的語(yǔ)義關(guān)聯(lián),并能夠根據(jù)給定的向量特征生成連貫的語(yǔ)言描述。

將視覺(jué)編碼器得到的圖像特征和語(yǔ)言模塊進(jìn)行對(duì)齊是VLM的關(guān)鍵所在。常見(jiàn)的做法是通過(guò)跨模態(tài)注意力(cross-attention)機(jī)制,讓語(yǔ)言解碼器在生成每個(gè)文字Token時(shí),能夠自動(dòng)關(guān)注到圖像中與該文字最相關(guān)的區(qū)域。比如在識(shí)別“前方施工,請(qǐng)減速慢行”這句話時(shí),模型會(huì)在圖像中著重關(guān)注黃色施工標(biāo)志、交通錐或挖掘機(jī)等顯著區(qū)域,從而保證生成的文字與實(shí)際場(chǎng)景高度一致。整個(gè)系統(tǒng)可以端到端聯(lián)合訓(xùn)練,也就是說(shuō)模型的損失函數(shù)會(huì)同時(shí)考慮視覺(jué)特征提取的準(zhǔn)確性和語(yǔ)言生成的流暢性,通過(guò)不斷迭代,將兩者的性能共同提升。

為了讓VLM更好地適應(yīng)自動(dòng)駕駛的特殊場(chǎng)景,訓(xùn)練過(guò)程通常分為預(yù)訓(xùn)練和微調(diào)兩個(gè)階段。在預(yù)訓(xùn)練階段,會(huì)利用海量的網(wǎng)絡(luò)圖文,比如從互聯(lián)網(wǎng)收集的大規(guī)模圖片和對(duì)應(yīng)的標(biāo)題、說(shuō)明文字,讓模型先掌握通用的視覺(jué)-語(yǔ)言對(duì)應(yīng)關(guān)系。這一階段的目標(biāo)是讓模型具備跨領(lǐng)域的基本能力,能識(shí)別多種物體、理解常見(jiàn)場(chǎng)景、生成自然表達(dá)。隨后,進(jìn)入微調(diào)階段,需要采集自動(dòng)駕駛專屬的數(shù)據(jù)集,這其中包括各種道路類型(城市道路、高速公路、鄉(xiāng)村公路)、多種天氣條件(晴天、雨雪、夜晚)、不同交通設(shè)施(施工區(qū)域、隧道、十字路口)等場(chǎng)景下的圖像,并配以專業(yè)標(biāo)注的文字描述。通過(guò)這種有針對(duì)性的訓(xùn)練,模型才能在實(shí)際行駛中精準(zhǔn)識(shí)別交通標(biāo)志上的文字信息,并及時(shí)生成符合交通法規(guī)和行駛安全的提示語(yǔ)。

在實(shí)際應(yīng)用中,VLM能夠支持多種智能化功能。首先是實(shí)時(shí)場(chǎng)景提示。當(dāng)車輛行駛在突遇施工、積水、落石等危險(xiǎn)區(qū)域時(shí),VLM會(huì)識(shí)別路面狀況,結(jié)合圖像中出現(xiàn)的施工標(biāo)志、警示牌或水坑輪廓,自動(dòng)生成“前方道路施工,請(qǐng)?zhí)崆皽p速”或“前方積水較深,請(qǐng)繞行”的自然語(yǔ)言提示,并將該提示通過(guò)儀表盤或車載語(yǔ)音播報(bào)給駕駛員。其次是交互式語(yǔ)義問(wèn)答。乘客可通過(guò)語(yǔ)音助手詢問(wèn)“前方哪條車道最快?”、“我還能在下一個(gè)路口右轉(zhuǎn)嗎?”等問(wèn)題,系統(tǒng)會(huì)將語(yǔ)音轉(zhuǎn)文字后,結(jié)合當(dāng)前圖像和地圖數(shù)據(jù),利用VLM回答“從左側(cè)車道行駛可避開(kāi)前方擁堵,請(qǐng)注意車距”或“前方禁止右轉(zhuǎn),請(qǐng)繼續(xù)直行”之類的文字回復(fù)。再者,VLM還可對(duì)路標(biāo)與路牌文字識(shí)別,它不僅對(duì)交通標(biāo)志的圖形進(jìn)行分類,還能識(shí)別標(biāo)志牌上的文字信息,將“限高3.5米”“禁止掉頭”“施工中”等信息結(jié)構(gòu)化地傳遞給決策模塊。

為了讓VLM在車載環(huán)境中實(shí)時(shí)運(yùn)行,通常會(huì)采用“邊緣-云協(xié)同”架構(gòu)。在云端完成大規(guī)模預(yù)訓(xùn)練和定期微調(diào),將性能最優(yōu)的模型權(quán)重通過(guò)OTA(Over-The-Air)下發(fā)到車載單元;車載單元部署經(jīng)過(guò)剪枝、量化和蒸餾等技術(shù)優(yōu)化后的輕量級(jí)推理模型,依托車載GPU或NPU在毫秒級(jí)別內(nèi)完成圖像與語(yǔ)言的聯(lián)合推理。對(duì)于對(duì)時(shí)延要求極高的安全提示,優(yōu)先使用本地推理結(jié)果;對(duì)于更加復(fù)雜的非安全場(chǎng)景分析,如行程總結(jié)或高級(jí)報(bào)告,則可異步將數(shù)據(jù)上傳云端進(jìn)行深度處理。

數(shù)據(jù)標(biāo)注與質(zhì)量保障是VLM部署的另一大關(guān)鍵。標(biāo)注團(tuán)隊(duì)需要在不同光照、天氣、道路類型條件下采集多視角、多樣本圖像,并為每張圖像配備詳盡的文字描述。如對(duì)一張高速路施工場(chǎng)景的圖像,不僅要框選出施工車輛、路障和交通錐,還要撰寫“前方高速公路正在施工,左側(cè)車道封閉,請(qǐng)向右變道并減速至60公里/小時(shí)以內(nèi)”的自然語(yǔ)言說(shuō)明。為了保證標(biāo)注一致性,通常會(huì)進(jìn)行多輪審核和校驗(yàn),并引入弱監(jiān)督策略對(duì)大量未標(biāo)注圖像生成偽標(biāo)簽,降低人工成本的同時(shí)保持?jǐn)?shù)據(jù)多樣性與標(biāo)注質(zhì)量。

安全性與魯棒性是自動(dòng)駕駛的核心要求。當(dāng)VLM在雨雪、霧霾或復(fù)雜光照條件下出現(xiàn)識(shí)別錯(cuò)誤時(shí),系統(tǒng)必須迅速評(píng)估其不確定性,并及時(shí)采取冗余措施。常見(jiàn)做法有利用模型集成(Ensemble)或貝葉斯深度學(xué)習(xí)(BayesianDL)計(jì)算輸出置信度,當(dāng)置信度低于閾值時(shí),系統(tǒng)退回至傳統(tǒng)多傳感器融合感知結(jié)果,或提示駕駛員手動(dòng)接管。與此同時(shí),跨模態(tài)注意力的可解釋性工具能夠幫助在事故復(fù)盤時(shí)追蹤模型的決策過(guò)程,明確模型為何在某一幀圖像中生成特定提示,從而為系統(tǒng)迭代和責(zé)任認(rèn)定提供依據(jù)。

隨著大語(yǔ)言模型(LLM)和大視覺(jué)模型(LVM)的持續(xù)發(fā)展,VLM將在多模態(tài)融合、知識(shí)更新和人機(jī)協(xié)同方面取得更大突破。系統(tǒng)不僅能處理攝像頭圖像,還會(huì)整合雷達(dá)、LiDAR和V2X(Vehicle-to-Everything)數(shù)據(jù),使得對(duì)車輛周邊環(huán)境的感知更為全面;同時(shí)將實(shí)時(shí)獲取的交通法規(guī)更新、路政公告和氣象預(yù)報(bào)輸入語(yǔ)言模型,為車輛決策和提示提供最新背景知識(shí);在交互方式上,乘客可通過(guò)語(yǔ)音、手勢(shì)和觸摸屏多模態(tài)聯(lián)合輸入,獲取更加自然、有效的行駛建議。

wKgZPGiSp_6AD-vSAAASG3BOmsQ338.jpg

VLA與VLM有何差別?

VLA與VLM都是大模型的重要技術(shù),那兩者又有何區(qū)別?VLA和VLM雖然都屬于多模態(tài)大模型體系,但在模型架構(gòu)、目標(biāo)任務(wù)、輸出類型和應(yīng)用場(chǎng)景上其實(shí)存在根本差異。VLM主要解決的是圖像與語(yǔ)言之間的關(guān)聯(lián)問(wèn)題,其核心能力是對(duì)圖像進(jìn)行語(yǔ)義理解,并通過(guò)語(yǔ)言表達(dá)這種理解,輸出形式通常是自然語(yǔ)言,例如圖像描述、視覺(jué)問(wèn)答、圖文匹配、圖文生成等,代表任務(wù)包括“這張圖里有什么?”“這個(gè)圖和這段話是否匹配?”等,廣泛應(yīng)用于AI助手、搜索引擎、內(nèi)容生成和信息提取等領(lǐng)域。

VLA則是VLM的進(jìn)一步擴(kuò)展,它不僅需要理解圖像中的視覺(jué)信息和語(yǔ)言指令,還要將兩者融合后生成可執(zhí)行的動(dòng)作決策,輸出不再是文本,而是物理控制信號(hào)或動(dòng)作計(jì)劃,例如加速、剎車、轉(zhuǎn)彎等。因此,VLA模型不僅承擔(dān)感知和理解任務(wù),還需要完成行為決策和動(dòng)作控制,是面向真實(shí)世界“感知—認(rèn)知—執(zhí)行”閉環(huán)系統(tǒng)的關(guān)鍵技術(shù),其典型應(yīng)用包括自動(dòng)駕駛、機(jī)器人導(dǎo)航、智能操作臂等??梢哉f(shuō),VLM是“看懂+說(shuō)清楚”,而VLA是“看懂+聽(tīng)懂+做對(duì)”,前者更偏向信息理解與表達(dá),后者則更聚焦智能體的自主行為能力和決策執(zhí)行能力。

wKgZO2iSp_6AXB8kAAASAJELks8178.jpg

最后的話

視覺(jué)-語(yǔ)言模型通過(guò)將圖像感知與自然語(yǔ)言處理相結(jié)合,為自動(dòng)駕駛系統(tǒng)提供了更豐富、更靈活的語(yǔ)義層面支持。它不僅能幫助車輛“看懂”復(fù)雜的道路場(chǎng)景,還能用“看得懂”的自然語(yǔ)言與人類駕駛員或乘客進(jìn)行高效交互。盡管在模型體積、實(shí)時(shí)性、數(shù)據(jù)標(biāo)注與安全保障等方面仍面臨挑戰(zhàn),但隨著算法優(yōu)化、邊緣計(jì)算與車聯(lián)網(wǎng)技術(shù)的不斷進(jìn)步,VLM定將成為推動(dòng)智能駕駛進(jìn)入“感知-理解-決策”一體化時(shí)代的關(guān)鍵引擎,為未來(lái)出行帶來(lái)更高的安全性和舒適性。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    794

    文章

    14893

    瀏覽量

    180099
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    已有VLM,自動(dòng)駕駛為什么還要探索VLA?

    [首發(fā)于智駕最前沿微信公眾號(hào)]自動(dòng)駕駛技術(shù)正處于發(fā)展的轉(zhuǎn)折點(diǎn)。過(guò)去十幾年間,行業(yè)長(zhǎng)期依賴模塊化的技術(shù)路徑,即將駕駛任務(wù)拆解為感知、預(yù)測(cè)、規(guī)劃和控制四個(gè)獨(dú)立環(huán)節(jié)。這種結(jié)構(gòu)雖然清晰,但在面對(duì)突發(fā)狀況
    的頭像 發(fā)表于 02-03 09:04 ?229次閱讀
    已有<b class='flag-5'>VLM</b>,<b class='flag-5'>自動(dòng)駕駛</b>為什么還要探索<b class='flag-5'>VLA</b>?

    VLA能解決自動(dòng)駕駛中的哪些問(wèn)題?

    、語(yǔ)言表達(dá)和動(dòng)作控制這三者整合到一個(gè)統(tǒng)一的模型框架中。 與傳統(tǒng)自動(dòng)駕駛系統(tǒng)將感知、預(yù)測(cè)、規(guī)劃、控制拆解為多個(gè)獨(dú)立模塊的做法不同,VLA可以縮短“看見(jiàn)什么”和“如何行動(dòng)”之間的鴻溝,構(gòu)建一個(gè)
    的頭像 發(fā)表于 11-25 08:53 ?500次閱讀
    <b class='flag-5'>VLA</b>能解決<b class='flag-5'>自動(dòng)駕駛</b>中的哪些問(wèn)題?

    大模型中常的快慢思考會(huì)對(duì)自動(dòng)駕駛產(chǎn)生什么影響?

    2024年7月,理想汽車發(fā)布的基于端到端模型、VLM視覺(jué)語(yǔ)言模型和世界模型的全新自動(dòng)駕駛技術(shù)架構(gòu)標(biāo)志著其全棧自研的智能駕駛研發(fā)進(jìn)入了新階段。該架構(gòu)的算法原型創(chuàng)新性地受到了諾貝爾獎(jiǎng)得主丹尼爾·卡尼曼
    的頭像 發(fā)表于 11-22 10:59 ?2513次閱讀
    大模型<b class='flag-5'>中常</b><b class='flag-5'>提</b>的快慢思考會(huì)對(duì)<b class='flag-5'>自動(dòng)駕駛</b>產(chǎn)生什么影響?

    自動(dòng)駕駛上常VLA與世界模型什么區(qū)別?

    自動(dòng)駕駛中常VLA,全稱是Vision-Language-Action,直譯就是“視覺(jué)-語(yǔ)言-動(dòng)作”。VLA的目標(biāo)是把相機(jī)或傳感器看到的
    的頭像 發(fā)表于 10-18 10:15 ?1175次閱讀

    自動(dòng)駕駛中常的“專家數(shù)據(jù)”是個(gè)?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛時(shí),經(jīng)常會(huì)聽(tīng)到一個(gè)概念,那便是“專家數(shù)據(jù)”。專家數(shù)據(jù),說(shuō)白了就是“按理應(yīng)該這么做”的那類示范數(shù)據(jù)。它不是隨機(jī)抓來(lái)的日志,也不是隨便標(biāo)注的標(biāo)簽,而是來(lái)源可靠
    的頭像 發(fā)表于 10-09 09:33 ?656次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“專家數(shù)據(jù)”是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?

    自動(dòng)駕駛中常的ODD是個(gè)?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛中,經(jīng)常會(huì)聽(tīng)到一個(gè)概念,那就是ODD。所謂ODD,全稱為Operational Design Domain,中文常譯為“運(yùn)行設(shè)計(jì)域”或者“作業(yè)域”。直觀一點(diǎn)
    的頭像 發(fā)表于 09-22 09:04 ?914次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的ODD是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?

    自動(dòng)駕駛中常的硬件在環(huán)是個(gè)?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛技術(shù)時(shí),經(jīng)常會(huì)提及一個(gè)技術(shù),那就是硬件在環(huán),所謂的硬件在環(huán)是個(gè)?對(duì)于自動(dòng)駕駛來(lái)說(shuō)
    的頭像 發(fā)表于 08-14 08:54 ?1281次閱讀

    自動(dòng)駕駛中常的RTK是個(gè)?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛關(guān)鍵技術(shù)時(shí),經(jīng)常會(huì)聽(tīng)到一個(gè)技術(shù),那就是RTK,很多人看到RTK后一定會(huì)想,這到底是個(gè)技術(shù)?為啥這個(gè)技術(shù)很少在發(fā)布會(huì)上看到,但對(duì)于
    的頭像 發(fā)表于 08-10 10:35 ?1168次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的RTK是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?

    自動(dòng)駕駛中常的慣性導(dǎo)航系統(tǒng)是個(gè)?可以不用嗎?

    每次提到自動(dòng)駕駛硬件時(shí),大家可能第一反應(yīng)想到的是激光雷達(dá)、車載攝像頭、毫米波雷達(dá)等,但想要讓自動(dòng)駕駛車輛實(shí)際落地,個(gè)硬件也非常重要,那就是慣性導(dǎo)航系統(tǒng)。在很多討論
    的頭像 發(fā)表于 07-24 18:12 ?1955次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的慣性導(dǎo)航系統(tǒng)是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?可以不用嗎?

    自動(dòng)駕駛中常的高精度地圖是個(gè)?何審查要求?

    不僅在空間分辨率和數(shù)據(jù)豐富度上有質(zhì)的飛躍,還在數(shù)據(jù)處理與安全管理方面提出了更嚴(yán)格的規(guī)范。那高精度地圖到底是個(gè)?是否什么具體需求? 高精度地圖,顧名思義,是一種面向自動(dòng)駕駛的高分辨率
    的頭像 發(fā)表于 07-03 19:29 ?1020次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的高精度地圖是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?<b class='flag-5'>有</b>何審查要求?

    自動(dòng)駕駛中常的世界模型是個(gè)?

    對(duì)外部環(huán)境進(jìn)行抽象和建模的技術(shù),讓自動(dòng)駕駛系統(tǒng)在一個(gè)簡(jiǎn)潔的內(nèi)部“縮影”里,對(duì)真實(shí)世界進(jìn)行描述與預(yù)測(cè),從而為感知、決策和規(guī)劃等關(guān)鍵環(huán)節(jié)提供有力支持。 什么是世界模型? 我們不妨先把“世界模型”想象成一種“數(shù)字化的地
    的頭像 發(fā)表于 06-24 08:53 ?1149次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的世界模型是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?

    自動(dòng)駕駛中常的HMI是個(gè)?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛汽車領(lǐng)域,HMI(Human–Machine Interface,人機(jī)交互界面)正成為很多車企相互競(jìng)爭(zhēng)的一大領(lǐng)域。之所以如此,是因?yàn)樵谲囕v從“人控”過(guò)渡到“機(jī)
    的頭像 發(fā)表于 06-22 13:21 ?2354次閱讀

    自動(dòng)駕駛中常的“點(diǎn)云”是個(gè)?

    ?對(duì)自動(dòng)駕駛何影響? 點(diǎn)云是個(gè)? 點(diǎn)云(Point Cloud)是一種在三維空間中由大量離散點(diǎn)組成的數(shù)據(jù)集合,每個(gè)點(diǎn)包含自身的笛卡爾坐
    的頭像 發(fā)表于 05-21 09:04 ?1168次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“點(diǎn)云”是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?

    自動(dòng)駕駛中常的“NOA”是個(gè)?

    近年來(lái),自動(dòng)駕駛技術(shù)發(fā)展迅速,業(yè)界不斷探索如何在復(fù)雜交通場(chǎng)景中實(shí)現(xiàn)真正的無(wú)人駕駛。城市NOA作為自動(dòng)駕駛的一項(xiàng)前沿技術(shù),正成為各大廠商相互爭(zhēng)奪的關(guān)鍵技術(shù)。 何為NOA? NOA,全稱
    的頭像 發(fā)表于 04-09 09:03 ?3136次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“NOA”是<b class='flag-5'>個(gè)</b><b class='flag-5'>啥</b>?

    自動(dòng)駕駛大模型中常的Token是個(gè)?對(duì)自動(dòng)駕駛何影響?

    、多模態(tài)傳感器數(shù)據(jù)的實(shí)時(shí)處理與決策。在這一過(guò)程中,大模型以其強(qiáng)大的特征提取、信息融合和預(yù)測(cè)能力為自動(dòng)駕駛系統(tǒng)提供了有力支持。而在大模型的中,個(gè)“Token”的概念,有些人看到后或許會(huì)問(wèn): Token是
    的頭像 發(fā)表于 03-28 09:16 ?1365次閱讀