91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Transformer如何讓自動(dòng)駕駛大模型獲得思考能力?

智駕最前沿 ? 來源:智駕最前沿 ? 2026-02-01 09:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛時(shí),Transformer一直是非常關(guān)鍵的技術(shù),為何Transformer在自動(dòng)駕駛行業(yè)一直被提及?先說結(jié)論,Transformer之所以在自動(dòng)駕駛領(lǐng)域被頻繁提到,并被廣泛推崇,主要是因?yàn)檫@種架構(gòu)在處理多源、高維、長(zhǎng)時(shí)序的數(shù)據(jù)時(shí),天然具備很多有利屬性,它能高效建模遠(yuǎn)距離依賴、方便做多模態(tài)融合、易于并行訓(xùn)練、便于做大規(guī)模預(yù)訓(xùn)練與遷移學(xué)習(xí),并且能夠用比較統(tǒng)一的架構(gòu)去承擔(dān)感知、跟蹤、預(yù)測(cè)乃至一部分決策相關(guān)的任務(wù)。今天就和大家詳細(xì)聊一聊Transformer。

Transformer到底是個(gè)啥?

在聊天今天的話題前,一定要先知道什么是Transformer。想象你坐在咖啡館里,觀察窗外的路口交通。你看見一輛車轉(zhuǎn)向、一個(gè)行人停下、一個(gè)信號(hào)燈從綠變黃。要判斷下一秒誰會(huì)先動(dòng),你并不能只看最近一幀畫面,而是把過去幾秒的動(dòng)作、不同交通主體之間的相對(duì)位置、交通燈狀態(tài)、路面線型一起綜合判斷。Transformer的核心思想,就是給模型一種“任意兩個(gè)輸入元素都能直接交流”的能力,Transformer不像傳統(tǒng)模型那樣按時(shí)間順序一個(gè)一個(gè)地“傳遞”信息。這種“直接交流”通過一個(gè)叫做自注意力(self-attention)的機(jī)制實(shí)現(xiàn)。自注意力會(huì)為輸入序列中每個(gè)元素進(jìn)行計(jì)算,其會(huì)思考應(yīng)該更多關(guān)注序列中的哪些其他元素,然后把這些重要的信息“拉過來”整合成對(duì)當(dāng)前元素有用的表示。用更直白的比喻,自注意力像是在一個(gè)討論會(huì)上,任何人都能立刻聽到任何人的發(fā)言并據(jù)此調(diào)整自己的觀點(diǎn),而不是通過一排排人依次傳話。

Transformer在自動(dòng)駕駛中的直觀體現(xiàn)就是每個(gè)輸入(比如一幀圖像里的一個(gè)像素塊、一段雷達(dá)回波、或一幀時(shí)間戳的特征)會(huì)被映射成三類向量,即查詢(query)、鍵(key)和值(value)。查詢用來詢問“我想知道什么”,鍵代表“我這里有什么線索”,值是“實(shí)際要傳的內(nèi)容”。自注意力的核心是把查詢和所有鍵做相似度匹配,得到的權(quán)重再去加權(quán)相應(yīng)的值,得到融合后再進(jìn)行表示。這樣,相似或相關(guān)的信息會(huì)互相增強(qiáng),不相關(guān)的信息權(quán)重會(huì)被壓低。為了解決輸入中沒有明確順序這個(gè)問題(比如文本的詞序很重要,但自注意力本身是無序的),Transformer引入了位置編碼(positionalencoding),把位置信息注入每個(gè)元素的表示中,從而保留時(shí)間或空間順序的線索。

原始Transformer由encoder和decoder兩部分組成,encoder用于把輸入編碼成一組高維表示,decoder則在有條件生成任務(wù)中逐步生成輸出(比如機(jī)器翻譯時(shí)逐詞生成目標(biāo)句子)。但在視覺任務(wù)或者感知任務(wù)里,很多工作簡(jiǎn)化為只用encoder來做特征提取,或者把encoder的思想擴(kuò)展成適配圖片、點(diǎn)云、視頻等輸入的不同變體。與RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))相比,Transformer的一個(gè)顯著工程優(yōu)勢(shì)是并行化,RNN要按時(shí)間步遞歸處理,訓(xùn)練時(shí)無法充分并行;Transformer的自注意力可以在時(shí)間維度或空間維度上并行計(jì)算,使得訓(xùn)練速度在大規(guī)模數(shù)據(jù)集上具有很大優(yōu)勢(shì)。

Transformer在自動(dòng)駕駛中的優(yōu)勢(shì)

在感知層面,自動(dòng)駕駛要解決的是“這里都有什么、在哪兒、可能怎樣移動(dòng)”。傳統(tǒng)視覺檢測(cè)或雷達(dá)處理通?;诰矸e神經(jīng)網(wǎng)絡(luò)(CNN)做局部特征提取,再結(jié)合專門的后處理和啟發(fā)式跟蹤器。Transformer最大的優(yōu)勢(shì)之一是它的全局感受野,在同一層級(jí)上,任意兩個(gè)位置都能建立直接聯(lián)系。這對(duì)識(shí)別遮擋物體、處理長(zhǎng)距離關(guān)聯(lián)(比如遠(yuǎn)處車輛的微小運(yùn)動(dòng)暗示要并線)尤其有用。舉個(gè)例子,當(dāng)攝像頭視角里有近處的樹枝局部遮擋了遠(yuǎn)處行人的一部分,卷積架構(gòu)可能需要很多層才能把遠(yuǎn)處完整的語義信息傳播過來,而自注意力能直接把遠(yuǎn)處行人的完整特征“召回”來補(bǔ)足局部缺失,從而提高檢測(cè)的魯棒性。

在多傳感器融合時(shí),自動(dòng)駕駛系統(tǒng)通常需要把攝像頭、激光雷達(dá)(LiDAR)、毫米波雷達(dá)、慣導(dǎo)信息等合并在一起。傳統(tǒng)方法往往先把每個(gè)傳感器做獨(dú)立的特征提取,再用規(guī)則或淺層網(wǎng)絡(luò)融合。Transformer提供了一種更自然的融合方式,把各傳感器的特征統(tǒng)一看作一組“token”,讓自注意力機(jī)制學(xué)習(xí)不同模態(tài)之間的相互關(guān)系。它可以自動(dòng)決定什么時(shí)候把視覺信息作為主導(dǎo)、什么時(shí)候把雷達(dá)的距離精確性作為主導(dǎo),而不必人為設(shè)定哪個(gè)模態(tài)權(quán)重更高。這在復(fù)雜天氣或光照變化時(shí)尤其重要,比如霧天攝像頭信息退化,但雷達(dá)和LiDAR仍保留可靠線索,Transformer能在訓(xùn)練中學(xué)到如何在這些條件下動(dòng)態(tài)調(diào)整注意力分配。

時(shí)間序列和預(yù)測(cè)是自動(dòng)駕駛的另一個(gè)核心任務(wù),自動(dòng)駕駛汽車不僅要看當(dāng)前的世界,還要預(yù)測(cè)幾秒內(nèi)周圍交通主體的軌跡以便做決策。RNN可以處理時(shí)間序列,但其長(zhǎng)時(shí)依賴建模能力有限且訓(xùn)練不易并行;傳統(tǒng)滑窗特征+卷積的方式也會(huì)忽略遠(yuǎn)端時(shí)刻對(duì)當(dāng)前決策的影響。Transformer的自注意力天然擅長(zhǎng)建模長(zhǎng)距離依賴,它能把幾秒鐘甚至幾十幀的數(shù)據(jù)放在一起,讓模型從整個(gè)歷史中挑出對(duì)當(dāng)前預(yù)測(cè)最有用的信息。比如一輛車在過去幾秒里已經(jīng)在做微小偏移,這種趨勢(shì)信息可能對(duì)預(yù)測(cè)它未來的并線非常關(guān)鍵,Transformer可以直接把這些早期的微小信號(hào)與最近幀結(jié)合起來,得出更可靠的預(yù)測(cè)結(jié)果。

端到端與簡(jiǎn)化流水線也是Transformer受歡迎的一個(gè)原因。傳統(tǒng)自動(dòng)駕駛感知往往是“分而治之”,先檢測(cè)、再跟蹤、再分割、再預(yù)測(cè)、再規(guī)劃,每一步都有獨(dú)立模塊和復(fù)雜的中間表示。Transformer提供了把多個(gè)任務(wù)統(tǒng)一到一個(gè)網(wǎng)絡(luò)或一個(gè)通用骨干上的可能。自注意力可以在同一張表示上同時(shí)輸出檢測(cè)框、跟蹤ID、語義分割和預(yù)測(cè)向量,這樣的統(tǒng)一性在減少工程接口、降低錯(cuò)誤累積與便于端到端優(yōu)化上有明顯優(yōu)勢(shì)。當(dāng)然,這并不意味著所有場(chǎng)景都能完全丟掉模塊化,但統(tǒng)一架構(gòu)確實(shí)提供了更干凈的優(yōu)化目標(biāo)和更少的手工規(guī)則。

Transformer還有一個(gè)優(yōu)勢(shì)就是可擴(kuò)展性與預(yù)訓(xùn)練生態(tài)。Transformer在NLP領(lǐng)域已經(jīng)證明,大模型加大數(shù)據(jù)、再加上預(yù)訓(xùn)練-微調(diào)的套路,能把通用表示變成下游任務(wù)上的非常有用的起點(diǎn)。把類似思路移植到視覺和多模態(tài)上,自動(dòng)駕駛領(lǐng)域可以利用大規(guī)模的模擬數(shù)據(jù)、未標(biāo)注的視頻、合成點(diǎn)云等做自監(jiān)督預(yù)訓(xùn)練,然后把預(yù)訓(xùn)練得到的網(wǎng)絡(luò)在標(biāo)注數(shù)據(jù)上微調(diào),往往能極大提升樣本效率和魯棒性。對(duì)于實(shí)際廠商來說,這意味著能把大量“無標(biāo)簽”或“弱標(biāo)簽”數(shù)據(jù)變成有價(jià)值的信息,減少昂貴人工標(biāo)注的依賴。

Transformer的并行化特性讓訓(xùn)練速度和硬件利用率在現(xiàn)代加速器(GPU/TPU)上表現(xiàn)更好。RNN那種需要按時(shí)間順序處理的設(shè)計(jì)在大數(shù)據(jù)訓(xùn)練時(shí)效率受限,而Transformer在時(shí)間或空間維度上可并行計(jì)算,自然能更好地縮短訓(xùn)練周期,尤其在做大規(guī)模預(yù)訓(xùn)練時(shí),這個(gè)優(yōu)勢(shì)非常明顯。再者,Transformer的模塊化(attention層+前饋層)也比較容易做模型并行和流水線切分,便于擴(kuò)展到數(shù)億、數(shù)十億參數(shù)的模型。

除了這些“能力層面”的優(yōu)點(diǎn),Transformer在模型可解釋性上也帶來一些機(jī)會(huì)。雖然attention并不是完美的解釋工具,但注意力權(quán)重常被用來觀察模型關(guān)注的區(qū)域,這在調(diào)試感知失敗或理解模型在特定場(chǎng)景下為何犯錯(cuò)時(shí)很有幫助。比如模型誤判一個(gè)靜止物體為行人時(shí),通過看attention可以發(fā)現(xiàn)模型更關(guān)注了某個(gè)背景區(qū)域或反光點(diǎn),從而為后續(xù)修正提供線索。

在配合自動(dòng)駕駛汽車感知環(huán)境時(shí),Transformer最顯著的工程價(jià)值體現(xiàn)在那些需要全局信息、跨模態(tài)關(guān)聯(lián)或長(zhǎng)時(shí)依賴的任務(wù)上。比如多目標(biāo)跟蹤與聯(lián)合檢測(cè)跟蹤,把檢測(cè)與跟蹤放在同一個(gè)注意力機(jī)制下能顯著減少錯(cuò)誤聯(lián)動(dòng);軌跡預(yù)測(cè)問題中把歷史軌跡、地圖語義、鄰車交互都作為token一起建模,能更自然地捕捉交互規(guī)律;BEV(鳥瞰視角)感知中,Transformer有助于把多攝像頭、稀疏LiDAR投影在同一BEV空間時(shí)進(jìn)行統(tǒng)一建模,從而得到一致性的場(chǎng)景理解。簡(jiǎn)而言之,當(dāng)問題需要把分散信息匯聚成一個(gè)統(tǒng)一視圖并推理相互關(guān)系時(shí),Transformer通常會(huì)是一個(gè)強(qiáng)有力的選擇。

Transformer存在哪些不足?

一直在說Transformer的優(yōu)勢(shì),那它是否有什么不足?標(biāo)準(zhǔn)的自注意力計(jì)算復(fù)雜度隨token數(shù)量平方增長(zhǎng),這對(duì)于高分辨率圖像或細(xì)粒度點(diǎn)云來說會(huì)很快成為瓶頸。現(xiàn)階段常見的解決辦法有兩類,一是進(jìn)行token數(shù)量的約簡(jiǎn),比如把圖片先下采樣、用卷積提取局部特征后再做全局attention,或者用稀疏/局部注意力機(jī)制只在相鄰區(qū)域計(jì)算;二是采用分層結(jié)構(gòu),把注意力限定在局部再跨層傳遞全局信息(類似視覺Transformer的分層變體)。這些折中能在維持Transformer優(yōu)點(diǎn)的同時(shí)控制計(jì)算量,但設(shè)計(jì)和調(diào)參成本會(huì)增加。

Transformer還需要大量數(shù)據(jù)和算力來發(fā)揮最大效益。自動(dòng)駕駛的標(biāo)注數(shù)據(jù)成本很高,且真實(shí)駕駛場(chǎng)景的長(zhǎng)尾問題嚴(yán)重,依賴純監(jiān)督學(xué)習(xí)往往容易過擬合主流場(chǎng)景。為此在實(shí)踐中會(huì)結(jié)合自監(jiān)督學(xué)習(xí)、合成數(shù)據(jù)、強(qiáng)化學(xué)習(xí)的模擬器數(shù)據(jù)等方法來緩解數(shù)據(jù)稀缺問題。預(yù)訓(xùn)練-微調(diào)的策略在這里尤為重要,但如何把通用預(yù)訓(xùn)練和車輛上實(shí)時(shí)運(yùn)行的輕量化模型對(duì)接,是一道難題。

部署時(shí)的延遲和能耗更是很現(xiàn)實(shí)的一個(gè)問題。車輛端對(duì)實(shí)時(shí)性和功耗有硬性要求,尤其在低成本量產(chǎn)車上,不能隨便把數(shù)億參數(shù)的Transformer裝上車。常見的做法是把大模型放在云端或邊緣服務(wù)器做感知/預(yù)測(cè),再把結(jié)果壓縮傳回車端,或者把模型蒸餾成輕量化版本放到車上。每種選擇都有權(quán)衡,云端方案有通信延遲與覆蓋限制,端側(cè)量化/蒸餾會(huì)損失部分精度。

雖然attention提供了某種“可視化”的線索,但它不等于嚴(yán)格可解釋性或安全性保證。在自動(dòng)駕駛這種安全關(guān)鍵場(chǎng)景里,僅僅依靠attention的直觀解釋不足以滿足驗(yàn)證與認(rèn)證的要求。工程上需要額外的驗(yàn)證、魯棒性測(cè)試、形式化方法或冗余系統(tǒng)來保證安全。

自動(dòng)駕駛行業(yè)在把Transformer引入工程時(shí)做了很多適配工作,比如把圖像/點(diǎn)云/雷達(dá)數(shù)據(jù)做成token的方式有很多變體;有的做法先用CNN提取局部特征再把patch-leveltoken輸入Transformer,有的直接把點(diǎn)云切成小塊token;時(shí)間序列通常會(huì)把不同時(shí)間戳的token拼在一起做時(shí)序注意力,或者在空間注意力的基礎(chǔ)上疊加時(shí)間注意力;為了控制復(fù)雜度,也會(huì)采用稀疏注意力、分組注意力、滑動(dòng)窗口注意力等策略。所有這些都突出一個(gè)事實(shí),Transformer是一種非常靈活的“工具箱”,但具體好不好用、怎么用得好,仍然需要工程化的設(shè)計(jì)與大量實(shí)驗(yàn)來調(diào)優(yōu)。

如何讓Transformer實(shí)際應(yīng)用于自動(dòng)駕駛?

在將Transformer應(yīng)用于自動(dòng)駕駛時(shí),我們一定要明確幾點(diǎn)。第一,不要期望把Transformer當(dāng)作“萬能膠”直接替代全部模塊。把Transformer合理地和卷積、圖網(wǎng)絡(luò)、物理先驗(yàn)結(jié)合往往能取得更好的效果。第二,關(guān)注計(jì)算預(yù)算與延遲,在訓(xùn)練階段可以大膽用大模型,但在部署階段要計(jì)劃好蒸餾、量化、剪枝或模型分層部署。第三,充分利用自監(jiān)督與模擬數(shù)據(jù),預(yù)訓(xùn)練在樣本稀缺時(shí)的收益非常明顯,尤其是當(dāng)你能收集到大量未標(biāo)注的行車視頻和傳感器流時(shí)。第四,重視魯棒性測(cè)試,在惡劣天氣、極端光照或傳感器故障情況下做魯棒性驗(yàn)證,不要只看在整潔數(shù)據(jù)集上的平均指標(biāo)。第五,結(jié)合可解釋性工具與冗余設(shè)計(jì)以滿足安全要求,attention可作為調(diào)試起點(diǎn),但要有更嚴(yán)謹(jǐn)?shù)尿?yàn)證流程保障功能安全。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    793

    文章

    14882

    瀏覽量

    179845
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    156

    瀏覽量

    6937
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何構(gòu)建適合自動(dòng)駕駛的世界模型?

    提出的。那世界模型自動(dòng)駕駛落地的正解嗎? 什么是世界模型? 世界模型對(duì)于自動(dòng)駕駛汽車來說,更像是給汽車大腦里繪制一張地圖,可以將環(huán)境的現(xiàn)狀
    的頭像 發(fā)表于 02-18 08:14 ?1w次閱讀
    如何構(gòu)建適合<b class='flag-5'>自動(dòng)駕駛</b>的世界<b class='flag-5'>模型</b>?

    強(qiáng)化學(xué)習(xí)會(huì)自動(dòng)駕駛模型學(xué)習(xí)更快嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛模型訓(xùn)練時(shí),有的技術(shù)方案會(huì)采用模仿學(xué)習(xí),而有些會(huì)采用強(qiáng)化學(xué)習(xí)。同樣作為大模型的訓(xùn)練方式,強(qiáng)化學(xué)習(xí)有何不同?又有什么特點(diǎn)呢? 什么是強(qiáng)化學(xué)習(xí)? 強(qiáng)化
    的頭像 發(fā)表于 01-31 09:34 ?643次閱讀
    強(qiáng)化學(xué)習(xí)會(huì)<b class='flag-5'>讓</b><b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>模型</b>學(xué)習(xí)更快嗎?

    黃仁勛:未來十年很多汽車是自動(dòng)駕駛 英偉達(dá)發(fā)布Alpamayo汽車大模型平臺(tái)

    最看好的AI落地場(chǎng)景就是自動(dòng)駕駛。在演講中黃仁勛提到,未來十年,世界上很大一部分汽車將是自動(dòng)駕駛或高度自動(dòng)駕駛的。你期待嗎? 英偉達(dá)發(fā)布Alpamayo汽車大模型平臺(tái) 英偉達(dá)還推出“全
    的頭像 發(fā)表于 01-06 11:45 ?1090次閱讀

    世界模型自動(dòng)駕駛汽車?yán)斫馐澜邕€是預(yù)測(cè)未來?

    ? [首發(fā)于智駕最前沿微信公眾號(hào)]世界模型自動(dòng)駕駛技術(shù)中已有廣泛應(yīng)用。但當(dāng)談及它對(duì)自動(dòng)駕駛的作用時(shí),難免會(huì)出現(xiàn)分歧。它到底是自動(dòng)駕駛汽車
    的頭像 發(fā)表于 12-16 09:27 ?869次閱讀
    世界<b class='flag-5'>模型</b>是<b class='flag-5'>讓</b><b class='flag-5'>自動(dòng)駕駛</b>汽車?yán)斫馐澜邕€是預(yù)測(cè)未來?

    自動(dòng)駕駛模型中常提的泛化能力是指啥?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在討論自動(dòng)駕駛模型時(shí),常會(huì)有幾個(gè)評(píng)價(jià)維度,如感知是否準(zhǔn)確、決策是否穩(wěn)定、系統(tǒng)是否足夠魯棒,以及模型有沒有“泛化能力”。相比準(zhǔn)確率、延遲這些容易量化的指標(biāo)
    的頭像 發(fā)表于 12-10 09:15 ?597次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b>大<b class='flag-5'>模型</b>中常提的泛化<b class='flag-5'>能力</b>是指啥?

    模型中常提的快慢思考會(huì)對(duì)自動(dòng)駕駛產(chǎn)生什么影響?

    提出的“快慢系統(tǒng)”理論啟發(fā),旨在自動(dòng)駕駛系統(tǒng)模擬人類的思考與決策過程。理想汽車結(jié)合端到端與VLM模型,推出了業(yè)界首個(gè)在車端部署的雙系統(tǒng)方案,并成功將VLM視覺語言
    的頭像 發(fā)表于 11-22 10:59 ?2500次閱讀
    大<b class='flag-5'>模型</b>中常提的快慢<b class='flag-5'>思考</b>會(huì)對(duì)<b class='flag-5'>自動(dòng)駕駛</b>產(chǎn)生什么影響?

    Transformer如何自動(dòng)駕駛變得更聰明?

    ]自動(dòng)駕駛中常提的Transformer本質(zhì)上是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最早在自然語言處理里火起來。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,Transformer能夠自動(dòng)審視所
    的頭像 發(fā)表于 11-19 18:17 ?2273次閱讀

    西井科技端到端自動(dòng)駕駛模型獲得國(guó)際認(rèn)可

    近日,西井科技AI創(chuàng)研團(tuán)隊(duì)在國(guó)際權(quán)威自動(dòng)駕駛算法榜單NAVSIM v2中脫穎而出,憑借創(chuàng)新的端到端自動(dòng)駕駛模型,以綜合得分48.759的成績(jī)榮登榜單全球第二位,并在多個(gè)關(guān)鍵安全指標(biāo)上取得第一,充分彰顯西井科技在
    的頭像 發(fā)表于 10-15 17:20 ?1284次閱讀

    自動(dòng)駕駛Transformer模型會(huì)取代深度學(xué)習(xí)嗎?

    持續(xù)討論。特別是在自動(dòng)駕駛領(lǐng)域,部分廠商開始嘗試將多模態(tài)大模型(MLLM)引入到感知、規(guī)劃與決策系統(tǒng),引發(fā)了“傳統(tǒng)深度學(xué)習(xí)是否已過時(shí)”的激烈爭(zhēng)論。然而,從技術(shù)原理、算力成本、安全需求與實(shí)際落地路徑等維度來看,Transformer
    的頭像 發(fā)表于 08-13 09:15 ?4184次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b>中<b class='flag-5'>Transformer</b>大<b class='flag-5'>模型</b>會(huì)取代深度學(xué)習(xí)嗎?

    卡車、礦車的自動(dòng)駕駛和乘用車的自動(dòng)駕駛在技術(shù)要求上有何不同?

    [首發(fā)于智駕最前沿微信公眾號(hào)]自動(dòng)駕駛技術(shù)的發(fā)展,組合輔助駕駛得到大量應(yīng)用,但現(xiàn)在對(duì)于自動(dòng)駕駛技術(shù)的宣傳,普遍是在乘用車領(lǐng)域,而對(duì)于卡車、礦車的
    的頭像 發(fā)表于 06-28 11:38 ?1387次閱讀
    卡車、礦車的<b class='flag-5'>自動(dòng)駕駛</b>和乘用車的<b class='flag-5'>自動(dòng)駕駛</b>在技術(shù)要求上有何不同?

    自動(dòng)駕駛中常提的世界模型是個(gè)啥?

    對(duì)外部環(huán)境進(jìn)行抽象和建模的技術(shù),自動(dòng)駕駛系統(tǒng)在一個(gè)簡(jiǎn)潔的內(nèi)部“縮影”里,對(duì)真實(shí)世界進(jìn)行描述與預(yù)測(cè),從而為感知、決策和規(guī)劃等關(guān)鍵環(huán)節(jié)提供有力支持。 什么是世界模型? 我們不妨先把“世界模型
    的頭像 發(fā)表于 06-24 08:53 ?1126次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b>中常提的世界<b class='flag-5'>模型</b>是個(gè)啥?

    自動(dòng)駕駛安全基石:ODD

    和限制下可以正常工作,是自動(dòng)駕駛安全的核心概念之一。 ? 對(duì)于人類司機(jī)來說,在不同的道路上駕駛能力也有所區(qū)別,比如新手司機(jī)在一些窄路、山路,或者交通狀況復(fù)雜的道路上可能會(huì)無所適從,人也會(huì)判斷哪些路自己沒有
    的頭像 發(fā)表于 05-19 03:52 ?6418次閱讀

    新能源車軟件單元測(cè)試深度解析:自動(dòng)駕駛系統(tǒng)視角

    。 ?自動(dòng)駕駛軟件的特殊性? ? 感知層: ?激光雷達(dá)、攝像頭等傳感器數(shù)據(jù)處理算法的單元測(cè)試需覆蓋極端場(chǎng)景。例如,激光雷達(dá)點(diǎn)云濾波算法在雨雪天氣下的噪聲抑制能力需通過邊界測(cè)試驗(yàn)證。某廠商曾在測(cè)試中遺漏
    發(fā)表于 05-12 15:59

    模型如何推動(dòng)自動(dòng)駕駛技術(shù)革新?

    [首發(fā)于智駕最前沿微信公眾號(hào)]近年來,人工智能技術(shù)正以前所未有的速度在各個(gè)領(lǐng)域滲透與應(yīng)用,而大模型(大語言模型和多模態(tài)大模型)的迅猛發(fā)展為自動(dòng)駕駛技術(shù)帶來了新的機(jī)遇。傳統(tǒng)的
    的頭像 發(fā)表于 04-20 13:16 ?1022次閱讀
    大<b class='flag-5'>模型</b>如何推動(dòng)<b class='flag-5'>自動(dòng)駕駛</b>技術(shù)革新?

    自動(dòng)駕駛模型中常提的Token是個(gè)啥?對(duì)自動(dòng)駕駛有何影響?

    、多模態(tài)傳感器數(shù)據(jù)的實(shí)時(shí)處理與決策。在這一過程中,大模型以其強(qiáng)大的特征提取、信息融合和預(yù)測(cè)能力自動(dòng)駕駛系統(tǒng)提供了有力支持。而在大模型的中,有一個(gè)“Token”的概念,有些人看到后或許
    的頭像 發(fā)表于 03-28 09:16 ?1336次閱讀