91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

地平線11篇論文強(qiáng)勢(shì)入選CVPR 2026

地平線HorizonRobotics ? 來(lái)源:地平線 ? 2026-03-18 15:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,計(jì)算機(jī)視覺(jué)與模式識(shí)別領(lǐng)域國(guó)際頂會(huì)CVPR 2026 (IEEE/CVF Conference on Computer Vision and Pattern Recognition) 正式公布論文收錄結(jié)果。地平線憑借深厚的技術(shù)積淀與前瞻的科研布局,共有11篇論文成功入選,覆蓋端到端自動(dòng)駕駛、3D重建、世界模型、具身智能等多個(gè)核心領(lǐng)域,充分彰顯地平線在前沿技術(shù)領(lǐng)域的頂尖研發(fā)水平。

CVPR如同連接學(xué)術(shù)與產(chǎn)業(yè)的 “黃金橋梁”,一端錨定前沿理論的創(chuàng)新高地,另一端銜接產(chǎn)業(yè)落地的實(shí)踐沃土,讓實(shí)驗(yàn)室里的技術(shù)構(gòu)想,通過(guò)這座橋梁轉(zhuǎn)化為賦能千行百業(yè)的實(shí)際價(jià)值。作為全球計(jì)算機(jī)視覺(jué)領(lǐng)域的頂級(jí)會(huì)議,CVPR每年吸引全球超萬(wàn)份高質(zhì)量論文投稿,僅有少數(shù)兼具創(chuàng)新性與實(shí)用性的研究成果能夠脫穎而出。

本文將分享地平線此次入選的11篇研發(fā)工作。

基于歸一化殘差軌跡建模的端到端自動(dòng)駕駛新范式

? 論文題目

ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving

?論文鏈接

https://arxiv.org/abs/2510.08562

? 項(xiàng)目主頁(yè):

https://duckyee728.github.io/ResAD

端到端自動(dòng)駕駛 (E2EAD) 系統(tǒng)因軌跡數(shù)據(jù)固有的時(shí)空不平衡性,面臨模型易學(xué)習(xí)虛假關(guān)聯(lián)、優(yōu)化過(guò)程過(guò)度關(guān)注遠(yuǎn)距離不確定預(yù)測(cè)而犧牲即時(shí)安全的核心難題。針對(duì)上述問(wèn)題,地平線提出ResAD,為E2EAD打造了全新的軌跡預(yù)測(cè)范式,核心創(chuàng)新點(diǎn)與技術(shù)突破體現(xiàn)在重構(gòu)學(xué)習(xí)任務(wù)、優(yōu)化目標(biāo)加權(quán)、實(shí)現(xiàn)高效多模態(tài)規(guī)劃三大維度,大幅簡(jiǎn)化了模型學(xué)習(xí)難度并提升規(guī)劃性能。

827fd76e-21e9-11f1-90a1-92fbcf53809c.png

ResAD摒棄直接預(yù)測(cè)未來(lái)軌跡的傳統(tǒng)思路,先基于自車(chē)當(dāng)前狀態(tài)通過(guò)恒速模型生成慣性參考軌跡這一穩(wěn)健的物理先驗(yàn),將學(xué)習(xí)任務(wù)重構(gòu)為預(yù)測(cè)實(shí)際軌跡相對(duì)該參考的殘差偏差,迫使模型聚焦于學(xué)習(xí)由交通規(guī)則、障礙物等場(chǎng)景上下文驅(qū)動(dòng)的必要修正,而非從頭學(xué)習(xí)復(fù)雜的時(shí)空動(dòng)力學(xué),從根源上避免虛假關(guān)聯(lián)的學(xué)習(xí)。針對(duì)長(zhǎng)時(shí)程預(yù)測(cè)的不確定性導(dǎo)致的優(yōu)化失衡問(wèn)題,提出逐點(diǎn)殘差歸一化 (PRNorm) 技術(shù),對(duì)預(yù)測(cè)殘差進(jìn)行分量級(jí)歸一化并重新加權(quán)優(yōu)化目標(biāo),有效解決了遠(yuǎn)距離航點(diǎn)的大幅誤差主導(dǎo)學(xué)習(xí)信號(hào)的問(wèn)題,保障了近場(chǎng)安全關(guān)鍵微調(diào)的精準(zhǔn)捕捉。同時(shí),設(shè)計(jì)慣性參考擾動(dòng) (IRP) 策略,通過(guò)對(duì)自車(chē)初始速度添加隨機(jī)擾動(dòng)生成多樣化的慣性參考,無(wú)需依賴靜態(tài)預(yù)定義軌跡詞匯表,即可生成符合場(chǎng)景上下文的多模態(tài)軌跡假設(shè),結(jié)合自研的軌跡排序器實(shí)現(xiàn)最優(yōu)軌跡篩選,突破了傳統(tǒng)多模態(tài)規(guī)劃效率低、軌跡可行性差的局限。

ResAD通過(guò)從任務(wù)本質(zhì)重構(gòu)E2EAD的軌跡預(yù)測(cè)邏輯,成功解決了原始軌跡數(shù)據(jù)的時(shí)空不平衡難題,為端到端自動(dòng)駕駛構(gòu)建了更魯棒、穩(wěn)定且可擴(kuò)展的技術(shù)基礎(chǔ),相關(guān)代碼將開(kāi)源以推動(dòng)后續(xù)研究。

用測(cè)試時(shí)訓(xùn)練補(bǔ)上全局上下文

邁向公里級(jí)三維重建

? 論文題目

Scal3R: Scalable Test-Time Training for Feed-forward Large-Scale 3D Reconstruction

大規(guī)模長(zhǎng)序列三維重建在自動(dòng)駕駛、機(jī)器人建圖、數(shù)字孿生等場(chǎng)景中具有重要應(yīng)用價(jià)值,但現(xiàn)有方法在“規(guī)?!迸c“精度”之間始終存在明顯矛盾:以VGGT為代表的feed-forward幾何模型雖然具備很強(qiáng)的局部重建能力,卻受限于注意力的二次復(fù)雜度,難以直接擴(kuò)展到超長(zhǎng)序列和公里級(jí)場(chǎng)景;FastVGGT通過(guò)token壓縮換取更高效率,卻不可避免地?fù)p失細(xì)粒度幾何信息和長(zhǎng)程依賴;VGGT-Long則依賴chunk切分與后期對(duì)齊來(lái)處理長(zhǎng)序列,但由于缺乏真正的全局上下文共享,模型對(duì)局部預(yù)測(cè)誤差高度敏感,容易在跨chunk重建中積累不一致,影響整體結(jié)構(gòu)穩(wěn)定性。針對(duì)這一核心瓶頸,本文提出Scal3R,將Test-Time Training引入大規(guī)模三維重建過(guò)程,在僅使用RGB輸入的條件下實(shí)現(xiàn)對(duì)長(zhǎng)序列全局上下文的高 效建模,為公里級(jí)場(chǎng)景重建提供了一種兼顧精度、一致性與擴(kuò)展性的全新方案。

82e15926-21e9-11f1-90a1-92fbcf53809c.png

Scal3R的核心創(chuàng)新集中在全局上下文表示與跨chunk上下文同步兩大層面。在全局上下文表示方面,作者提出Global Context Memory (GCM) 機(jī)制,將一組輕量神經(jīng)子網(wǎng)絡(luò)作為可快速適配的“神經(jīng)記憶單元”,掛接在VGGT的全局注意力層后,并通過(guò)自監(jiān)督目標(biāo)在測(cè)試階段在線更新,從而把長(zhǎng)程場(chǎng)景信息壓縮進(jìn)可持續(xù)演化的上下文表示中。與傳統(tǒng)固定長(zhǎng)度 記憶或簡(jiǎn)單緩存不同,這種設(shè)計(jì)顯著提升了模型對(duì)長(zhǎng)程依賴的承載能力,讓局部重建能夠獲得更充分的全局先驗(yàn)。在跨chunk聚合方面,進(jìn)一步提出Global Context Synchronization (GCS) 機(jī)制,將不同chunk、不同設(shè)備上的上下文更新進(jìn)行高效同步,使每個(gè)局部塊在推理時(shí)都能共享來(lái)自全序列的全局信息,緩解傳統(tǒng)chunk-by-chunk方案中常見(jiàn)的跨段 不一致、局部誤差放大以及全局結(jié)構(gòu)松散等問(wèn)題。借助這一設(shè)計(jì),Scal3R不只是把長(zhǎng)序列“切開(kāi)來(lái)算”,而是真正讓全局上下文參與到局部幾何推理之中,從根本上增強(qiáng)了大場(chǎng)景重建的穩(wěn)定性與一致性。

實(shí)驗(yàn)結(jié)果表明,Scal3R在KITTI Odometry、Oxford Spires、Virtual KITTI、ETH3D等多個(gè)大規(guī)?;鶞?zhǔn)上取得了領(lǐng)先的位姿估計(jì)和三維重建表現(xiàn),尤其在長(zhǎng)序列、復(fù)雜視角變化和大尺度場(chǎng)景下,相比現(xiàn)有feed-forward、streaming memory-based方法以及chunk對(duì)齊方案展現(xiàn)出更強(qiáng)的全局一致性與幾何魯棒性。同時(shí),該方法在效率上也保持了較好的實(shí)用性:既避免了長(zhǎng)上下文Transformer常見(jiàn)的顯存膨脹問(wèn)題,也顯著快于依賴重型全局優(yōu)化的傳統(tǒng)SfM流程??傮w來(lái)看,Scal3R將test-time adaptation、長(zhǎng)程上下文建模與大規(guī)模三維幾何推理有機(jī)結(jié)合,為“僅憑RGB實(shí)現(xiàn)高質(zhì)量公里級(jí)場(chǎng)景重建”提供了一條很有代表性的技術(shù)路線,也為今后長(zhǎng)序列三維感知系統(tǒng)的可擴(kuò)展設(shè)計(jì)帶來(lái)了新的啟發(fā)。

突破純視覺(jué)流式三維重建瓶頸

LongStream賦能公里級(jí)流式重建

? 論文題目

LongStream: Long-Sequence Streaming Autoregressive Visual Geometry

?論文鏈接

https://arxiv.org/abs/2602.13172

? 項(xiàng)目主頁(yè):

https://3dagentworld.github.io/longstream

長(zhǎng)序列流式三維重建在自動(dòng)駕駛、機(jī)器人與AR/VR等場(chǎng)景中具有重要價(jià)值,但現(xiàn)有流式自回歸模型在長(zhǎng)序列中普遍快速失穩(wěn)。其根源在于,主流方法采用首幀錨定的絕對(duì)位姿建模,訓(xùn)練時(shí)只見(jiàn)短序列,推理時(shí)卻要處理遠(yuǎn)超訓(xùn)練范圍的長(zhǎng)視頻流,因而產(chǎn)生明顯的train-short, test-long域偏差,推理時(shí)被迫進(jìn)行越來(lái)越困難的長(zhǎng)程外推,最終導(dǎo)致誤差累積、軌跡漂移與幾何崩潰。同時(shí),這類(lèi)模型還表現(xiàn)出與大語(yǔ)言模型類(lèi)似的attention sink現(xiàn)象,注意力異常沉積于首幀token,而非對(duì)重建更關(guān)鍵的時(shí)空鄰近幀,從而違背了局部幾何約束;長(zhǎng)期累積的KV cache也會(huì)帶來(lái)表征污染、記憶飽和與幾何漂移。多種因素疊加,使現(xiàn)有方法往往在數(shù)十米范圍內(nèi)便迅速失效。

833e1788-21e9-11f1-90a1-92fbcf53809c.png

針對(duì)這一核心瓶頸,LongStream從流式幾何學(xué)習(xí)的建模范式出發(fā)進(jìn)行了系統(tǒng)重構(gòu)。該方法采用Gauge-Decoupled設(shè)計(jì),擺脫首幀錨定的絕對(duì)位姿回歸方式,轉(zhuǎn)而預(yù)測(cè)當(dāng)前幀相對(duì)于最近關(guān)鍵幀的位姿,將隨序列長(zhǎng)度不斷惡化的長(zhǎng)程外推問(wèn)題轉(zhuǎn)化為難度基本恒定的局部估計(jì)問(wèn)題,從根本上削弱了對(duì)固定全局坐標(biāo)系和首幀錨點(diǎn)的依賴。在此基礎(chǔ)上,LongStream進(jìn)一步識(shí)別出attention sink和長(zhǎng)期KV-cache污染是長(zhǎng)時(shí)退化的主要來(lái)源,并提出 緩存一致性訓(xùn)練,通過(guò)在訓(xùn)練階段顯式傳遞和裁剪緩存,使訓(xùn)練時(shí)的可見(jiàn)上下文與真實(shí)流式推理保持一致,引導(dǎo)模型在滑動(dòng)窗口條件下學(xué)習(xí)穩(wěn)定的局部時(shí)序依賴,而非繼續(xù)依賴首幀“沉積”注意力。

同時(shí),該方法結(jié)合周期性緩存刷新,定期邊緣化陳舊上下文,清理退化記憶,抑制長(zhǎng)期飽和與幾何漂移。由于整個(gè)系統(tǒng)建立在關(guān)鍵幀相對(duì)坐標(biāo)系之上,緩存可在關(guān)鍵幀處刷新而不破壞重建一致性,從而使模型獲得更接近“無(wú)限流”處理的能力?;谶@一系列設(shè)計(jì),LongStream實(shí)現(xiàn)了公里級(jí)、實(shí)時(shí)、穩(wěn)定的流式三維重建,為長(zhǎng)序列視覺(jué)幾何建模提供了更魯棒、更可擴(kuò)展的技術(shù)方案。其對(duì)長(zhǎng)序列失效原因的識(shí)別和分析為相關(guān)領(lǐng)域研究提供了重要借鑒,有望推動(dòng)流式重建模型在自動(dòng)駕駛、AR/VR等實(shí)際應(yīng)用場(chǎng)景的技術(shù)落地。

推動(dòng)事件相機(jī)邁向駕駛智能

構(gòu)建全棧事件語(yǔ)言基準(zhǔn)

? 論文題目

EventDrive: Event Cameras for Vision–Language Driving Intelligence

事件相機(jī)具備微秒級(jí)時(shí)間分辨率、高動(dòng)態(tài)范圍和抗運(yùn)動(dòng)模糊等優(yōu)勢(shì),在高速運(yùn)動(dòng)、強(qiáng)光炫光和低照度等場(chǎng)景中,相比傳統(tǒng)幀相機(jī)更能穩(wěn)定捕捉動(dòng)態(tài)變化。但現(xiàn)有研究大多集中在檢測(cè)、分割、跟蹤等低層感知任務(wù),尚未系統(tǒng)回答一個(gè)關(guān)鍵問(wèn)題:事件信號(hào)能否進(jìn)一步服務(wù)于自動(dòng)駕駛中的高層語(yǔ)義理解、行為預(yù)測(cè)與決策規(guī)劃。EventDrive圍繞這一問(wèn)題展開(kāi),首次將事件流、RGB圖像與語(yǔ)言監(jiān)督統(tǒng)一到自動(dòng)駕駛?cè)鞒炭蚣苤?,推?dòng)事件視覺(jué)從“感知增強(qiáng)”走向“智能驅(qū)動(dòng)”。

839e6cd2-21e9-11f1-90a1-92fbcf53809c.png

為填補(bǔ)這一空白,EventDrive構(gòu)建了首個(gè)面向自動(dòng)駕駛?cè)珬V悄艿氖录?語(yǔ)言基準(zhǔn),將任務(wù)統(tǒng)一劃分為Perception、Understanding、Prediction和Planning四個(gè)層級(jí),共覆蓋17個(gè)子任務(wù),形成約47.6萬(wàn)條 事件-幀-語(yǔ)言樣本,為評(píng)測(cè)事件相機(jī)在駕駛智能中的實(shí)際價(jià)值提供了系統(tǒng)平臺(tái)。相較以往主要關(guān)注caption或簡(jiǎn)單問(wèn)答的數(shù)據(jù)集,EventDrive首次把事件模態(tài)推進(jìn)到自動(dòng)駕駛“感知—理解—預(yù)測(cè)—規(guī)劃”的完整閉環(huán)中。

在模型層面,論文進(jìn)一步提出EventDrive-VLM。該方法通過(guò) 多時(shí)間尺度事件體素化 與 動(dòng)態(tài)時(shí)間域事件編碼 建模不同頻率和運(yùn)動(dòng)模式下的事件特征,并引入Event Q-Former提取與語(yǔ)言任務(wù)相關(guān)的運(yùn)動(dòng)表征,實(shí)現(xiàn)事件模態(tài)、圖像模態(tài)與語(yǔ)言推理空間之間的有效對(duì)齊。大量實(shí)驗(yàn)表明,EventDrive-VLM在多類(lèi)駕駛推理任務(wù)上取得了顯著提升,尤其在動(dòng)態(tài)變化、運(yùn)動(dòng)狀態(tài)和時(shí)序推理相關(guān)任務(wù)中,事件信號(hào)展現(xiàn)出對(duì)傳統(tǒng)幀模態(tài)的重要補(bǔ)充價(jià)值。

EventDrive的提出,為事件相機(jī)融入自動(dòng)駕駛高層智能系統(tǒng)提供了新的研究范式,也為未來(lái)構(gòu)建更魯棒、更高時(shí)效的多模態(tài)駕駛系統(tǒng)奠定了基礎(chǔ)。

貫通“視覺(jué)-幾何-功能-人類(lèi)感知”

駕駛世界模型閉環(huán)評(píng)估新范式

? 論文題目

WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World

?論文鏈接

https://arxiv.org/abs/2512.10958

? 項(xiàng)目主頁(yè):

https://worldbench.github.io/worldlens

當(dāng)前駕駛場(chǎng)景生成式世界模型雖能合成高視覺(jué)真實(shí)感的4D環(huán)境,但普遍存在物理邏輯違規(guī)、幾何一致性缺失、功能可用性不足等問(wèn)題,且行業(yè)缺乏統(tǒng)一的綜合評(píng)估標(biāo)準(zhǔn),現(xiàn)有指標(biāo)僅側(cè)重幀級(jí)視覺(jué)質(zhì)量,難以衡量物理合理性、多視圖一致性及實(shí)際應(yīng)用價(jià)值。針對(duì)這一核心痛點(diǎn),本文提出WorldLens—— 首個(gè)覆蓋 “生成質(zhì)量、重建一致性、動(dòng)作跟隨性、下游任務(wù)適配、人類(lèi)偏好” 五大維度的全光譜評(píng)估基準(zhǔn),配套構(gòu)建WorldLens-26K大規(guī)模人類(lèi)偏好數(shù)據(jù)集與WorldLens-Agent自動(dòng)評(píng)估模型,形成 “基準(zhǔn)-數(shù)據(jù)集-評(píng)估代理” 三位一體的完整評(píng)估生態(tài),實(shí)現(xiàn)對(duì)駕駛世界模型 “視覺(jué)真實(shí)感、幾何一致性、物理plausibility、功能可靠性” 的全方位量化與解讀。

83fd8d34-21e9-11f1-90a1-92fbcf53809c.png

其核心創(chuàng)新性體現(xiàn)在三大維度:一是評(píng)估維度的全景化突破,首次將4D重建一致性、閉環(huán)動(dòng)作跟隨性、下游感知任務(wù)適配性與人類(lèi)主觀偏好納入統(tǒng)一框架,拆解為24個(gè)細(xì)粒度子維度,覆蓋從低階視覺(jué)特征到高階行為邏輯的全鏈路評(píng)估;二是評(píng)估體系的人機(jī)協(xié)同創(chuàng)新,通過(guò)26808條含文本理由的人類(lèi)標(biāo)注數(shù)據(jù),建立客觀指標(biāo)與人類(lèi)感知的映射關(guān)系,進(jìn)而訓(xùn)練出WorldLens-Agent自動(dòng)評(píng)估模型,該模型基于Qwen3-VL-8B微調(diào),可實(shí)現(xiàn)零樣本場(chǎng)景下與人類(lèi)判斷高度對(duì)齊的量化評(píng)分及可解釋性推理,解決人工評(píng)估效率低、主觀性強(qiáng)的痛點(diǎn);三是評(píng)估指標(biāo)的功能導(dǎo)向創(chuàng)新,引入閉環(huán)仿真(如Route Completion、ADS分?jǐn)?shù))、下游感知任務(wù)(3D檢測(cè)、占用預(yù)測(cè))等功能性指標(biāo),突破傳統(tǒng)視覺(jué)評(píng)估的局限,實(shí)現(xiàn)對(duì)模型 “能用、好用” 的核心訴求的量化。

實(shí)驗(yàn)驗(yàn)證顯示,現(xiàn)有主流模型均無(wú)全能表現(xiàn):DiST-4D在幾何重建與下游任務(wù)適配中表現(xiàn)最優(yōu),OpenDWM在視覺(jué)真實(shí)感上領(lǐng)先,而所有模型在閉環(huán)動(dòng)作跟隨性上仍存在顯著短板(路線完成率普遍低于 15%)。WorldLens通過(guò)標(biāo)準(zhǔn)化評(píng)估流程與工具鏈,不僅揭示了當(dāng)前模型在 “視覺(jué)真實(shí)” 與 “物理/功能真實(shí)” 間的核心矛盾,更提供了精準(zhǔn)的缺陷診斷能力,為駕駛世界模型從 “看起來(lái)真實(shí)” 向 “行為真實(shí)、可用可靠” 的進(jìn)化提供了關(guān)鍵技術(shù)支撐。

突破大規(guī)模3D重建效率瓶頸

實(shí)現(xiàn)千圖序列10×加速

? 論文題目

LiteVGGT: Boosting Vanilla VGGT via Geometry-aware Cached Token Merging

?論文鏈接

https://arxiv.org/abs/2512.04939

? 項(xiàng)目主頁(yè):

https://garlicba.github.io/LiteVGGT

VGGT作為3D視覺(jué)基礎(chǔ)模型,在多視圖3D重建任務(wù)中表現(xiàn)卓越,但因其Transformer架構(gòu)的全局注意力機(jī)制存在二次計(jì)算與內(nèi)存復(fù)雜度,處理長(zhǎng)序列圖像時(shí)易出現(xiàn)內(nèi)存溢出 (OOM) 、推理耗時(shí)過(guò)長(zhǎng)等問(wèn)題,難以適配大規(guī)模場(chǎng)景應(yīng)用。針對(duì)這一核心痛點(diǎn),本文提出LiteVGGT,通過(guò)創(chuàng)新的幾何感知緩存token merging策略,在保持VGGT核心重建精度的前提下,實(shí)現(xiàn)了10倍推理加速與顯著內(nèi)存節(jié)省,并支持千圖級(jí)圖像序列的高效單次推理3D重建。

845ed9ea-21e9-11f1-90a1-92fbcf53809c.png

LiteVGGT的核心貢獻(xiàn)體現(xiàn)在三個(gè)方面:首先,提出幾何感知token優(yōu)先級(jí)劃分機(jī)制,通過(guò)識(shí)別對(duì)三維幾何結(jié)構(gòu)最關(guān)鍵的視覺(jué)token,在減少計(jì)算量的同時(shí)保留重建所需的關(guān)鍵幾何信息;其次,設(shè)計(jì)跨層緩存融合索引策略,復(fù)用相鄰global attention層的token融合索引,在僅帶來(lái)輕微精度下降的情況下顯著降低推理時(shí)延;此外,結(jié)合多源數(shù)據(jù)精細(xì)化微調(diào)與FP8量化推理,進(jìn)一步提升模型運(yùn)行效率并降低顯存占用,構(gòu)建完整的高效推理優(yōu)化方案。

實(shí)驗(yàn)結(jié)果表明,LiteVGGT在ScanNet-50、Tanks & Temples等多種室內(nèi)外大規(guī)模場(chǎng)景數(shù)據(jù)集上表現(xiàn)出色:在處理1000張圖像序列時(shí),相比原始VGGT實(shí)現(xiàn)10倍 推理加速,顯存占用顯著降低,同時(shí)點(diǎn)云重建精度和相機(jī)姿態(tài)估計(jì)性能均接近原模型。該方案無(wú)需修改VGGT核心架構(gòu),具有良好的兼容性與工程落地能力,可為自動(dòng)駕駛、AR/VR等應(yīng)用場(chǎng)景提供高效的大規(guī)模三維重建能力。

深度賦能+區(qū)域自適應(yīng)

破解視覺(jué)3D占用預(yù)測(cè)兩大核心痛點(diǎn)

? 論文題目

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

?論文鏈接

https://arxiv.org/abs/2603.01007

3D語(yǔ)義占用預(yù)測(cè)是自動(dòng)駕駛感知的核心任務(wù),但其視覺(jué)-based方法長(zhǎng)期面臨兩大關(guān)鍵瓶頸:一是2D到3D視圖轉(zhuǎn)換中因低分辨率、高噪聲深度估計(jì)導(dǎo)致的幾何錯(cuò)位,二是語(yǔ)義類(lèi)別空間分布各向異性引發(fā)的嚴(yán)重類(lèi)別不平衡。針對(duì)上述痛點(diǎn),本文提出Dr.Occ—— 深度與區(qū)域雙引導(dǎo)的3D占用預(yù)測(cè)框架,通過(guò)創(chuàng)新的幾何增強(qiáng)與語(yǔ)義建模模塊實(shí)現(xiàn)協(xié)同優(yōu)化,在Occ3D-nuScenes基準(zhǔn)上較強(qiáng)基線BEVDet4D提升7.43% mIoU與3.09% IoU,且可無(wú)縫集成至SOTA方法COTR并額外提升1.0% mIoU,展現(xiàn)出極強(qiáng)的通用性與工程價(jià)值。

84baf41e-21e9-11f1-90a1-92fbcf53809c.png

本項(xiàng)目核心創(chuàng)新在于兩大技術(shù)突破:其一,提出深度引導(dǎo)雙投影視圖Transformer (D2-VFormer) 。針對(duì)實(shí)驗(yàn)發(fā)現(xiàn)的“直接融合深度圖易導(dǎo)致性能退化”這一挑戰(zhàn),該模塊利用MoGe-2生成的高質(zhì)量深度線索構(gòu)建體素級(jí)掩碼 (Voxel-level Masks) ,引導(dǎo)模型精準(zhǔn)聚焦非空區(qū)域。通過(guò)“前向投影下采樣-反向投影致密化-深度引導(dǎo)非空精煉”三階段流程,有效攻克了2D-to-3D轉(zhuǎn)換中的幾何錯(cuò)位難題,實(shí)現(xiàn)了深度基準(zhǔn)模型向3D占用任務(wù)的高效遷移。其二,提出區(qū)域引導(dǎo)專(zhuān)家Transformer (R-EFormer) 及其遞歸變體R2-EFormer。該方法基于3D空間語(yǔ)義分布的強(qiáng)位置偏好,將傳統(tǒng)混合專(zhuān)家 (MoE) 的通道激活機(jī)制升華為空間維度的選擇性專(zhuān)家建模。通過(guò)為不同空間區(qū)域自適應(yīng)分配專(zhuān)屬專(zhuān)家,該架構(gòu)有效捕捉了復(fù)雜的空間異構(gòu)語(yǔ)義,并顯著提升了稀有類(lèi)別的識(shí)別召回率,為3D占用任務(wù)提供了全新的空間特征融合范式。

機(jī)器人首次實(shí)現(xiàn)語(yǔ)義進(jìn)展推理

標(biāo)簽在指令結(jié)構(gòu)中定位任務(wù)進(jìn)展

? 論文題目

Progress-Think: Semantic Progress Reasoning for Vision-Language Navigation

?論文鏈接

https://arxiv.org/abs/2511.17097

? 項(xiàng)目主頁(yè):

https://horizonrobotics.github.io/robot_lab/progress-think

在視覺(jué)語(yǔ)言導(dǎo)航 (VLN) 中,機(jī)器人長(zhǎng)期缺乏一種關(guān)鍵能力:它能持續(xù)前進(jìn),卻無(wú)法判斷自己的任務(wù)推進(jìn)到了哪一步。導(dǎo)航在空間中不斷展開(kāi),畫(huà)面節(jié)節(jié)推進(jìn),但模型并不知道自己在自然語(yǔ)言指令里處于什么階段,因此容易漂移、兜圈,或做出難以解釋的決策。我們認(rèn)為,引入語(yǔ)義進(jìn)展推理,是破解長(zhǎng)程導(dǎo)航不穩(wěn)定性的關(guān)鍵路徑。

為了在沒(méi)有進(jìn)展標(biāo)注的情況下習(xí)得進(jìn)展定位能力,我們?cè)O(shè)計(jì)了一個(gè)三階段的學(xué)習(xí)框架。第一階段,通過(guò)前綴對(duì)齊的自監(jiān)督訓(xùn)練,模型在視覺(jué)軌跡中自動(dòng)推斷出與指令前綴的對(duì)應(yīng)關(guān)系,使“當(dāng)前觀察對(duì)應(yīng)哪一語(yǔ)義段落”成為一種內(nèi)生表征,而非依賴外部標(biāo)注。第二階段,我們將進(jìn)展表示作為上下文注入導(dǎo)航VLA策略,使決策在結(jié)合指令和觀測(cè)的同時(shí),也能參考自身的任務(wù)進(jìn)展,從而形成明確的語(yǔ)義方向感。第三階段,通過(guò)進(jìn)展推理與導(dǎo)航VLA策略的聯(lián)合優(yōu)化,使模型在推理時(shí)保持一致、穩(wěn)健的進(jìn)展定位能力,并形成從語(yǔ)義對(duì)齊到動(dòng)作生成的完整閉環(huán)。

85182440-21e9-11f1-90a1-92fbcf53809c.png

在三階段學(xué)習(xí)下,進(jìn)展不再是一個(gè)回歸值或附加標(biāo)簽,而演化為貫穿視覺(jué)理解、語(yǔ)義推理與行動(dòng)決策的結(jié)構(gòu)性信號(hào)。機(jī)器人由此首次具備真正的“進(jìn)展定位”能力,能夠在執(zhí)行中持續(xù)推理“我完成到哪了”,并據(jù)此更清晰地決策“下一步該做什么”。

Progress-Think讓機(jī)器人第一次具備語(yǔ)義層面的“進(jìn)展坐標(biāo)系”。我們首次揭示了視覺(jué)觀測(cè)序列與指令語(yǔ)義之間的結(jié)構(gòu)性關(guān)聯(lián),并將其提煉為可學(xué)習(xí)的進(jìn)展信號(hào),使模型無(wú)需額外標(biāo)注即可學(xué)會(huì)思考:“我剛完成了什么”。通過(guò)自監(jiān)督的進(jìn)展對(duì)齊、進(jìn)展引導(dǎo)決策以及進(jìn)展–策略聯(lián)合微調(diào),僅憑單目相機(jī)輸入,模型就能顯著減少偏航并提升穩(wěn)定性。Progress-Think在R2R-CE等標(biāo)準(zhǔn)數(shù)據(jù)集上取得領(lǐng)先表現(xiàn),并進(jìn)一步推動(dòng)具身推理朝更明確的任務(wù)導(dǎo)向發(fā)展。

從解耦到統(tǒng)一

以通用高斯范式突破3D重建與語(yǔ)義理解邊界

? 論文題目

Uni3R: Unified 3D Reconstruction and Semantic Understanding via Generalizable Gaussian Splatting from Unposed Multi-View Images

?論文鏈接

https://arxiv.org/abs/2508.03643

? 項(xiàng)目主頁(yè):

https://horizonrobotics.github.io/robot_lab/uni3R

現(xiàn)有3D場(chǎng)景重建方案,普遍面臨任務(wù)表征解耦與多視圖擴(kuò)展受限兩大局限。一方面,幾何重建與語(yǔ)義理解通常被獨(dú)立建模,且高度依賴耗時(shí)的逐場(chǎng)景優(yōu)化,直接限制了系統(tǒng)的泛化能力;另一方面,現(xiàn)有框架多局限于雙視圖輸入,擴(kuò)展至多視圖時(shí)需進(jìn)行高計(jì)算成本的逐對(duì)特征匹配,常導(dǎo)致跨視圖幾何不一致。為解決上述計(jì)算冗余與表征割裂問(wèn)題,本文提出了一種基于通用3D Gaussian Splatting的前饋式3D感知底座Uni3R。

8572cdaa-21e9-11f1-90a1-92fbcf53809c.png

Uni3R系統(tǒng)僅需無(wú)姿態(tài)的多視圖純視覺(jué)輸入,即可直接生成融合幾何結(jié)構(gòu)、外觀表征與開(kāi)放詞匯語(yǔ)義的3D隱式表示。架構(gòu)設(shè)計(jì)上,模型采用跨視圖Transformer融合機(jī)制,通過(guò)交替執(zhí)行幀內(nèi)自注意力與幀間交叉注意力,在無(wú)相機(jī)姿態(tài)先驗(yàn)的條件下,實(shí)現(xiàn)了對(duì)任意數(shù)量視圖信息的高效整合。針對(duì)純渲染監(jiān)督易引發(fā)的幾何坍塌問(wèn)題,框架引入無(wú)標(biāo)注幾何先驗(yàn)以約束高斯基元的空間分布,從而在零額外幾何標(biāo)注的前提下,顯著提升了訓(xùn)練穩(wěn)定性與深度預(yù)測(cè)精度。依托該統(tǒng)一表征空間,Uni3R僅需單次前向傳播,即可并發(fā)執(zhí)行高保真新視角合成、開(kāi)放詞匯3D語(yǔ)義分割與深度預(yù)測(cè)三項(xiàng)核心任務(wù)。此外,實(shí)驗(yàn)表明,多任務(wù)統(tǒng)一表征機(jī)制不僅大幅削減了底層計(jì)算冗余,更在幾何重建、視角渲染與語(yǔ)義理解之間確立了顯著的協(xié)同增益。

定量實(shí)驗(yàn)表明,Uni3R徹底摒棄了逐場(chǎng)景優(yōu)化與外部姿態(tài)估計(jì)依賴,單場(chǎng)景整體重建耗時(shí)僅約0.16秒。在ScanNet數(shù)據(jù)集上,其開(kāi)放詞匯語(yǔ)義分割精度達(dá)到55.84 mIoU,新視圖合成質(zhì)量達(dá)到25.53 PSNR;在RE10K數(shù)據(jù)集上,新視圖合成質(zhì)量達(dá)25.07 PSNR。整體量化指標(biāo)均優(yōu)于PixelSplat與LSM等主流框架,為自動(dòng)駕駛與機(jī)器人數(shù)字孿生提供了高效、可擴(kuò)展的實(shí)時(shí)3D場(chǎng)景感知方案。

幾何一致視覺(jué)世界模型

突破機(jī)器人操作泛化邊界

? 論文題目

RoboTransfer: Controllable Geometry-Consistent Video Diffusion for Manipulation Policy Transfer

?論文鏈接

https://arxiv.org/abs/2505.23171

? 項(xiàng)目主頁(yè):

https://horizonrobotics.github.io/robot_lab/robotransfer

在機(jī)器人操作領(lǐng)域,模仿學(xué)習(xí)是推動(dòng)具身智能發(fā)展的關(guān)鍵路徑,但高度依賴大規(guī)模、高質(zhì)量的真實(shí)演示數(shù)據(jù),面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數(shù)據(jù)生成方案,但顯著的“模擬到現(xiàn)實(shí)” (Sim2Real) 鴻溝,制約了仿真數(shù)據(jù)訓(xùn)練策略的泛化能力與落地應(yīng)用。

我們提出RoboTransfer——基于擴(kuò)散模型的視頻生成框架,旨在合成高保真且符合物理規(guī)律的機(jī)器人操作演示數(shù)據(jù)。該框架創(chuàng)新性地融合深度-表面法向的幾何約束與多視角特征建模,確保生成視頻具備高度幾何一致性與真實(shí)感。通過(guò)拆分控制條件設(shè)計(jì),實(shí)現(xiàn)對(duì)操作場(chǎng)景元素(如背景替換、物體外觀)的精細(xì)控制。結(jié)合物理仿真器重構(gòu)空問(wèn)布局與交互狀態(tài),實(shí)現(xiàn)多樣化、可拓展的高保真數(shù)據(jù)合成。

85cbb2f8-21e9-11f1-90a1-92fbcf53809c.png

RoboTransfer通過(guò)數(shù)據(jù)驅(qū)動(dòng)的生成式AI技術(shù),建立機(jī)器人操作數(shù)據(jù)合成新范式,提供高質(zhì)量、可擴(kuò)展的演示數(shù)據(jù),助力具身智能突破通用性與泛化性邊界。實(shí)驗(yàn)結(jié)果表明,RoboTransfer能夠生成具有高幾何一致性和視覺(jué)質(zhì)量的多視角視頻序列。此外,使用RoboTransfer合成數(shù)據(jù)訓(xùn)練的機(jī)器人視覺(jué)策略模型,在標(biāo)準(zhǔn)測(cè)試任務(wù)中表現(xiàn)出顯著提升的性能:在更換前景物體的場(chǎng)景下取得了33.3%的成功率相對(duì)提升,在更具挑戰(zhàn)性的場(chǎng)景下(同時(shí)更換前景背景)更是達(dá)到了251%的顯著提升。

打破3D重建與生成邊界

原位補(bǔ)全構(gòu)建單圖3D場(chǎng)景生成新范式

? 論文題目

3D-Fixer: Coarse-to-Fine In-place Completion for 3D Scenes from a Single Image

? 項(xiàng)目主頁(yè)

https://zx-yin.github.io/3dfixer

? 代碼鏈接:

https://github.com/HorizonRobotics/3D-Fixer

基于單張圖像生成3D場(chǎng)景,是構(gòu)建機(jī)器人與具身智能數(shù)字孿生環(huán)境的關(guān)鍵技術(shù) ?,F(xiàn)有方案在處理復(fù)雜場(chǎng)景時(shí),常面臨幾何重建不完整與姿態(tài)對(duì)齊易出錯(cuò)的局限 ;此外,高質(zhì)量場(chǎng)景級(jí)訓(xùn)練數(shù)據(jù)的稀缺,也直接限制了現(xiàn)有模型的泛化能力 。為此,研究團(tuán)隊(duì)提出了3D-Fixer技術(shù)框架,引入了“原位補(bǔ)全 (In-place Completion) ”范式 。該范式摒棄了傳統(tǒng)的顯式姿態(tài)對(duì)齊流程。其核心機(jī)制是利用3D基礎(chǔ)模型,提取場(chǎng)景中觀測(cè)到的殘缺幾何信息作為空間錨點(diǎn),直接在原位進(jìn)行3D生成與幾何補(bǔ)全。這一設(shè)計(jì)在維持全局布局一致性的同時(shí),兼顧了空間定位的準(zhǔn)確度與生成物體的完整度,從而有效規(guī)避了傳統(tǒng)迭代對(duì)齊與位姿優(yōu)化過(guò)程中固有的誤差累積與結(jié)構(gòu)錯(cuò)位問(wèn)題。

862647c2-21e9-11f1-90a1-92fbcf53809c.png

模型結(jié)構(gòu)上,3D-Fixer通過(guò)引入 由粗到精 (Coarse-to-Fine) 的生成策略與遮擋魯棒特征對(duì)齊 (Occlusion-Robust Feature Alignment) 機(jī)制,將預(yù)訓(xùn)練的物體生成先驗(yàn)與真實(shí)場(chǎng)景中的幾何觀測(cè)信息進(jìn)行深度融合,使模型能夠在存在遮擋的情況下仍然穩(wěn)定推斷場(chǎng)景結(jié)構(gòu),并有效緩解遮擋區(qū)域邊界模糊的問(wèn)題。與此同時(shí),為解決高質(zhì)量場(chǎng)景級(jí)訓(xùn)練數(shù)據(jù)長(zhǎng)期稀缺的瓶頸,團(tuán)隊(duì)構(gòu)建并開(kāi)源了目前規(guī)模最大的組合式場(chǎng)景數(shù)據(jù)集ARSG-110K,其中包含超過(guò)11萬(wàn)個(gè)程序化生成的復(fù)雜場(chǎng)景配置以及300萬(wàn)張帶有高保真三維標(biāo)注的圖像數(shù)據(jù)對(duì)。

實(shí)驗(yàn)結(jié)果表明,3D-Fixer在保持前饋推理高效性的同時(shí),實(shí)現(xiàn)了當(dāng)前領(lǐng)先水平的幾何重建精度,為機(jī)器人與具身智能系統(tǒng)提供了一種高保真、具備良好泛化能力的三維場(chǎng)景生成新基準(zhǔn),并為構(gòu)建大規(guī)模可交互數(shù)字孿生環(huán)境提供了重要技術(shù)支撐。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7815

    瀏覽量

    93271
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    794

    文章

    14911

    瀏覽量

    180278
  • 地平線
    +關(guān)注

    關(guān)注

    0

    文章

    465

    瀏覽量

    16399

原文標(biāo)題:CVPR 2026重磅揭曉!地平線11篇論文強(qiáng)勢(shì)入選,前瞻技術(shù)實(shí)力引領(lǐng)行業(yè)創(chuàng)新

文章出處:【微信號(hào):horizonrobotics,微信公眾號(hào):地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    地平線正式開(kāi)源HoloBrain VLA基座模型

    2月13日,地平線正式宣布其HoloBrain-0基座模型及框架全面開(kāi)源。本次開(kāi)源不僅包括HoloBrain-0核心算法,地平線同步開(kāi)放完整基礎(chǔ)設(shè)施RoboOrchard。作為地平線機(jī)器人實(shí)驗(yàn)室
    的頭像 發(fā)表于 02-26 10:05 ?354次閱讀
    <b class='flag-5'>地平線</b>正式開(kāi)源HoloBrain VLA基座模型

    地平線智駕安全基座榮獲SGS ISO 26262功能安全產(chǎn)品證書(shū)

    2026年2月5日,地平線自主研發(fā)的智駕安全基座獲得國(guó)際權(quán)威第三方認(rèn)證機(jī)構(gòu)SGS頒發(fā)的功能安全產(chǎn)品證書(shū)。這表明,地平線智駕安全基座已具備面向高級(jí)別輔助駕駛應(yīng)用的高等級(jí)功能安全能力,為其在全球汽車(chē)市場(chǎng)中的規(guī)模化應(yīng)用構(gòu)建了重要的安全
    的頭像 發(fā)表于 02-09 16:09 ?366次閱讀

    地平線與行深智能達(dá)成戰(zhàn)略合作

    12月9日,在“向高 同行丨2025地平線技術(shù)生態(tài)大會(huì)”上,地平線與無(wú)人駕駛技術(shù)與智慧物流產(chǎn)品提供商行深智能正式簽署戰(zhàn)略合作協(xié)議,行深智能將基于地平線征程6P打造L4級(jí)物流場(chǎng)景自動(dòng)駕駛方案,并計(jì)劃于
    的頭像 發(fā)表于 12-16 16:18 ?1286次閱讀

    地平線與元戎啟行達(dá)成戰(zhàn)略合作

    在市場(chǎng)需求與技術(shù)演進(jìn)的共同驅(qū)動(dòng)下,高階輔助駕駛的規(guī)?;占耙巡饺腙P(guān)鍵窗口期。12月9日,在“向高 同行丨2025地平線技術(shù)生態(tài)大會(huì)”上,地平線與國(guó)際領(lǐng)先的人工智能企業(yè)元戎啟行達(dá)成合作,雙方將
    的頭像 發(fā)表于 12-16 16:08 ?369次閱讀

    知行科技亮相2025地平線技術(shù)生態(tài)大會(huì)

    12月8日、9日,知行科技作為地平線征程6BEM系列芯片軟硬件合作伙伴亮相地平線技術(shù)生態(tài)大會(huì),并展出了基于征程6BEM系列芯片打造的組合輔助駕駛解決方案,覆蓋主動(dòng)安全到高階領(lǐng)航功能;同時(shí),知行科技iRC100P具身AI BOX也亮相大會(huì),成為知行科技與
    的頭像 發(fā)表于 12-12 12:50 ?1396次閱讀

    地平線論文入選NeurIPS 2025與AAAI 2026

    近日,兩大頂級(jí)學(xué)術(shù)會(huì)議錄用結(jié)果相繼揭曉,地平線憑借在機(jī)器人算法領(lǐng)域的深度鉆研,共有5論文從全球數(shù)萬(wàn)份投稿中脫穎而出,分別入選NeurIPS 2025與AAAI
    的頭像 發(fā)表于 11-27 11:39 ?1160次閱讀
    <b class='flag-5'>地平線</b>五<b class='flag-5'>篇</b><b class='flag-5'>論文</b><b class='flag-5'>入選</b>NeurIPS 2025與AAAI <b class='flag-5'>2026</b>

    地平線HSD量產(chǎn)先鋒品鑒會(huì)圓滿落幕

    2025年11月19日-24日,地平線在廣州舉辦Drive on Horizon·HSD量產(chǎn)先鋒品鑒會(huì)。首搭地平線HSD及征程6P的星途ET5、搭載征程6的深藍(lán)L06開(kāi)啟輔助駕駛體驗(yàn),以出色的實(shí)際
    的頭像 發(fā)表于 11-27 11:27 ?472次閱讀

    Nullmax端到端軌跡規(guī)劃論文入選AAAI 2026

    11月8日,全球人工智能頂會(huì) AAAI 2026 公布論文錄用結(jié)果,Nullmax 研發(fā)團(tuán)隊(duì)的端到端軌跡規(guī)劃論文成功入選。該
    的頭像 發(fā)表于 11-12 10:53 ?902次閱讀

    地平線與采埃孚推出城市領(lǐng)航coPILOT輔助駕駛系統(tǒng)

    作為市場(chǎng)領(lǐng)先的乘用車(chē)輔助駕駛解決方案供應(yīng)商,地平線始終以技術(shù)創(chuàng)新為引擎,推動(dòng)智能駕駛產(chǎn)業(yè)的突破與發(fā)展。近日,地平線與全球領(lǐng)先的汽車(chē)零部件企業(yè)采埃孚達(dá)成深度合作,聯(lián)合在中國(guó)市場(chǎng)率先推出可支持城市領(lǐng)航 (NOA) 的coPILOT輔助駕駛系統(tǒng)。該系統(tǒng)已獲得國(guó)內(nèi)自主品牌車(chē)型定點(diǎn)
    的頭像 發(fā)表于 10-29 09:35 ?1420次閱讀
    <b class='flag-5'>地平線</b>與采埃孚推出城市領(lǐng)航coPILOT輔助駕駛系統(tǒng)

    地平線與哈啰正式簽署戰(zhàn)略合作協(xié)議

    9月11日,在2025Inclusion·外灘大會(huì)上,地平線與哈啰正式簽署戰(zhàn)略合作協(xié)議。雙方將基于Robotaxi運(yùn)營(yíng)場(chǎng)景和需求,發(fā)揮各自技術(shù)優(yōu)勢(shì),共同打造極致低成本、高安全、高可靠、高可用的智能
    的頭像 發(fā)表于 09-12 14:25 ?944次閱讀

    地平線H-RDT模型斬獲CVPR 2025大賽冠軍

    近日,在計(jì)算機(jī)視覺(jué)與模式識(shí)別領(lǐng)域頂級(jí)會(huì)議CVPR 2025舉辦的RoboTwin雙臂機(jī)器人競(jìng)賽中,地平線機(jī)器人實(shí)驗(yàn)室與清華大學(xué)計(jì)算機(jī)系朱軍團(tuán)隊(duì)聯(lián)合提出的H-RDT憑強(qiáng)大性能和領(lǐng)先成功率,一舉斬獲真機(jī)賽冠軍(一等獎(jiǎng)第一名),并在仿真賽中榮獲亞軍(一等獎(jiǎng)第二名),為全球機(jī)器人
    的頭像 發(fā)表于 08-21 10:02 ?720次閱讀
    <b class='flag-5'>地平線</b>H-RDT模型斬獲<b class='flag-5'>CVPR</b> 2025大賽冠軍

    地平線與博世達(dá)成戰(zhàn)略合作

    近日,地平線正式宣布與全球領(lǐng)先的汽車(chē)技術(shù)與服務(wù)供應(yīng)商博世達(dá)成戰(zhàn)略合作。根據(jù)協(xié)議,博世將基于地平線征程6B打造新一代多功能攝像頭,并基于征程6E/M打造博世縱橫輔助駕駛升級(jí)版。目前,基于征程6系列開(kāi)發(fā)的博世新一代多功能攝像頭與博世縱橫輔助駕駛升級(jí)版均獲得多家車(chē)企的項(xiàng)目定點(diǎn)。
    的頭像 發(fā)表于 04-27 13:43 ?1249次閱讀

    地平線城區(qū)輔助駕駛系統(tǒng)HSD解讀

    近日,在2025地平線年度產(chǎn)品發(fā)布會(huì)上,地平線城區(qū)輔助駕駛系統(tǒng)HSD正式發(fā)布。作為國(guó)內(nèi)首個(gè)軟硬結(jié)合全棧開(kāi)發(fā)的城區(qū)輔助駕駛系統(tǒng),地平線HSD搭載當(dāng)前最高性能的國(guó)產(chǎn)智駕計(jì)算方案征程6P,采用一段式端到端
    的頭像 發(fā)表于 04-22 14:44 ?2371次閱讀

    地平線推出L2城區(qū)輔助駕駛系統(tǒng)HSD

    近日,以“征程所向,遠(yuǎn)超想象”為主題的2025地平線年度產(chǎn)品發(fā)布會(huì)在上海滴水湖舉行。地平線重磅推出L2城區(qū)輔助駕駛系統(tǒng)——地平線HSD,構(gòu)建體驗(yàn)“類(lèi)人”、用戶“信任”的城區(qū)輔助駕駛新解。同時(shí),
    的頭像 發(fā)表于 04-19 09:14 ?1090次閱讀

    地平線與上汽集團(tuán)深化戰(zhàn)略合作

    近日,上汽集團(tuán)舉辦“懂車(chē)更懂你·2025上汽之夜”活動(dòng),地平線創(chuàng)始人兼CEO余凱博士受邀發(fā)表主旨演講。作為地平線第一大機(jī)構(gòu)股東,上汽集團(tuán)在發(fā)布會(huì)上表示將繼續(xù)拓展與地平線等頭部企業(yè)的合作,借助各自領(lǐng)域的優(yōu)勢(shì)資源互補(bǔ),打造擁有全新體
    的頭像 發(fā)表于 04-12 09:07 ?1136次閱讀