91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Aux-Think打破視覺語言導(dǎo)航任務(wù)的常規(guī)推理范式

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-07-08 10:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Aux-Think,把推理當(dāng)作訓(xùn)練時(shí)的助力,而非測試時(shí)的負(fù)擔(dān),打破視覺語言導(dǎo)航任務(wù)的常規(guī)推理范式

視覺語言導(dǎo)航(VLN)任務(wù)的核心挑戰(zhàn),是讓機(jī)器人在復(fù)雜環(huán)境中聽懂指令、看懂世界,并果斷行動(dòng)。我們系統(tǒng)性地引入推理任務(wù),探索其在導(dǎo)航策略學(xué)習(xí)中的作用,并首次揭示了VLN中的“推理崩塌”現(xiàn)象。研究發(fā)現(xiàn):無論是行動(dòng)前推理(Pre-Think),還是行動(dòng)后推理(Post-Think),一旦在測試階段顯式生成推理鏈,反而更容易讓機(jī)器人迷失方向。

Aux-Think提出一種更實(shí)用的路徑:在訓(xùn)練階段引入推理任務(wù)作為輔助監(jiān)督,引導(dǎo)模型習(xí)得更清晰的決策邏輯;而在測試階段,則徹底省去推理生成,直接進(jìn)行動(dòng)作預(yù)測。把推理用在該用的地方,模型在任務(wù)中反而更穩(wěn)、更準(zhǔn)、更省。Aux-Think不僅有效避免了測試階段的推理幻覺,也為“推理應(yīng)在何時(shí)、如何使用”提供了清晰答案,進(jìn)一步拓展了數(shù)據(jù)高效導(dǎo)航模型的能力邊界。

? 論文題目:

Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation

? 論文鏈接:

https://arxiv.org/abs/2505.11886

?項(xiàng)目主頁:

https://horizonrobotics.github.io/robot_lab/aux-think/

視覺語言導(dǎo)航 (VLN) 的推理策略

在視覺語言導(dǎo)航 (VLN) 任務(wù)中,機(jī)器人需要根據(jù)自然語言指令在復(fù)雜環(huán)境中做出實(shí)時(shí)決策。雖然推理在許多任務(wù)中已有廣泛應(yīng)用,但在VLN任務(wù)中,推理的作用一直未被充分探討。我們是第一個(gè)系統(tǒng)性研究推理策略對VLN任務(wù)影響的團(tuán)隊(duì),發(fā)現(xiàn)現(xiàn)有的推理策略 (Pre-Think和Post-Think) 在測試階段反而導(dǎo)致了較差的表現(xiàn),讓機(jī)器人導(dǎo)航失敗。與此不同的是,我們提出的Aux-Think框架通過創(chuàng)新設(shè)計(jì)有效解決了這一問題。

b1efe980-572d-11f0-baa5-92fbcf53809c.png

Aux-Think優(yōu)于Pre-Think和Post-Think其它推理策略

b209186a-572d-11f0-baa5-92fbcf53809c.png

Aux-Think在數(shù)據(jù)效率與成功率之間達(dá)到帕累托最優(yōu)

測試階段推理的挑戰(zhàn)

想象一名司機(jī)在開車時(shí)不斷分析路況,并頻繁回顧交通規(guī)則后才做決策。雖然這有助于理解環(huán)境,但當(dāng)遇到陌生或復(fù)雜情況時(shí),這種“思考過度”的方式反而容易因推理偏差而判斷失誤。

在視覺語言導(dǎo)航任務(wù)中,推理就像回顧交通規(guī)則,決策則對應(yīng)真實(shí)的駕駛操作。推理本意是為了幫助機(jī)器人理解任務(wù),但一旦進(jìn)入訓(xùn)練中未見過的狀態(tài),思維鏈便可能產(chǎn)生幻覺。尤其是在不熟悉的環(huán)境中,過度依賴推理不僅無法提升決策,反而干擾行動(dòng)、累積誤差,最終導(dǎo)致機(jī)器人“誤入歧途”。這種“推理崩塌”現(xiàn)象正是Aux-Think希望解決的關(guān)鍵問題。

Aux-Think給出的新答案

為了應(yīng)對上述問題,我們提出了Aux-Think,一種全新的推理訓(xùn)練框架。Aux-Think的核心思想是:在訓(xùn)練階段通過推理指導(dǎo)模型的學(xué)習(xí),而在測試階段,機(jī)器人直接依賴訓(xùn)練過程中學(xué)到的知識(shí)進(jìn)行決策,不再進(jìn)行推理生成。具體來說,Aux-Think將推理和行動(dòng)分開進(jìn)行:

訓(xùn)練階段:通過引導(dǎo)模型學(xué)習(xí)推理任務(wù),幫助其內(nèi)化推理模式。

測試階段:直接根據(jù)訓(xùn)練中學(xué)到的決策知識(shí)進(jìn)行行動(dòng)預(yù)測,不再進(jìn)行額外的推理生成。

這種設(shè)計(jì)有效避免了測試階段推理帶來的錯(cuò)誤和不穩(wěn)定性,確保機(jī)器人能更加專注于執(zhí)行任務(wù),減少了推理過程中可能引入的負(fù)面影響。

b248ed8c-572d-11f0-baa5-92fbcf53809c.png

上圖中展示的是一個(gè)導(dǎo)航任務(wù):“穿過房間,走到右側(cè)的拱門并停在玻璃桌旁”。三種策略面對相同場景做出了不同反應(yīng):Pre-Think模型在行動(dòng)前試圖推理整條路徑,認(rèn)為應(yīng)該“前進(jìn)75cm”,但忽視了當(dāng)前觀察并未穿過房間,導(dǎo)致偏離目標(biāo);Post-Think模型在執(zhí)行動(dòng)作后才分析環(huán)境,發(fā)現(xiàn)沒有看到拱門,但錯(cuò)誤已發(fā)生,只能繼續(xù)試探,繼續(xù)偏航;Aux-Think則在訓(xùn)練時(shí)學(xué)習(xí)推理邏輯,測試時(shí)直接基于當(dāng)前觀察判斷“右轉(zhuǎn)15度”,準(zhǔn)確識(shí)別拱門位置,成功完成導(dǎo)航任務(wù)。

實(shí)驗(yàn)結(jié)果

大量實(shí)驗(yàn)表明,Aux-Think在數(shù)據(jù)效率與導(dǎo)航表現(xiàn)方面優(yōu)于當(dāng)前領(lǐng)先方法。盡管訓(xùn)練數(shù)據(jù)較少,Aux-Think仍在多個(gè)VLN基準(zhǔn)上取得了單目 (Monocular) 方法中的最高成功率。通過僅在訓(xùn)練階段內(nèi)化推理能力,Aux-Think有效緩解了測試階段的推理幻覺與錯(cuò)誤傳播,在動(dòng)態(tài)、長程導(dǎo)航任務(wù)中展現(xiàn)出更強(qiáng)的泛化能力與穩(wěn)定性。

b268d3ea-572d-11f0-baa5-92fbcf53809c.png

R2R-CE上的指標(biāo):Aux-Think在視覺語言導(dǎo)航任務(wù)的R2R驗(yàn)證集 (Val-Unseen) 上取得領(lǐng)先的成功率 (SR) ,即使使用的訓(xùn)練數(shù)據(jù)更少,也能超越多種現(xiàn)有方法。

b27e199e-572d-11f0-baa5-92fbcf53809c.png

RxR-CE上的指標(biāo):RxR比R2R更大、更復(fù)雜,Aux-Think在RxR驗(yàn)證集上依然以更少數(shù)據(jù)實(shí)現(xiàn)更高成功率 (SR) ,展現(xiàn)出優(yōu)越的泛化能力。

總結(jié)與展望

Aux-Think為解決測試階段推理引發(fā)的導(dǎo)航問題提供了新的思路。通過在訓(xùn)練階段引入推理指導(dǎo),在測試階段去除推理負(fù)擔(dān),Aux-Think能夠讓機(jī)器人更加專注于任務(wù)執(zhí)行,從而提高其導(dǎo)航穩(wěn)定性和準(zhǔn)確性。這一突破性進(jìn)展將為機(jī)器人在實(shí)際應(yīng)用中的表現(xiàn)奠定更為堅(jiān)實(shí)的基礎(chǔ),也為具身推理策略提供了重要啟示。

.

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    31075

    瀏覽量

    222199
  • 導(dǎo)航
    +關(guān)注

    關(guān)注

    7

    文章

    577

    瀏覽量

    43914

原文標(biāo)題:開發(fā)者說|Aux-Think:為什么測試時(shí)推理反而讓機(jī)器人「誤入歧途」?

文章出處:【微信號(hào):horizonrobotics,微信公眾號(hào):地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    大型語言模型的邏輯推理能力探究

    最新研究揭示,盡管大語言模型LLMs在語言理解上表現(xiàn)出色,但在邏輯推理方面仍有待提高。為此,研究者們推出了GLoRE,一個(gè)全新的邏輯推理評估基準(zhǔn),包含12個(gè)數(shù)據(jù)集,覆蓋三大
    的頭像 發(fā)表于 11-23 15:05 ?2161次閱讀
    大型<b class='flag-5'>語言</b>模型的邏輯<b class='flag-5'>推理</b>能力探究

    一種在視覺語言導(dǎo)航任務(wù)中提出的新方法,來探索未知環(huán)境

    視覺語言導(dǎo)航(vision-language navigation, VLN)任務(wù)指的是引導(dǎo)智能體或機(jī)器人在真實(shí)三維場景中能理解自然語言命令
    的頭像 發(fā)表于 03-05 09:38 ?5324次閱讀
    一種在<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>導(dǎo)航</b><b class='flag-5'>任務(wù)</b>中提出的新方法,來探索未知環(huán)境

    各位高手,我想在汽車導(dǎo)航電路板上加一個(gè)aux輸出接口

    我想在這個(gè)導(dǎo)航上引出一根aux,看網(wǎng)上介紹有好多兄弟對不同機(jī)頭改裝,無奈本地?zé)o這要的高手師傅。還需要什么具體細(xì)節(jié),隨時(shí)可以照照片,謝謝各位高手!.導(dǎo)航電路如下:
    發(fā)表于 03-04 18:05

    如何打破PCB設(shè)計(jì)的視覺障礙?

    如何打破PCB設(shè)計(jì)的視覺障礙?
    發(fā)表于 06-15 09:31

    基于計(jì)算機(jī)視覺和NLP的跨媒體問答與推理

    基于視覺語言的跨媒體問答與推理是人工智能領(lǐng)域的研究熱點(diǎn)其目的是基于給定的視覺內(nèi)容和相關(guān)問題,模型能夠返回正確的答案。隨著深度學(xué)習(xí)的飛速發(fā)展及其在計(jì)算杋
    發(fā)表于 04-08 10:25 ?8次下載
    基于計(jì)算機(jī)<b class='flag-5'>視覺</b>和NLP的跨媒體問答與<b class='flag-5'>推理</b>

    視覺問答與對話任務(wù)研究綜述

    視覺問答與對話是人工智能領(lǐng)堿的重要硏究任務(wù),是計(jì)算機(jī)視覺與自然語言處理交叉領(lǐng)域的代表性問題之一。視覺問答與對話
    發(fā)表于 04-08 10:33 ?10次下載
    <b class='flag-5'>視覺</b>問答與對話<b class='flag-5'>任務(wù)</b>研究綜述

    用于語言視覺處理的高效 Transformer能在多種語言視覺任務(wù)中帶來優(yōu)異效果

    白皮書《Transformer-LS:用于語言視覺處理的高效 Transformer》中提出了“長-短 Transformer” (Transformer-LS),這是一種高效的 Transformer 架構(gòu),用于為語言
    的頭像 發(fā)表于 12-28 10:42 ?2501次閱讀

    視覺語言導(dǎo)航領(lǐng)域任務(wù)、方法和未來方向的綜述

    視覺語言導(dǎo)航(VLN)是一個(gè)新興的研究領(lǐng)域,旨在構(gòu)建一種可以用自然語言與人類交流并在真實(shí)的3D環(huán)境中導(dǎo)航的具身代理,與計(jì)算機(jī)
    的頭像 發(fā)表于 09-20 14:30 ?6718次閱讀

    多維度剖析視覺-語言訓(xùn)練的技術(shù)路線

    (如BERT\GPT等)的啟發(fā),視覺-語言預(yù)訓(xùn)練 (Vision-Language Pre-training, VLP) 逐漸受到關(guān)注,成為如今 VL 任務(wù)的核心訓(xùn)練范式。本文對 VL
    的頭像 發(fā)表于 02-23 11:15 ?1964次閱讀

    深度探討VLMs距離視覺演繹推理還有多遠(yuǎn)?

    通用大型語言模型(LLM)推理基準(zhǔn):研究者們介紹了多種基于文本的推理任務(wù)和基準(zhǔn),用于評估LLMs在不同領(lǐng)域(如常識(shí)、數(shù)學(xué)推理、常識(shí)
    發(fā)表于 03-19 14:32 ?786次閱讀
    深度探討VLMs距離<b class='flag-5'>視覺</b>演繹<b class='flag-5'>推理</b>還有多遠(yuǎn)?

    基于視覺語言模型的導(dǎo)航框架VLMnav

    本文提出了一種將視覺語言模型(VLM)轉(zhuǎn)換為端到端導(dǎo)航策略的具體框架。不依賴于感知、規(guī)劃和控制之間的分離,而是使用VLM在一步中直接選擇動(dòng)作。驚訝的是,我們發(fā)現(xiàn)VLM可以作為一種無需任何微調(diào)或
    的頭像 發(fā)表于 11-22 09:42 ?1569次閱讀

    think-cell:與PowerPoint交換文件

    安裝 think-cell 的同事與客戶也可以打開和編輯文件,而不會(huì)注意到有任何不同。think-cell 元素將顯示為常規(guī) PowerPoint 形狀,諸如文本框和 PowerPoint 圖形對象
    的頭像 發(fā)表于 01-07 10:11 ?881次閱讀
    <b class='flag-5'>think</b>-cell:與PowerPoint交換文件

    新品| LLM630 Compute Kit,AI 大語言模型推理開發(fā)平臺(tái)

    處理器,集成了3.2TOPs@INT8算力的高能效NPU,提供強(qiáng)大的AI推理能力,能夠高效執(zhí)行復(fù)雜的視覺(CV)及大語言模型(LLM)任務(wù),滿足各類智能應(yīng)用場景的需求
    的頭像 發(fā)表于 01-17 18:48 ?1426次閱讀
    新品| LLM630 Compute Kit,AI 大<b class='flag-5'>語言</b>模型<b class='flag-5'>推理</b>開發(fā)平臺(tái)

    Progress-Think框架賦能機(jī)器人首次實(shí)現(xiàn)語義進(jìn)展推理

    視覺語言導(dǎo)航(VLN)中,機(jī)器人長期缺乏一種關(guān)鍵能力:它能持續(xù)前進(jìn),卻無法判斷自己的任務(wù)推進(jìn)到了哪一步。導(dǎo)航在空間中不斷展開,畫面節(jié)節(jié)推進(jìn)
    的頭像 發(fā)表于 12-03 09:27 ?350次閱讀
    Progress-<b class='flag-5'>Think</b>框架賦能機(jī)器人首次實(shí)現(xiàn)語義進(jìn)展<b class='flag-5'>推理</b>

    面向視覺語言導(dǎo)航任務(wù)驅(qū)動(dòng)式地圖學(xué)習(xí)框架MapDream介紹

    視覺語言導(dǎo)航(VLN)中,地圖長期作為獨(dú)立模塊構(gòu)建,并通過固定接口交由導(dǎo)航策略使用。無論是BEV網(wǎng)格、拓?fù)鋱D還是語義記憶模塊,這些表示大多脫離策略學(xué)習(xí)而設(shè)計(jì)。結(jié)果是,機(jī)器人即使掌握場
    的頭像 發(fā)表于 03-02 10:40 ?330次閱讀
    面向<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>導(dǎo)航</b>的<b class='flag-5'>任務(wù)</b>驅(qū)動(dòng)式地圖學(xué)習(xí)框架MapDream介紹