高清资源成人色管av,丁香色五月欧美老熟妇,日韩A∨成人电影

如果想讓機(jī)器人幫助你，你通常需要下達(dá)一個(gè)較為精準(zhǔn)的指令，但指令在實(shí)際中的實(shí)現(xiàn)效果不一定理想。如果考慮真實(shí)環(huán)境，當(dāng)要求機(jī)器人找某個(gè)特定的物品時(shí)，這個(gè)物品不一定真的存在當(dāng)前的環(huán)境內(nèi)，機(jī)器人無(wú)論如何也找不到；但是環(huán)境當(dāng)中是不是可能存在一個(gè)其他物品，它和用戶(hù)要求的物品有類(lèi)似的功能，也能滿(mǎn)足用戶(hù)的需求呢？這就是用 “需求” 作為任務(wù)指令的好處了。

近日，北京大學(xué)董豪團(tuán)隊(duì)提出了一個(gè)新的導(dǎo)航任務(wù) —— 需求驅(qū)動(dòng)導(dǎo)航（Demand-driven Navigation，DDN），目前已被 NeurIPS 2023 接收。在這個(gè)任務(wù)當(dāng)中，機(jī)器人被要求根據(jù)一條用戶(hù)給定的需求指令，尋找能夠滿(mǎn)足用戶(hù)需求的物品。同時(shí)，董豪團(tuán)隊(duì)還提出了學(xué)習(xí)基于需求指令的物品屬性特征，有效地提高了機(jī)器人尋找物品的成功率。

論文地址：

https://arxiv.org/pdf/2309.08138.pdf

項(xiàng)目主頁(yè)：

https://sites.google.com/view/demand-driven-navigation/home

▲項(xiàng)目視頻

任務(wù)說(shuō)明

具體地說(shuō)，在任務(wù)的一開(kāi)始，機(jī)器人會(huì)收到一條需求指令，比如 “我餓了”，“我渴了”，然后機(jī)器人就需要在場(chǎng)景內(nèi)尋找一個(gè)能滿(mǎn)足該需求的物品。因此，需求驅(qū)動(dòng)導(dǎo)航本質(zhì)上還是一個(gè)尋找物品的任務(wù)，在這之前已經(jīng)有類(lèi)似的任務(wù) —— 視覺(jué)物品導(dǎo)航（Visual Object Navigation)。這兩個(gè)任務(wù)的區(qū)別在于，前者是告知機(jī)器人 “我的需求是什么”，后者是告知機(jī)器人 “我要什么物品”。

將需求作為指令，意味著機(jī)器人需要對(duì)指令的內(nèi)容進(jìn)行推理和探索當(dāng)前場(chǎng)景中的物品種類(lèi)，然后才能找到滿(mǎn)足用戶(hù)需求的物品。從這一點(diǎn)上來(lái)說(shuō)，需求驅(qū)動(dòng)導(dǎo)航要比視覺(jué)物品導(dǎo)航難很多。雖說(shuō)難度增加了，但是一旦機(jī)器人學(xué)會(huì)了根據(jù)需求指令尋找物品，好處還是很多的。比如：

用戶(hù)只需要根據(jù)自己的需求提出指令，而不用考慮場(chǎng)景內(nèi)有什么。
用需求作為指令可以提高用戶(hù)需求被滿(mǎn)足的概率。比如當(dāng) “渴了” 的時(shí)候，讓機(jī)器人找 “茶” 和讓機(jī)器人找 “能解渴的物品”，顯然是后者包含的范圍更大。
用自然語(yǔ)言描述的需求擁有更大的描述空間，可以提出更為精細(xì)、更為確切的需求。

為了訓(xùn)練這樣的機(jī)器人，需要建立一個(gè)需求指令到物品的映射關(guān)系，以便于環(huán)境給予訓(xùn)練信號(hào)。為了降低成本，董豪團(tuán)隊(duì)提出了一種基于大語(yǔ)言模型的、“半自動(dòng)” 的生成方式：先用 GPT-3.5 生成場(chǎng)景中存在的物品能滿(mǎn)足的需求，然后再人工過(guò)濾不符合要求的。

算法設(shè)計(jì)

考慮到能滿(mǎn)足同一個(gè)需求的物品之間有相似的屬性，如果能學(xué)到這種物品屬性上的特征，機(jī)器人似乎就能利用這些屬性特征來(lái)尋找物品。比如，對(duì)于 “我渴了” 這一需求，需要的物品應(yīng)該具有 “解渴” 這一屬性，而 “果汁”、“茶” 都具有這一屬性。這里需要注意的是，對(duì)于一個(gè)物品，在不同的需求下可能表現(xiàn)出不同的屬性，比如 “水” 既能表現(xiàn)出 “清潔衣物” 的屬性（在 “洗衣服” 的需求下），也能表現(xiàn)出 “解渴” 這一屬性（在 “我渴了” 的需求下）。

屬性學(xué)習(xí)階段

那么，如何讓模型理解這種 “解渴”、“清潔衣物” 這些需求呢？注意到在某一需求下物品所表現(xiàn)出的屬性，是一種較為穩(wěn)定的常識(shí)。而最近幾年，隨著大語(yǔ)言模型（LLM）逐漸興起，LLM 所表現(xiàn)出的對(duì)人類(lèi)社會(huì)常識(shí)方面的理解讓人驚嘆。

因此，北大董豪團(tuán)隊(duì)決定向 LLM 學(xué)習(xí)這種常識(shí)。他們先是讓 LLM 生成了很多需求指令（在圖中稱(chēng)為 Language-grounding Demand，LGD），然后再詢(xún)問(wèn) LLM，這些需求指令能被哪些物品滿(mǎn)足（在圖中稱(chēng)為 Language-grounding Object，LGO）。

在這里要說(shuō)明，Language-grounding 這一前綴強(qiáng)調(diào)了這些 demand/object 是可以從 LLM 中獲取而不依賴(lài)于某個(gè)特定的場(chǎng)景；下圖中的 World-grounding 強(qiáng)調(diào)了這些 demand/object 是與某個(gè)特定的環(huán)境（比如 ProcThor、Replica 等場(chǎng)景數(shù)據(jù)集）緊密結(jié)合的。

然后為了獲取 LGO 在 LGD 下所表現(xiàn)出的屬性，作者們使用了 BERT 編碼 LGD、CLIP-Text-Encoder 編碼 LGO，然后拼接得到 Demand-object Features。注意到在一開(kāi)始介紹物品的屬性時(shí)，有一個(gè) “相似性”，作者們就利用這種相似性，定義了 “正負(fù)樣本”，然后采用對(duì)比學(xué)習(xí)的方式訓(xùn)練 “物品屬性”。

具體來(lái)說(shuō)，對(duì)于兩個(gè)拼接之后的 Demand-object Features，如果這兩個(gè)特征對(duì)應(yīng)的物品能滿(mǎn)足同一個(gè)需求，那么這兩個(gè)特征就互為正樣本（比如圖中的物品 a 和物品 b 都能滿(mǎn)足需求 D1，那么 DO1-a 和 DO1-b 就互為正樣本）；其他任何拼接均互為負(fù)樣本。作者們將 Demand-object Features 輸入到一個(gè) TransformerEncoder 架構(gòu)的 Attribute Module 之后，就采用 InfoNCE Loss 訓(xùn)練了。

導(dǎo)航策略學(xué)習(xí)階段

通過(guò)對(duì)比學(xué)習(xí)，Attribute Module 中已經(jīng)學(xué)到了 LLM 提供的常識(shí)，在導(dǎo)航策略學(xué)習(xí)階段，Attribute Module 的參數(shù)被直接導(dǎo)入，然后采用模仿學(xué)習(xí)的方式學(xué)習(xí)由 A* 算法收集的軌跡。在某一個(gè)時(shí)間步，作者采用 DETR 模型，將當(dāng)前視野中的物品分割出來(lái)，得到 World-grounding Object，然后由 CLIP-Visual-Endocer 編碼。其他的流程與屬性學(xué)習(xí)階段類(lèi)似。最后將對(duì)需求指令的 BERT 特征、全局圖片特征、屬性特征拼接，送入一個(gè) Transformer 模型，最終輸出一個(gè)動(dòng)作。

值得注意的是，作者們?cè)趯傩詫W(xué)習(xí)階段使用了 CLIP-Text-Encoder，而在導(dǎo)航策略學(xué)習(xí)階段，作者們使用了 CLIP-Visual-Encoder。這里巧妙地借助于 CLIP 模型在視覺(jué)和文本上強(qiáng)大的對(duì)齊能力，將從 LLM 中學(xué)習(xí)到的文本常識(shí)轉(zhuǎn)移到了每一個(gè)時(shí)間步的視覺(jué)上。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)是在 AI2Thor simulator 和 ProcThor 數(shù)據(jù)集上進(jìn)行，實(shí)驗(yàn)結(jié)果表明，該方法顯著高于之前各種視覺(jué)物品導(dǎo)航算法的變種、大語(yǔ)言模型加持下的算法。

VTN 是一種閉詞匯集的物品導(dǎo)航算法（closed-vocabulary navigation），只能在預(yù)先設(shè)定的物品上進(jìn)行導(dǎo)航任務(wù)。作者們對(duì)它的算法做了一些變種，然而不管是將需求指令的 BERT 特征作為輸入、還是將 GPT 對(duì)指令的解析結(jié)果作為輸入，算法的結(jié)果都不是很理想。當(dāng)換成 ZSON 這種開(kāi)詞匯集的導(dǎo)航算法（open-vocabulary navigation），由于 CLIP 在需求指令和圖片之間的對(duì)齊效果并不好，導(dǎo)致了 ZSON 的幾個(gè)變種也無(wú)法很好的完成需求驅(qū)動(dòng)導(dǎo)航任務(wù)。

而一些基于啟發(fā)式搜索 + LLM 的算法由于 Procthor 數(shù)據(jù)集場(chǎng)景面積較大，探索效率較低，其成功率并沒(méi)有很高。純粹的 LLM 算法，例如 GPT-3-Prompt 和 MiniGPT-4 都表現(xiàn)出較差的對(duì)場(chǎng)景不可見(jiàn)位置的推理能力，導(dǎo)致無(wú)法高效地發(fā)現(xiàn)滿(mǎn)足要求的物品。

消融實(shí)驗(yàn)表明了 Attribute Module 顯著提高了導(dǎo)航成功率。作者們展示了 t-SNE 圖很好地表現(xiàn)出 Attribute Module 通過(guò) demand-conditioned contrastive learning 成功地學(xué)習(xí)到了物品的屬性特征。而將 Attribute Module 架構(gòu)換成 MLP 之后，性能出現(xiàn)了下降，說(shuō)明 TransformerEncoder 架構(gòu)更適合用于捕捉屬性特征。BERT 很好提取了需求指令的特征，使得對(duì) unseen instruction 泛化性得到了提升。

下面是一些可視化：

本次研究的通訊作者董豪博士現(xiàn)任北京大學(xué)前沿計(jì)算研究中心助理教授，博士生導(dǎo)師、博雅青年學(xué)者和智源學(xué)者，他于 2019 年創(chuàng)立并領(lǐng)導(dǎo)北大超平面實(shí)驗(yàn)室（Hyperplane Lab），目前已在 NeurIPS、ICLR、CVPR、ICCV、ECCV 等國(guó)際頂尖會(huì)議 / 期刊上發(fā)表論文 40 余篇，Google Scholar 引用 4700 余次，曾獲得 ACM MM 最佳開(kāi)源軟件獎(jiǎng)和 OpenI 杰出項(xiàng)目獎(jiǎng)。他還曾多次擔(dān)任國(guó)際頂尖會(huì)議如 NeurIPS、 CVPR、AAAI、ICRA 的領(lǐng)域主席和副編委，承擔(dān)多項(xiàng)國(guó)家級(jí)和省級(jí)項(xiàng)目，主持科技部新一代人工智能 2030 重大項(xiàng)目。

原文標(biāo)題：NeurIPS 2023 | 北大具身智能團(tuán)隊(duì)提出需求驅(qū)動(dòng)導(dǎo)航：對(duì)齊人類(lèi)需求，讓機(jī)器人更高效

文章出處：【微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

物聯(lián)網(wǎng)

物聯(lián)網(wǎng)

+關(guān)注

關(guān)注
2946

文章
47853

瀏覽量
415500

原文標(biāo)題：NeurIPS 2023 | 北大具身智能團(tuán)隊(duì)提出需求驅(qū)動(dòng)導(dǎo)航：對(duì)齊人類(lèi)需求，讓機(jī)器人更高效

文章出處：【微信號(hào)：tyutcsplab，微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

NeurIPS 2023 | 北大具身智能團(tuán)隊(duì)提出需求驅(qū)動(dòng)導(dǎo)航：對(duì)齊人類(lèi)需求，讓機(jī)器人更高效

任務(wù)說(shuō)明

算法設(shè)計(jì)

實(shí)驗(yàn)結(jié)果

評(píng)論

搜索歷史

NeurIPS 2023 | 北大具身智能團(tuán)隊(duì)提出需求驅(qū)動(dòng)導(dǎo)航：對(duì)齊人類(lèi)需求，讓機(jī)器人更高效

任務(wù)說(shuō)明

算法設(shè)計(jì)

實(shí)驗(yàn)結(jié)果

評(píng)論

NeurIPS 2023 | 北大具身智能團(tuán)隊(duì)提出需求驅(qū)動(dòng)導(dǎo)航：對(duì)齊人類(lèi)需求，讓機(jī)器人更高效