一本大道AV伊人久久综合蜜芽 ,国产av白浆黄色片网站,精品国产三级片网

機(jī)器人操控系統(tǒng)在進(jìn)入動(dòng)態(tài)現(xiàn)實(shí)環(huán)境時(shí)，難以應(yīng)對(duì)持續(xù)變化的物體、光照條件及接觸動(dòng)力學(xué)。此外，仿真與現(xiàn)實(shí)之間的差距，以及未經(jīng)過(guò)優(yōu)化的抓手或工具，通常限制了機(jī)器人在多樣化任務(wù)中的泛化能力、長(zhǎng)視距任務(wù)的執(zhí)行能力，以及實(shí)現(xiàn)類(lèi)人靈巧操作的可靠性。

本期 NVIDIA 機(jī)器人研發(fā)摘要 (R2D2) 探討了提升機(jī)器人操作技能的新方法。在本博客中，我們將介紹三項(xiàng)研究工作：利用推理大語(yǔ)言模型、仿真與現(xiàn)實(shí)協(xié)同訓(xùn)練，以及視覺(jué)語(yǔ)言模型來(lái)設(shè)計(jì)操作工具。

ThinkAct：通過(guò)增強(qiáng)視覺(jué)潛在規(guī)劃實(shí)現(xiàn)視覺(jué)語(yǔ)言動(dòng)作推理

用于仿真與現(xiàn)實(shí)策略聯(lián)合訓(xùn)練的通用域自適應(yīng)方法

RobotSmith：面向復(fù)雜操作技能獲取的生成式機(jī)器人工具設(shè)計(jì)

我們還將介紹如何利用 Cosmos Cookbook 中的數(shù)據(jù)增強(qiáng)及其他方法來(lái)提升機(jī)器人操作性能。該指南是一項(xiàng)開(kāi)源資源，匯集了 NVIDIA Cosmos 在機(jī)器人與自動(dòng)駕駛領(lǐng)域中的實(shí)際應(yīng)用案例。

借助 ThinkAct 提升機(jī)器人推理與動(dòng)作執(zhí)行能力

在機(jī)器人開(kāi)發(fā)中，視覺(jué)語(yǔ)言動(dòng)作(VLA)模型能夠根據(jù)視覺(jué)信息和自然語(yǔ)言等多模態(tài)指令生成相應(yīng)的機(jī)器人動(dòng)作。一個(gè)高效的 VLA 模型應(yīng)具備理解并執(zhí)行動(dòng)態(tài)環(huán)境中復(fù)雜多步驟操作的能力。然而，當(dāng)前的機(jī)器人操作方法通常采用端到端的方式訓(xùn)練 VLA，無(wú)需顯式的推理過(guò)程。這種方式使得模型在規(guī)劃長(zhǎng)距離任務(wù)時(shí)面臨挑戰(zhàn)，也難以靈活適應(yīng)多樣化的任務(wù)和環(huán)境。

ThinkAct 通過(guò)在雙系統(tǒng)框架中整合高級(jí)推理與低層動(dòng)作執(zhí)行，以縮小這一差距。該“先思考后行動(dòng)”的框架由強(qiáng)化的視覺(jué)潛在規(guī)劃實(shí)現(xiàn)。

首先，多模態(tài)大語(yǔ)言模型(MLLM)經(jīng)過(guò)訓(xùn)練，能夠生成供機(jī)器人遵循的推理計(jì)劃。這些計(jì)劃通過(guò)強(qiáng)化學(xué)習(xí)生成，其中視覺(jué)獎(jiǎng)勵(lì)機(jī)制促使 MLLM 制定出符合物理規(guī)律的執(zhí)行路徑，以實(shí)現(xiàn)目標(biāo)任務(wù)。為此，ThinkAct 利用人類(lèi)與機(jī)器人操作的視頻數(shù)據(jù)，實(shí)現(xiàn)基于視覺(jué)觀察的推理。這種訓(xùn)練方式確保了機(jī)器人所生成的規(guī)劃不僅在理論上合理，還能根據(jù)實(shí)際視覺(jué)反饋在物理環(huán)境中切實(shí)可行。這一過(guò)程構(gòu)成了“思考”部分。

現(xiàn)在進(jìn)入“行動(dòng)”部分。推理過(guò)程中的中間步驟被壓縮為一條緊湊的潛在軌跡。該表征包含計(jì)劃中的核心意圖與上下文信息。隨后，潛在軌跡引導(dǎo)一個(gè)獨(dú)立的動(dòng)作模型，使機(jī)器人能夠在不同環(huán)境中執(zhí)行相應(yīng)動(dòng)作。通過(guò)這種方式，高層推理得以指導(dǎo)并優(yōu)化現(xiàn)實(shí)場(chǎng)景中的底層機(jī)器人行為。

圖 1。ThinkAct 概述。

ThinkAct 已通過(guò)機(jī)器人操作和具身推理基準(zhǔn)測(cè)試。在具身 AI 任務(wù)中，它成功實(shí)現(xiàn)了少樣本部署、長(zhǎng)視距操作以及自校正功能。

圖 2。長(zhǎng)視野操作任務(wù)的可視化展示。

使用 Sim-and-Real 策略進(jìn)行聯(lián)合訓(xùn)練

訓(xùn)練機(jī)器人執(zhí)行操作任務(wù)需要在不同任務(wù)、環(huán)境和對(duì)象配置之間收集數(shù)據(jù)。一種常用的方法是行為克隆，即在現(xiàn)實(shí)世界中采集專(zhuān)家演示。理論上，這種方法具有可行性，但實(shí)際應(yīng)用中成本較高，難以大規(guī)模擴(kuò)展?，F(xiàn)實(shí)世界的數(shù)據(jù)采集依賴(lài)人工操作員手動(dòng)提供演示或監(jiān)控機(jī)器人運(yùn)行，過(guò)程耗時(shí)且受限于機(jī)器人硬件的可用性。

一種解決方案是在仿真環(huán)境中收集演示，這種方式能夠?qū)崿F(xiàn)自動(dòng)化和并行化，從而高效便捷地獲取大量數(shù)據(jù)。然而，在模擬數(shù)據(jù)上訓(xùn)練的策略往往難以有效遷移到現(xiàn)實(shí)場(chǎng)景中，其根本原因在于仿真與現(xiàn)實(shí)之間存在差距：仿真系統(tǒng)無(wú)法完全復(fù)現(xiàn)真實(shí)世界中物理特性、動(dòng)力學(xué)行為、噪聲干擾以及反饋機(jī)制的復(fù)雜性。

仿真和現(xiàn)實(shí)策略協(xié)同訓(xùn)練通過(guò)結(jié)合仿真環(huán)境與少量真實(shí)世界演示，學(xué)習(xí)通用的操作策略，從而彌合仿真與現(xiàn)實(shí)之間的差距。該方法構(gòu)建了一個(gè)統(tǒng)一的仿真與現(xiàn)實(shí)協(xié)同訓(xùn)練框架，旨在學(xué)習(xí)一個(gè)共享的潛在空間，使仿真觀察結(jié)果與真實(shí)世界數(shù)據(jù)實(shí)現(xiàn)對(duì)齊。該框架基于仿真與現(xiàn)實(shí)協(xié)同訓(xùn)練的相關(guān)研究，并采用了更具表達(dá)能力的表示空間。這種表示方式不僅提升了對(duì)齊效果，還能夠捕捉與動(dòng)作相關(guān)的信息。其核心思想是使觀察結(jié)果與其對(duì)應(yīng)的動(dòng)作保持一致，從而使策略能夠在仿真和真實(shí)環(huán)境中均有效運(yùn)行。

這些表征是通過(guò)一種稱(chēng)為最優(yōu)傳輸 (OT) 的技術(shù)來(lái)學(xué)習(xí)的。OT 能幫助策略識(shí)別仿真與真實(shí)世界數(shù)據(jù)中的相似模式，確保無(wú)論輸入來(lái)自模擬還是真實(shí)環(huán)境，用于選擇操作的關(guān)鍵信息保持一致。由于模擬數(shù)據(jù)通常遠(yuǎn)多于真實(shí)數(shù)據(jù)，因此可通過(guò)擴(kuò)展至非平衡 OT (UOT) 框架來(lái)應(yīng)對(duì)這種數(shù)據(jù)不均衡問(wèn)題。UOT 采用特定的采樣方法，即使在數(shù)據(jù)集規(guī)模差異較大的情況下，也能使訓(xùn)練過(guò)程更加高效。

圖 3?；?OT 的仿真與現(xiàn)實(shí)策略協(xié)同訓(xùn)練概述。

使用此框架訓(xùn)練的策略能夠成功泛化至現(xiàn)實(shí)場(chǎng)景，即使這些場(chǎng)景僅在訓(xùn)練數(shù)據(jù)的模擬部分中出現(xiàn)。在提升、堆疊立方體以及將箱子放入垃圾桶等機(jī)器人操作任務(wù)中，對(duì)該方法的仿真到仿真及仿真到現(xiàn)實(shí)的遷移能力進(jìn)行了評(píng)估。

圖 4。通過(guò)仿真與現(xiàn)實(shí)協(xié)同訓(xùn)練，該策略僅需最多 25 次演示即可學(xué)習(xí)長(zhǎng)視野任務(wù)，例如將物體分類(lèi)到封閉的抽屜中。

使用 RobotSmith 改進(jìn)機(jī)器人工具設(shè)計(jì)

多數(shù)機(jī)器人操作任務(wù)涉及使用不同的工具和物體。使用工具是機(jī)器人與環(huán)境交互并執(zhí)行復(fù)雜操作的關(guān)鍵功能。然而，為人類(lèi)設(shè)計(jì)的工具因具有多樣且復(fù)雜的外形尺寸，導(dǎo)致機(jī)器人難以有效操作。當(dāng)前的機(jī)器人工具設(shè)計(jì)方法通常依賴(lài)不可定制的預(yù)定義模板，或采用未針對(duì)此目的優(yōu)化的3D生成技術(shù)。

RobotSmith 通過(guò)提供一種利用視覺(jué)語(yǔ)言模型(VLM)的自動(dòng)工具設(shè)計(jì)框架來(lái)應(yīng)對(duì)這一挑戰(zhàn)。VLM 擅長(zhǎng)推理 3D 空間與物理交互，同時(shí)能夠理解在包含不同對(duì)象的環(huán)境中機(jī)器人可執(zhí)行的動(dòng)作。這些關(guān)鍵能力使其在高效的工具設(shè)計(jì)中發(fā)揮重要作用。

RobotSmith 將視覺(jué)語(yǔ)言模型(VLM)中的先驗(yàn)知識(shí)與仿真環(huán)境中的聯(lián)合優(yōu)化過(guò)程相結(jié)合，以生成面向特定任務(wù)的工具。其三大核心組件為：

Critic Tool Designer：兩個(gè) VLM 智能體協(xié)作生成候選工具幾何圖形。

工具使用規(guī)劃器：依據(jù)設(shè)計(jì)的工具與場(chǎng)景生成操作軌跡，并在模擬中執(zhí)行和評(píng)估候選軌跡及抓取效果。

“Joint Optimizer” (聯(lián)合優(yōu)化器)：在仿真中聯(lián)合微調(diào)工具幾何圖形與軌跡參數(shù)，以盡可能提升性能。此過(guò)程對(duì)剔除可能導(dǎo)致任務(wù)失敗的次優(yōu)工具與軌跡組合至關(guān)重要。

RobotSmith 以這種方式為推送、掃描或封閉等任務(wù)生成不同的工具設(shè)計(jì)方案。

圖 5。RobotSmith 迭代工具設(shè)計(jì)，確定高效的設(shè)計(jì)，并利用所設(shè)計(jì)的工具生成軌跡，以完成用戶任務(wù)。

在仿真環(huán)境和現(xiàn)實(shí)世界任務(wù)中對(duì) RobotSmith 進(jìn)行了評(píng)估，完整的實(shí)驗(yàn)與結(jié)果詳見(jiàn)論文。制作煎餅作為一項(xiàng)實(shí)際測(cè)試任務(wù)，框架針對(duì)每個(gè)步驟(例如壓平和抹面)設(shè)計(jì)并使用了不同的工具，表明該框架能夠成功執(zhí)行長(zhǎng)距離任務(wù)。

圖 6。RobotSmith 設(shè)計(jì)并使用針對(duì)長(zhǎng)視野操作場(chǎng)景中各子任務(wù)優(yōu)化的專(zhuān)用工具。

通過(guò) NVIDIA Cosmos Cookbook 縮小仿真與現(xiàn)實(shí)之間的差距

在本博客前面，我們探討了仿真與現(xiàn)實(shí)之間的差距，并介紹了如何利用合成數(shù)據(jù)訓(xùn)練機(jī)器人策略。逼真且多樣化的合成數(shù)據(jù)集能夠生成可靠的策略，使其更好地適應(yīng)現(xiàn)實(shí)世界。NVIDIA Cosmos 開(kāi)放世界基礎(chǔ)模型(WFM)，特別是其中的 Cosmos Transfer，能夠通過(guò)單次模擬生成逼真且多樣化數(shù)據(jù)，從而擴(kuò)展合成數(shù)據(jù)集。完整的流程可在Robotics Domain Adaption Gallery(機(jī)器人領(lǐng)域自適應(yīng)圖庫(kù))的示例中找到。

除了此工作流之外，NVIDIA Cosmos Cookbook 還提供了分步指導(dǎo)和后訓(xùn)練腳本，幫助快速構(gòu)建、定制和部署適用于機(jī)器人、自主系統(tǒng)及代理式系統(tǒng)的 Cosmos WFM。內(nèi)容深入探討了以下示例與概念：

快速啟動(dòng)推理示例以實(shí)現(xiàn)快速部署與運(yùn)行。

高級(jí)后訓(xùn)練工作流程，支持特定領(lǐng)域的精細(xì)微調(diào)。

經(jīng)過(guò)驗(yàn)證的可擴(kuò)展、生產(chǎn)就緒的部署方案。

涵蓋基礎(chǔ)主題、核心技術(shù)、架構(gòu)模式及工具文檔的核心概念。

Cosmos Cookbook 是物理 AI 社區(qū)分享 Cosmos WFM 實(shí)踐知識(shí)的資源平臺(tái)。我們歡迎各方通過(guò) GitHub 貢獻(xiàn)內(nèi)容，包括工作流、方法、優(yōu)秀實(shí)踐以及針對(duì)特定領(lǐng)域的調(diào)整方案。

入門(mén)指南

在本博客中，我們探討了提升機(jī)器人操作能力的新工作流程。我們展示了 ThinkAct 如何通過(guò)“先思考后行動(dòng)”的框架，對(duì)機(jī)器人動(dòng)作進(jìn)行推理與執(zhí)行。接著，我們討論了如何在通用操作策略的訓(xùn)練中結(jié)合使用模擬與真實(shí)數(shù)據(jù)。我們還分享了 RobotSmith 如何生成機(jī)器人工具設(shè)計(jì)，以優(yōu)化完成復(fù)雜任務(wù)時(shí)的工具使用效率。最后，我們介紹了 Cosmos Cookbook 如何借助 Cosmos 模型，為物理 AI項(xiàng)目提供示例和共享空間。

查看以下資源，深入了解本博客中討論的工作：

ThinkAct：論文、項(xiàng)目網(wǎng)站

針對(duì)仿真與現(xiàn)實(shí)策略聯(lián)合訓(xùn)練的通用領(lǐng)域適應(yīng)性：論文、項(xiàng)目網(wǎng)站

RobotSmith：論文、項(xiàng)目網(wǎng)站

Cosmos Cookbook：網(wǎng)站、GitHub

NVIDIA 研究團(tuán)隊(duì)在 NeurIPS 2025 上發(fā)表了多篇論文，涵蓋 ThinkAct、Generalizable Domain Adaptation 和 RobotSmith 等研究方向。

本文是 NVIDIA 機(jī)器人研發(fā)摘要 (R2D2) 的一部分，旨在幫助開(kāi)發(fā)者深入了解 NVIDIA Research 在物理 AI 與機(jī)器人應(yīng)用領(lǐng)域的最新突破。

關(guān)于作者

Asawaree Bhide 是 NVIDIA 的 AI 嵌入式工程實(shí)習(xí)生，致力于優(yōu)化和部署邊緣設(shè)備上的深度學(xué)習(xí)模型。她目前正在喬治亞理工學(xué)院攻讀計(jì)算機(jī)科學(xué)碩士學(xué)位，她對(duì)解決由具體代理自主導(dǎo)航的復(fù)雜感知任務(wù)感興趣。Tomasz Lewicki 是 NVIDIA 的嵌入式工程實(shí)習(xí)生。他擁有圣何塞州立大學(xué)計(jì)算機(jī)工程碩士學(xué)位，華沙工業(yè)大學(xué)華沙工業(yè)大學(xué)機(jī)器人工程學(xué)學(xué)士學(xué)位。他的興趣集中在計(jì)算機(jī)視覺(jué)和機(jī)器人應(yīng)用的深度學(xué)習(xí)上。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
213

文章
31060

瀏覽量
222125
NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5588

瀏覽量
109698
仿真

仿真

+關(guān)注

關(guān)注
54

文章
4479

瀏覽量
138208

原文標(biāo)題：R2D2：結(jié)合仿真與語(yǔ)言模型提升機(jī)器人操作能力

文章出處：【微信號(hào)：NVIDIA-Enterprise，微信公眾號(hào)：NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

如何利用NVIDIA Cosmos Cookbook提升機(jī)器人操作能力

評(píng)論