一级黄色免费毛片,狠狠干我网址探花九色在线

隨著物理 AI 系統(tǒng)的不斷發(fā)展，對豐富標記數(shù)據(jù)集的需求正在急速增長，已經(jīng)超出了在現(xiàn)實世界中通過人工采集所能滿足的范圍。世界基礎模型（WFMs）是經(jīng)過訓練的生成式 AI 模型，能夠根據(jù)現(xiàn)實世界環(huán)境的動態(tài)，對未來的世界狀態(tài)進行仿真、預測和推理，這類模型有望幫助突破這一數(shù)據(jù)難題。

NVIDIA Cosmos是面向機器人及智能汽車等物理 AI 系統(tǒng)的世界基礎模型開發(fā)平臺。Cosmos 世界基礎模型包含三種可針對特定應用進行后訓練的模型類型：Cosmos Predict、Cosmos Transfer和Cosmos Reason。

Cosmos Predict 可根據(jù)圖像、視頻和文本提示生成關(guān)于“未來世界狀態(tài)”的視頻。Cosmos Transfer 使開發(fā)者能夠根據(jù) 2D 輸入和文本提示實現(xiàn)逼真的風格轉(zhuǎn)換。Cosmos Reason 作為視覺語言推理模型，可以對生成的數(shù)據(jù)進行篩選和標注，也可以通過后訓練，轉(zhuǎn)化為機器人視覺-語言-動作（VLA）模型。這些生成數(shù)據(jù)可用于訓練物理 AI 和工業(yè)視覺 AI，使其具備空間感知理解、運動軌跡規(guī)劃以及執(zhí)行復雜任務的能力。

本期 NVIDIA 機器人研究與開發(fā)摘要（R2D2）探討了 NVIDIA 研究中心推出的 Cosmos 世界基礎模型及工作流。本文將深入探討以下模型在物理 AI 應用的合成數(shù)據(jù)生成（SDG）與數(shù)據(jù)管理過程中發(fā)揮的關(guān)鍵作用：

1. Cosmos Predict：

適用于輔助駕駛的 Single2MultiView

Cosmos-Drive-Dreams

NVIDIA Isaac GR00T-Dreams

DiffusionRenderder

加速視頻生成

2. Cosmos Transfer：

適用于輔助駕駛的 Cosmos Transfer

邊緣模型蒸餾

3. Cosmos Reason

Cosmos Predict：

NVIDIA 研究中心為機器人打造的未來仿真模型

Cosmos Predict 模型可以針對機器人和智能汽車等物理 AI 應用進行后訓練。該模型以文本、圖像或視頻的形式輸入，并生成連貫且物理準確的未來幀。這項技術(shù)顯著加速了合成數(shù)據(jù)生成（SDG）的進程，為后訓練 AI 模型執(zhí)行復雜物理任務提供支持。下面分享后訓練的應用實例。

Single2MultiView

適用于輔助駕駛的 Single2MultiView，經(jīng)過 Cosmos Predict 模型的后訓練，可從單一的前視輔助駕駛視頻生成多個連貫的攝像頭視角。該系統(tǒng)可為輔助駕駛開發(fā)提供同步的多視角攝像頭影像數(shù)據(jù)。

單視角輸入視頻的推理示例：

CUDA_HOME=$CONDA_PREFIXPYTHONPATH=$(pwd) python cosmos_predict1/diffusion/inference/video2world_view_extend_multiview.py 
  --checkpoint_dir checkpoints 
  --diffusion_transformer_dir
Cosmos-Predict1-7B-Video2World-Sample-AV-Single2MultiView/t2w_model.pt 
  --view_condition_video assets/diffusion/sv2mv_input_view.mp4 
  --num_input_frames 1 
  --condition_location"first_cam"
  --prompt"${PROMPT}"
  --prompt_left"${PROMPT_LEFT}"
  --prompt_right"${PROMPT_RIGHT}"
  --prompt_back"${PROMPT_BACK}"
  --prompt_back_left"${PROMPT_BACK_LEFT}"
  --prompt_back_right"${PROMPT_BACK_RIGHT}"
  --video_save_name diffusion-single2multiview-text2world

Cosmos-Drive-Dreams

Cosmos-Drive-Dreams 為輔助駕駛生成復雜駕駛場景的工作流。Cosmos Drive 模型經(jīng)過駕駛領域的后訓練，可生成多視圖、高保真、時空一致的駕駛數(shù)據(jù)。使用經(jīng)過后訓練的 Cosmos Transfer 模型對生成的多視角數(shù)據(jù)進行增強，以提高在低能見度條件下的泛化能力（如霧天、雨天），從而完成 3D 車道檢測、3D 物體檢測和駕駛策略學習等任務。

Isaac GR00T-Dreams

基于 DreamGen 的 Isaac GR00T-Dreams，是用于生成大規(guī)模人形機器人合成軌跡數(shù)據(jù)的藍圖，實現(xiàn)了從真實數(shù)據(jù)到真實數(shù)據(jù)的完整工作流。該架構(gòu)使用 Cosmos Predict 技術(shù)，通過圖像和文本提示生成多樣化、逼真的機器人任務執(zhí)行視頻，并從中提取被稱為“神經(jīng)軌跡”的動作數(shù)據(jù)用于機器人策略訓練。這種方法能夠幫助機器人在最少人類參與的情況下學習新技能并適應不同環(huán)境。

在 GR1 數(shù)據(jù)集上對 GR00T 模型進行后訓練的示例如下：

EXP=predict2_video2world_training_2b_groot_gr1_480


torchrun--nproc_per_node=8--master_port=12341-m scripts.train --config=cosmos_predict2/configs/base/config.py -- experiment=${EXP}

DiffusionRenderer

DiffusionRenderer 是一款神經(jīng)渲染框架，僅需單段視頻輸入，無需依賴顯式的 3D 幾何結(jié)構(gòu)或光照數(shù)據(jù)，就能實現(xiàn)逼真的重新打光、材質(zhì)編輯與物體植入功能。該框架借助視頻擴散模型估算場景屬性，進而生成真實感極強的新圖像。引入 Cosmos Predict 的擴散模型后，DiffusionRenderer 的光照處理能力得到顯著提升，能夠輸出精度更高、時間維度上更連貫的渲染結(jié)果。這一技術(shù)對物理 AI 仿真具有重要價值，能夠使場景編輯具備更高的效率與可控性。

圖 . DiffusionRenderer 方法概述

以下是視頻重新打光的示例命令。該命令通過逆向渲染器對幀序列應用新光照，并生成重新打光后的視頻幀：

CUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1/diffusion/inference/inference_forward_renderer.py 
 --checkpoint_dir checkpoints 
 --diffusion_transformer_dir Diffusion_Renderer_Forward_Cosmos_7B 
 --dataset_path=asset/example_results/video_delighting/gbuffer_frames 
 --num_video_frames 57 
 --envlight_ind 0123 
 --use_custom_envmap=True 
 --video_save_folder=asset/example_results/video_relighting/

加速視頻生成

加速視頻生成模型 Cosmos-Predict2 現(xiàn)在通過鄰域注意力機制（NATTEN），提高了對相關(guān)視頻區(qū)域的聚焦能力。該注意力系統(tǒng)具有層級自適應性，可動態(tài)平衡全局和局部上下文，以實現(xiàn)速度和質(zhì)量的最佳平衡。通過在模型層中實現(xiàn)稀疏注意力，可以最大限度地減少視頻生成過程中的冗余計算。鄰域注意力機制通過針對 NVIDIA 硬件優(yōu)化的后端代碼進一步提升了效率。因此，在部分 NVIDIA GPU 上，視頻推理速度可提升 2 到 2.5 倍。

Cosmos Transfer：

用于機器人和智能汽車的可控合成數(shù)據(jù)生成方案

Cosmos Transfer 模型基于多種控制輸入生成世界仿真場景，包括分割圖、深度圖、邊緣圖、激光雷達掃描、關(guān)鍵點和高精地圖等。這些多模態(tài)控制方式使用戶在通過文本提示生成多樣化視覺特征的同時，能夠精準控制場景構(gòu)成。該技術(shù)旨在增強合成數(shù)據(jù)集的視覺多樣性，全面提升機器人與智能汽車應用中從仿真到現(xiàn)實的遷移效果。

Cosmos Transfer 應用

現(xiàn)在，讓我們來看看使用 Cosmos Transfer 的一些工作流。

CosmosTransfer for AVs

Cosmos Transfer for AVs 能夠通過多樣化文本提示，從單一駕駛場景生成新的環(huán)境條件（如天氣、光照和地形）。該技術(shù)采用多模態(tài)控制作為輸入來增強數(shù)據(jù)多樣性，例如在 Cosmos Drive Dreams 應用場景中所示。這項技術(shù)對創(chuàng)建輔助駕駛訓練數(shù)據(jù)集具有重要意義，因為它能根據(jù)用戶文本提示，基于單一視頻實現(xiàn)大規(guī)模數(shù)據(jù)生成。

Cosmos Transfer 通過輸入同一段視頻并結(jié)合不同的文本提示（如“雪天”或“夜間場景”）生成各種條件和邊緣情況。

基于文本提示和高精地圖條件視頻，使用 Cosmos Transfer 生成 RGB 視頻的示例命令如下：

exportCUDA_VISIBLE_DEVICES="${CUDA_VISIBLE_DEVICES:=0}"
exportCHECKPOINT_DIR="${CHECKPOINT_DIR:=./checkpoints}"
exportNUM_GPU="${NUM_GPU:=1}"
PYTHONPATH=$(pwd) torchrun --nproc_per_node=$NUM_GPU--nnodes=1 --node_rank=0 cosmos_transfer1/diffusion/inference/transfer.py 
  --checkpoint_dir$CHECKPOINT_DIR
  --video_save_folder outputs/example1_single_control_edge_distilled 
  --controlnet_specs assets/inference_cosmos_transfer1_single_control_edge.json 
  --offload_text_encoder_model 
  --offload_guardrail_models 
  --num_gpus$NUM_GPU
  --use_distilled

邊緣模型蒸餾

邊緣模型蒸餾是 Cosmos Transfer 的改進版本。原始的 Cosmos Transfer 模型需要經(jīng)過 70 次處理才能生成視頻，計算成本高昂。針對邊緣模式的模型蒸餾技術(shù)能夠產(chǎn)出更輕量的學生模型，該模型能夠在單一步驟中執(zhí)行相同的任務，且生成質(zhì)量與原始模型高度一致。其他控制模式（如深度圖、分割圖、高清地圖和激光雷達）也可以通過類似的方式進行性能提升。通過減少視頻生成所需的計算工作量，可實現(xiàn)更快、更經(jīng)濟的部署?？梢酝ㄟ^--use_distilled 參數(shù)啟用蒸餾版本。

Cosmos Reason：

面向物理 AI 的長時推理框架

Cosmos Reason 是專注于物理 AI 推理的世界基礎模型，能夠理解物理常識，并通過長鏈式思維推理生成適當?shù)木唧w決策。該模型能深度理解動作序列與現(xiàn)實世界約束，因此在合成數(shù)據(jù)生成（SDG）過程中可作為評估器來篩選高質(zhì)量訓練數(shù)據(jù)。該模型分兩個階段進行訓練：監(jiān)督式微調(diào)（SFT）和強化學習。

圖 . Cosmos Reason 架構(gòu)概述

監(jiān)督微調(diào)（SFT）訓練可以提高CosmosReason 模型在特定任務上的性能。例如，使用 robovqa 數(shù)據(jù)集進行訓練可以提高機器人在視覺問答應用場景中的表現(xiàn)。以下是啟動監(jiān)督微調(diào)訓練的示例命令：

cosmos-rl --config configs/cosmos-reason1-7b-fsdp2-sft.toml
./tools/dataset/cosmos_sft.py

本文是“NVIDIA 機器人研究與開發(fā)摘要（R2D2）”的一部分，旨在讓開發(fā)者更深入地了解 NVIDIA 研究中心在物理 AI 和機器人應用方面的最新突破。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴