日韩有码中文字幕AV,中国一级黄色毛片,性一乱一交一A片.看A片

人形機器人和智能汽車等新一代 AI 機器人依賴于高保真、物理感知的訓練數據。如果沒有多樣化且具有代表性的數據集，這些系統將無法獲得適當的訓練，并且由于泛化性差、對現實世界變化的影響有限以及邊緣案例中的行為不可預測，因此會面臨測試風險。而收集大量真實數據集進行訓練成本高昂、耗時費力，而且往往受限于各種可能性。

NVIDIA Cosmos 通過加速世界基礎模型 (WFM) 開發(fā)來應對這一挑戰(zhàn)。Cosmos WFM 是其平臺的核心，可加快合成數據的生成，并作為后訓練的基礎，以開發(fā)下游領域或特定任務的物理 AI 模型來解決這些挑戰(zhàn)。本文將探討最新的 Cosmos WFM、其推進物理 AI 的關鍵功能，以及如何使用它們。

Cosmos Transfer 用于基于物理學的逼真視頻

Cosmos Transfer WFM 根據結構化輸入生成高保真世界場景，確保精確的空間對齊和場景構成。

通過采用 ControlNet 架構，Cosmos Transfer 可保留預訓練知識，從而實現結構化、一致的輸出。它利用時空控制圖來動態(tài)對齊合成和真實世界的表示，從而實現對場景構圖、物體放置和運動動態(tài)的精細控制。

輸入：

結構化視覺或幾何數據：分割圖、深度圖、邊緣圖、人體運動關鍵點、LiDAR 掃描、軌跡、HD 地圖和 3D 邊界框。

真值標注：用于精確對齊的高保真引用。

輸出：具有受控布局、物體放置和運動的逼真視頻序列。

主要功能：

生成與真實物理特性相符的可擴展、逼真的合成數據，例如使用 NVIDIA GPU 和 PyTorch 等技術。

通過結構化的多模態(tài)輸入控制對象交互和場景構圖。

使用 Cosmos Transfer 獲取可控的合成數據

借助生成式 AI 的 API 和 SDK， NVIDIA Omniverse 可加速物理 AI 仿真。開發(fā)者使用基于 OpenUSD 構建的 NVIDIA Omniverse 創(chuàng)建 3D 場景，以準確模擬現實世界環(huán)境，從而訓練和測試機器人和智能汽車。這些仿真可作為 Cosmos Transfer 的真值視頻輸入，并與標注和文本指令相結合。Cosmos Transfer 可在改變環(huán)境、照明和視覺條件的同時增強逼真度，從而生成可擴展的多樣化世界狀態(tài)。

此工作流可加速高質量訓練數據集的創(chuàng)建，確保 AI 智能體從仿真有效推廣到實際部署。

圖 . NVIDIA Omniverse 中的生成式 API 和 SDK 為 Cosmos Transfer 的真值模擬提供支持

Cosmos Transfer 通過在用于合成操作運動生成的 Isaac GR00T Blueprint 和用于智能汽車仿真的 Omniverse Blueprint 中實現逼真的照明、色彩和紋理來增強機器人開發(fā)，從而為訓練提供不同的環(huán)境和天氣條件。這種逼真的數據對于后訓練的策略模型至關重要，可確保將仿真平穩(wěn)地遷移到現實，并支持感知 AI 和 GR00T N1 等專用機器人模型的模型訓練。

使用 Cosmos Transfer 運行推理

以下是使用 Cosmos-Transfer1-7B 模型進行推理的一些示例命令。

Cosmos Transfer 已根據 NVIDIA Open Model License 在 Hugging Face 上公開可用。生成 Hugging Face 訪問令牌，使用 CLI 登錄，接受 LlamaGuard-7b 條款，并按照 Cosmos-Transfer1 GitHub 說明操作。

以下命令可下載 Cosmos-Transfer1 的基礎模型、tokenizer 和 guardrail 模型：

PYTHONPATH=$(pwd) python scripts/download_checkpoints.py --output_dir checkpoints/

使用以下命令運行模型。您可以使用 JSON 文件自定義設置，單獨或組合啟用模糊、Canny、深度或分割 ControlNets 等功能。

export CUDA_VISIBLE_DEVICES=0
PYTHONPATH=$(pwd) python cosmos_transfer1/diffusion/inference/transfer.py 
 --checkpoint_dir checkpoints 
 --input_video_path path/to/input_video.mp4 
 --video_save_name output_video 
 --sigma_max 70 
 --controlnet_specs spec.json

Cosmos WFM 可以后訓練為 VLA 策略模型，其中視頻輸出被機器人執(zhí)行的動作輸出所取代。對于上下文，策略模型根據當前觀察結果和給定任務生成物理 AI 系統要執(zhí)行的操作。經過良好訓練的 WFM 可以對世界的這種動態(tài)模式進行建模，并作為策略模型的良好初始化。

在 GitHub 上詳細了解 Cosmos Transfer 示例。

Cosmos Predict 生成未來世界狀態(tài)

Cosmos Predict WFM 旨在將未來世界狀態(tài)建模為來自多模態(tài)輸入（包括文本、視頻和開始端幀序列）的視頻。它使用基于 Transformer 的架構構建，可增強時間一致性和幀插值。

主要功能：

直接根據文本提示生成逼真的世界狀態(tài)。

通過預測缺失幀或擴展運動，根據視頻序列預測后續(xù)狀態(tài)。

在開始和結束圖像之間生成多幀，創(chuàng)建完整、流暢的序列。

Cosmos Predict WFM 為訓練機器人和智能汽車的下游世界模型奠定了堅實的基礎。您可以對這些模型進行后期訓練，以生成用于策略建模的動作而不是視頻，也可以對其進行調整以實現視覺語言理解，從而創(chuàng)建自定義感知 AI 模型。

Cosmos 以智能方式進行

感知、推理和響應的推理

Cosmos Reason 是一個完全可定制的多模態(tài) AI 推理模型，專為理解運動、物體交互和時空關系而構建。該模型使用 chain-of-thought (CoT) 推理來解釋視覺輸入，根據給定的提示預測結果，并獎勵最佳決策。與基于文本的 LLM 不同，它為現實世界的物理推理奠定了基礎，以自然語言生成清晰的上下文感知響應。

輸入：視頻觀察和基于文本的查詢或指令。

輸出：通過長視距 CoT 推理生成的文本響應。

主要功能：

了解物體如何隨時間移動、交互和變化。

根據輸入觀察結果預測并獎勵下一個最佳動作。

不斷完善決策制定。

專為后期訓練而構建，旨在構建感知 AI 和具身 AI 模型。

訓練管線

Cosmos Reason 分為三個階段進行訓練，增強其在現實世界場景中推理、預測和響應決策的能力。

預訓練：使用視覺 Transformer（ViT）將視頻幀處理為結構化嵌入，并將其與文本對齊，以共享對物體、動作和空間關系的理解。

監(jiān)督式微調 (SFT) ：使模型在兩個關鍵級別上專門進行物理推理。常規(guī)微調可使用多樣化的視頻文本數據集增強語言基礎和多模態(tài)感知，而對物理 AI 數據進行更多訓練可提高模型推理現實世界交互的能力。它可以學習物體的行為，例如如何在現實世界中使用物體、動作序列、確定多步驟任務的展開方式，以及空間可行性，以區(qū)分現實和不可能的放置。