91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

解讀NVIDIA Cosmos世界基礎模型的最新功能

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2025-08-22 16:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人形機器人和智能汽車等新一代 AI 機器人依賴于高保真、物理感知的訓練數據。如果沒有多樣化且具有代表性的數據集,這些系統將無法獲得適當的訓練,并且由于泛化性差、對現實世界變化的影響有限以及邊緣案例中的行為不可預測,因此會面臨測試風險。而收集大量真實數據集進行訓練成本高昂、耗時費力,而且往往受限于各種可能性。

NVIDIA Cosmos 通過加速世界基礎模型 (WFM) 開發(fā)來應對這一挑戰(zhàn)。Cosmos WFM 是其平臺的核心,可加快合成數據的生成,并作為后訓練的基礎,以開發(fā)下游領域或特定任務的物理 AI 模型來解決這些挑戰(zhàn)。本文將探討最新的 Cosmos WFM、其推進物理 AI 的關鍵功能,以及如何使用它們。

Cosmos Transfer 用于基于物理學的逼真視頻

Cosmos Transfer WFM 根據結構化輸入生成高保真世界場景,確保精確的空間對齊和場景構成。

通過采用 ControlNet 架構,Cosmos Transfer 可保留預訓練知識,從而實現結構化、一致的輸出。它利用時空控制圖來動態(tài)對齊合成和真實世界的表示,從而實現對場景構圖、物體放置和運動動態(tài)的精細控制。

輸入:

結構化視覺或幾何數據:分割圖、深度圖、邊緣圖、人體運動關鍵點、LiDAR 掃描、軌跡、HD 地圖和 3D 邊界框。

真值標注:用于精確對齊的高保真引用。

輸出:具有受控布局、物體放置和運動的逼真視頻序列。

主要功能:

生成與真實物理特性相符的可擴展、逼真的合成數據,例如使用 NVIDIA GPU 和 PyTorch 等技術。

通過結構化的多模態(tài)輸入控制對象交互和場景構圖。

使用 Cosmos Transfer 獲取可控的合成數據

借助生成式 AI 的 APISDK, NVIDIA Omniverse 可加速物理 AI 仿真。開發(fā)者使用基于 OpenUSD 構建的 NVIDIA Omniverse 創(chuàng)建 3D 場景,以準確模擬現實世界環(huán)境,從而訓練和測試機器人和智能汽車。這些仿真可作為 Cosmos Transfer 的真值視頻輸入,并與標注和文本指令相結合。Cosmos Transfer 可在改變環(huán)境、照明和視覺條件的同時增強逼真度,從而生成可擴展的多樣化世界狀態(tài)。

此工作流可加速高質量訓練數據集的創(chuàng)建,確保 AI 智能體從仿真有效推廣到實際部署。

f367155a-7e7e-11f0-a18e-92fbcf53809c.png

圖 . NVIDIA Omniverse 中的生成式 API 和 SDK 為 Cosmos Transfer 的真值模擬提供支持

Cosmos Transfer 通過在用于合成操作運動生成的 Isaac GR00T Blueprint 和用于智能汽車仿真的 Omniverse Blueprint 中實現逼真的照明、色彩和紋理來增強機器人開發(fā),從而為訓練提供不同的環(huán)境和天氣條件。這種逼真的數據對于后訓練的策略模型至關重要,可確保將仿真平穩(wěn)地遷移到現實,并支持感知 AI 和 GR00T N1 等專用機器人模型的模型訓練。

使用 Cosmos Transfer 運行推理

以下是使用 Cosmos-Transfer1-7B 模型進行推理的一些示例命令。

Cosmos Transfer 已根據 NVIDIA Open Model License 在 Hugging Face 上公開可用。生成 Hugging Face 訪問令牌,使用 CLI 登錄,接受 LlamaGuard-7b 條款,并按照 Cosmos-Transfer1 GitHub 說明操作。

以下命令可下載 Cosmos-Transfer1 的基礎模型、tokenizer 和 guardrail 模型:

PYTHONPATH=$(pwd) python scripts/download_checkpoints.py --output_dir checkpoints/

使用以下命令運行模型。您可以使用 JSON 文件自定義設置,單獨或組合啟用模糊、Canny、深度或分割 ControlNets 等功能。

export CUDA_VISIBLE_DEVICES=0
PYTHONPATH=$(pwd) python cosmos_transfer1/diffusion/inference/transfer.py 
 --checkpoint_dir checkpoints 
 --input_video_path path/to/input_video.mp4 
 --video_save_name output_video 
 --sigma_max 70 
 --controlnet_specs spec.json

Cosmos WFM 可以后訓練為 VLA 策略模型,其中視頻輸出被機器人執(zhí)行的動作輸出所取代。對于上下文,策略模型根據當前觀察結果和給定任務生成物理 AI 系統要執(zhí)行的操作。經過良好訓練的 WFM 可以對世界的這種動態(tài)模式進行建模,并作為策略模型的良好初始化。

在 GitHub 上詳細了解 Cosmos Transfer 示例。

Cosmos Predict 生成未來世界狀態(tài)

Cosmos Predict WFM 旨在將未來世界狀態(tài)建模為來自多模態(tài)輸入(包括文本、視頻和開始端幀序列)的視頻。它使用基于 Transformer 的架構構建,可增強時間一致性和幀插值。

主要功能:

直接根據文本提示生成逼真的世界狀態(tài)。

通過預測缺失幀或擴展運動,根據視頻序列預測后續(xù)狀態(tài)。

在開始和結束圖像之間生成多幀,創(chuàng)建完整、流暢的序列。

Cosmos Predict WFM 為訓練機器人和智能汽車的下游世界模型奠定了堅實的基礎。您可以對這些模型進行后期訓練 ,以生成用于策略建模的動作而不是視頻,也可以對其進行調整以實現視覺語言理解,從而創(chuàng)建自定義感知 AI 模型。

Cosmos 以智能方式進行

感知、推理和響應的推理

Cosmos Reason 是一個完全可定制的多模態(tài) AI 推理模型,專為理解運動、物體交互和時空關系而構建。該模型使用 chain-of-thought (CoT) 推理來解釋視覺輸入,根據給定的提示預測結果,并獎勵最佳決策。與基于文本的 LLM 不同,它為現實世界的物理推理奠定了基礎,以自然語言生成清晰的上下文感知響應。

輸入:視頻觀察和基于文本的查詢或指令。

輸出:通過長視距 CoT 推理生成的文本響應。

主要功能:

了解物體如何隨時間移動、交互和變化。

根據輸入觀察結果預測并獎勵下一個最佳動作。

不斷完善決策制定。

專為后期訓練而構建,旨在構建感知 AI 和具身 AI 模型。

訓練管線

Cosmos Reason 分為三個階段進行訓練,增強其在現實世界場景中推理、預測和響應決策的能力。

預訓練:使用視覺 Transformer(ViT)將視頻幀處理為結構化嵌入,并將其與文本對齊,以共享對物體、動作和空間關系的理解。

監(jiān)督式微調 (SFT) :使模型在兩個關鍵級別上專門進行物理推理。常規(guī)微調可使用多樣化的視頻文本數據集增強語言基礎和多模態(tài)感知,而對物理 AI 數據進行更多訓練可提高模型推理現實世界交互的能力。它可以學習物體的行為,例如如何在現實世界中使用物體、動作序列、確定多步驟任務的展開方式,以及空間可行性,以區(qū)分現實和不可能的放置。

fe218070-7e7e-11f0-a18e-92fbcf53809c.png

圖 . 強化學習反饋回路通過正反饋和模型調整不斷改進

強化學習 (RL) :該模型會評估不同的推理路徑,并僅在通過試驗和獎勵反饋做出更好的決策時自我更新。它不依賴人工標記的數據,而是使用基于規(guī)則的獎勵:

實體識別:獎勵準確識別對象及其屬性的行為。

空間限制:懲罰物理上不可能進行的放置,同時強化逼真的物體定位。

時間推理:鼓勵根據因果關系進行正確的序列預測。

開始使用

Cosmos WFM 在Hugging Face 上提供,并在 GitHub 上為 Cosmos-Predict1 和 Cosmos-Transfer1 提供了推理腳本。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    31065

    瀏覽量

    222131
  • NVIDIA
    +關注

    關注

    14

    文章

    5589

    瀏覽量

    109702
  • AI
    AI
    +關注

    關注

    91

    文章

    39692

    瀏覽量

    301294

原文標題:使用 NVIDIA Cosmos 世界基礎模型擴展合成數據和物理 AI 推理

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    英偉達Cosmos-Reason1 模型深度解讀

    。以下從技術架構、訓練策略、核心能力及行業(yè)影響四方面展開深度解讀Cosmos-Reason 1:從物理 AI 常識到具體決策 物理 AI 系統需要感知、理解和執(zhí)行物理世界中的復雜作。在本文中,我們提出了
    的頭像 發(fā)表于 03-29 23:29 ?2973次閱讀

    NVIDIA Cosmos世界基礎模型平臺發(fā)布

    NVIDIA 宣布推出NVIDIA Cosmos,該平臺由先進的生成式世界基礎模型、高級 tokenizer、護欄和加速視頻處理管線組成,將
    的頭像 發(fā)表于 01-08 10:39 ?1257次閱讀

    NVIDIA發(fā)布Cosmos?平臺,助力物理AI系統發(fā)展

    NVIDIA近日宣布推出全新的NVIDIA Cosmos?平臺,該平臺專為自動駕駛汽車(AV)和機器人等物理AI系統而設計,旨在推動這些領域的快速發(fā)展。 Cosmos平臺融合了先進的生
    的頭像 發(fā)表于 01-08 15:36 ?1039次閱讀

    英偉達發(fā)布Cosmos世界基礎模型

    近日,在2025年1月6日于拉斯維加斯拉開帷幕的國際消費類電子產品展覽會(CES)上,英偉達宣布了一項重大創(chuàng)新——Cosmos世界基礎模型平臺。該平臺集成了先進的生成世界基礎
    的頭像 發(fā)表于 01-09 10:23 ?1077次閱讀

    NVIDIA發(fā)布Cosmos平臺,加速物理AI開發(fā)

    NVIDIA近日宣布了一項重大創(chuàng)新——推出NVIDIA Cosmos?平臺。該平臺集成了先進的生成式世界基礎模型、高級tokenizer、護
    的頭像 發(fā)表于 01-13 11:06 ?1188次閱讀

    英偉達推出基石世界模型Cosmos,解決智駕與機器人具身智能訓練數據問題

    CES 2025展會上,英偉達推出了基石世界模型Cosmos,World Foundation Model基石世界模型,簡稱WFM。 物理
    的頭像 發(fā)表于 01-14 11:04 ?2512次閱讀
    英偉達推出基石<b class='flag-5'>世界</b><b class='flag-5'>模型</b><b class='flag-5'>Cosmos</b>,解決智駕與機器人具身智能訓練數據問題

    NVIDIA Cosmos世界基礎模型平臺的主要功能

    隨著機器人技術和自動駕駛汽車的發(fā)展,加快物理 AI 的開發(fā)工作變得至關重要。物理 AI 使自主機器能夠感知、理解并執(zhí)行物理世界中的復雜操作,而這些系統的核心是世界基礎模型(WFM)。這種 AI
    的頭像 發(fā)表于 01-15 11:03 ?1771次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b><b class='flag-5'>世界</b>基礎<b class='flag-5'>模型</b>平臺的主要<b class='flag-5'>功能</b>

    英偉達GTC2025亮點 NVIDIA推出Cosmos世界基礎模型和物理AI數據工具的重大更新

    、Figure AI、Skild AI 是最早采用該技術的公司。 NVIDIA 宣布推出全新 NVIDIA Cosmos 世界基礎模型 (W
    的頭像 發(fā)表于 03-20 19:01 ?1333次閱讀

    NVIDIA Cosmos加速機器人和自動駕駛汽車物理AI發(fā)展

    NVIDIA Cosmos 通過可預測未來世界狀態(tài)的世界基礎模型加速物理 AI 的發(fā)展。
    的頭像 發(fā)表于 04-24 11:01 ?1258次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b>加速機器人和自動駕駛汽車物理AI發(fā)展

    NVIDIA GTC巴黎亮點:全新Cosmos Predict-2世界基礎模型與CARLA集成加速智能汽車訓練

    。這種向使用大模型的過渡大大增加了對用于訓練、測試和驗證的高質量、基于物理學傳感器數據的需求。 為加速下一代輔助駕駛架構的開發(fā),NVIDIA 發(fā)布了?NVIDIA Cosmos Pre
    的頭像 發(fā)表于 06-12 10:00 ?1091次閱讀

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    近日,NVIDIA 開源其物理 AI 平臺 NVIDIA Cosmos 中的關鍵模型——NVIDIA C
    的頭像 發(fā)表于 07-09 10:17 ?801次閱讀

    通過NVIDIA Cosmos模型增強機器人學習

    擴展。基于 NVIDIA Cosmos 構建的 NVIDIA Isaac GR00T-Dreams blueprint,可以通過單張圖像和語言提示生成海量的合成軌跡數據,能夠有效解決這一難題。
    的頭像 發(fā)表于 07-14 11:49 ?1075次閱讀
    通過<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b><b class='flag-5'>模型</b>增強機器人學習

    利用NVIDIA Cosmos模型訓練通用機器人

    機器人領域的一大核心挑戰(zhàn)在于如何讓機器人掌握新任務,而無需針對每個新任務和環(huán)境耗費大量精力收集和標注數據集。NVIDIA 的最新研究方案通過生成式 AI、世界基礎模型(如 NVIDIA
    的頭像 發(fā)表于 08-05 16:22 ?2107次閱讀
    利用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b><b class='flag-5'>模型</b>訓練通用機器人

    NVIDIA通過全新 Omniverse庫、Cosmos物理AI模型及AI計算基礎設施,為機器人領域開啟新篇章

    Gaussian Splatting(3DGS)庫支持大規(guī)模世界重建 ·?全新 NVIDIA Cosmos 模型支持世界生成與空間推理 ·
    的頭像 發(fā)表于 08-12 11:29 ?1766次閱讀
    <b class='flag-5'>NVIDIA</b>通過全新 Omniverse庫、<b class='flag-5'>Cosmos</b>物理AI<b class='flag-5'>模型</b>及AI計算基礎設施,為機器人領域開啟新篇章

    利用NVIDIA Cosmos開放世界基礎模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎模型(WFM)的更新,旨在加速物理 AI
    的頭像 發(fā)表于 12-01 09:25 ?1123次閱讀