91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Adobe提出DMV3D:3D生成只需30秒!讓文本、圖像都動(dòng)起來的新方法!

CVer ? 來源:機(jī)器之心 ? 2024-01-30 16:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

3D 生成是 AI 視覺領(lǐng)域的研究熱點(diǎn)之一。本文中,來自 Adobe 研究院和斯坦福大學(xué)等機(jī)構(gòu)的研究者利用基于 transformer 的 3D 大型重建模型來對多視圖擴(kuò)散進(jìn)行去噪,并提出了一種新穎的 3D 生成方法 DMV3D,實(shí)現(xiàn)了新的 SOTA 結(jié)果。

2D 擴(kuò)散模型極大地簡化了圖像內(nèi)容的創(chuàng)作流程,2D 設(shè)計(jì)行業(yè)也因此發(fā)生了變革。近來,擴(kuò)散模型已擴(kuò)展到 3D 創(chuàng)作領(lǐng)域,減少了應(yīng)用程序(如 VR、AR、機(jī)器人技術(shù)和游戲等)中的人工成本。有許多研究已經(jīng)對使用預(yù)訓(xùn)練的 2D 擴(kuò)散模型,生成具有評分蒸餾采樣(SDS)損失的 NeRFs 方法進(jìn)行了探索。然而,基于 SDS 的方法通常需要花費(fèi)數(shù)小時(shí)來優(yōu)化資源,并且經(jīng)常引發(fā)圖形中的幾何問題,比如多面 Janus 問題。 另一方面,研究者對無需花費(fèi)大量時(shí)間優(yōu)化每個(gè)資源,也能夠?qū)崿F(xiàn)多樣化生成的 3D 擴(kuò)散模型也進(jìn)行了多種嘗試。這些方法通常需要獲取包含真實(shí)數(shù)據(jù)的 3D 模型 / 點(diǎn)云用于訓(xùn)練。然而,對于真實(shí)圖像來說,這種訓(xùn)練數(shù)據(jù)難以獲得。由于目前的 3D 擴(kuò)散方法通常基于兩階段訓(xùn)練,這導(dǎo)致在不分類、高度多樣化的 3D 數(shù)據(jù)集上存在一個(gè)模糊且難以去噪的潛在空間,使得高質(zhì)量渲染成為亟待解決的挑戰(zhàn)。

為了解決這個(gè)問題,已經(jīng)有研究者提出了單階段模型,但這些模型大多數(shù)只針對特定的簡單類別,泛化性較差。

因此,本文研究者的目標(biāo)是實(shí)現(xiàn)快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類別擴(kuò)散模型,能直接根據(jù)模型文字或單張圖片的輸入,生成 3D NeRF。在單個(gè) A100 GPU 上,僅需 30 秒,DMV3D 就能生成各種高保真 3D 圖像。

c8abfcd6-b8c3-11ee-8b88-92fbcf53809c.png

具體來講,DMV3D 是一個(gè) 2D 多視圖圖像擴(kuò)散模型,它將 3D NeRF 重建和渲染集成到其降噪器中,以端到端的方式進(jìn)行訓(xùn)練,而無需直接 3D 監(jiān)督。這避免了單獨(dú)訓(xùn)練用于潛在空間擴(kuò)散的 3D NeRF 編碼器(如兩階段模型)和繁瑣的對每個(gè)對象進(jìn)行優(yōu)化的方法(如 SDS)中會出現(xiàn)的問題。

本質(zhì)上,本文的方法是對 2D 多視圖擴(kuò)散的框架進(jìn)行 3D 重建。這種方法受到了 RenderDiffusion 的啟發(fā),它是一種通過單視圖擴(kuò)散實(shí)現(xiàn) 3D 生成的方法。然而,RenderDiffusion 的局限性在于,訓(xùn)練數(shù)據(jù)需要特定類別的先驗(yàn)知識,數(shù)據(jù)中的對象也需要特定的角度或姿勢,因此泛化性很差,無法對任意類型的對象進(jìn)行 3D 生成。

相比之下,研究者認(rèn)為一組稀疏的包含一個(gè)對象的四個(gè)多視角的投影,足以描述一個(gè)沒有被遮擋的 3D 物體。這種訓(xùn)練數(shù)據(jù)的輸入源于人類的空間想象能力。他們可以根據(jù)幾個(gè)對象的周圍的平面視圖,想象出一個(gè)完整的 3D 物體。這種想象通常是非常確定和具像化的。

然而,利用這種輸入本質(zhì)上仍需解決稀疏視圖下 3D 重建的任務(wù)。這是一個(gè)長期存在的問題,即使在輸入沒有噪聲的情況下,也是一個(gè)非常具有挑戰(zhàn)性的問題。

本文的方法能夠基于單個(gè)圖像 / 文本實(shí)現(xiàn) 3D 生成。對于圖像輸入,他們固定一個(gè)稀疏視圖作為無噪聲輸入,并對其他視圖進(jìn)行類似于 2D 圖像修復(fù)的降噪。為了實(shí)現(xiàn)基于文本的 3D 生成,研究者使用了在 2D 擴(kuò)散模型中通常會用到的、基于注意力的文本條件和不受類型限制的分類器。

他們只采用了圖像空間監(jiān)督,在 Objaverse 合成的圖像和 MVImgNet 真實(shí)捕獲的圖像組成的大型數(shù)據(jù)集上進(jìn)行了訓(xùn)練。從結(jié)果來看,DMV3D 在單圖像 3D 重建方面取得了 SOTA,超越了先前基于 SDS 的方法和 3D 擴(kuò)散模型。DMV3D 生成的基于文本的 3D 模型,也優(yōu)于此前的方法。

c8b1ba0e-b8c3-11ee-8b88-92fbcf53809c.png

論文地址:https://arxiv.org/pdf/2311.09217.pdf

官網(wǎng)地址:https://justimyhxu.github.io/projects/dmv3d/

我們來看一下生成的 3D 圖像效果。

c8c91d48-b8c3-11ee-8b88-92fbcf53809c.gif

c8d16c5a-b8c3-11ee-8b88-92fbcf53809c.gif

方法概覽 單階段 3D 擴(kuò)散模型是如何訓(xùn)練并推理的呢? 研究者首先引入了一種新的擴(kuò)散框架,該框架使用基于重建的降噪器來對有噪聲的多視圖圖像去噪以進(jìn)行 3D 生成;其次他們提出了一種新的、以擴(kuò)散時(shí)間步為條件的、基于 LRM 的多視圖降噪器,從而通過 3D NeRF 重建和渲染來漸進(jìn)地對多視圖圖像進(jìn)行去噪;最后進(jìn)一步對模型進(jìn)行擴(kuò)散,支持文本和圖像調(diào)節(jié),實(shí)現(xiàn)可控生成。

多視圖擴(kuò)散和去噪

多視圖擴(kuò)散。2D擴(kuò)散模型中處理的原始 x_0 分布在數(shù)據(jù)集中是單個(gè)圖像分布。相反,研究者考慮的是多視圖圖像

c9084b12-b8c3-11ee-8b88-92fbcf53809c.png

的聯(lián)合分布,其中每組

c91048d0-b8c3-11ee-8b88-92fbcf53809c.png

都是從視點(diǎn) C = {c_1, .. ., c_N} 中相同 3D 場景(資產(chǎn))的圖像觀察結(jié)果。擴(kuò)散過程相當(dāng)于使用相同的噪聲調(diào)度獨(dú)立地對每個(gè)圖像進(jìn)行擴(kuò)散操作,如下公式(1) 所示。

c917a062-b8c3-11ee-8b88-92fbcf53809c.png

基于重建的去噪。2D 擴(kuò)散過程的逆過程本質(zhì)上是去噪。本文中,研究者提出利用 3D 重建和渲染來實(shí)現(xiàn) 2D 多視圖圖像去噪,同時(shí)輸出干凈的、用于 3D 生成的 3D 模型。具體來講,他們使用 3D 重建模塊 E (?) 來從有噪聲的多視圖圖像

c923f25e-b8c3-11ee-8b88-92fbcf53809c.png

中重建 3D 表示 S,并使用可微渲染模塊 R (?) 對去噪圖像進(jìn)行渲染,如下公式 (2) 所示。

c92d43b8-b8c3-11ee-8b88-92fbcf53809c.png

基于重建的多視圖降噪器

研究者基于 LRM 構(gòu)建了多視圖降噪器,并使用大型 transformer 模型從有噪聲的稀疏視圖姿態(tài)圖像中重建了一個(gè)干凈的三平面 NeRF,然后將重建后的三平面 NeRF 的渲染用作去噪輸出。

重建和渲染。如下圖 3 所示,研究者使用一個(gè) Vision Transformer(DINO)來將輸入圖像

c938e894-b8c3-11ee-8b88-92fbcf53809c.png

轉(zhuǎn)化為 2D token,然后使用 transformer 將學(xué)得的三平面位置嵌入映射到最后的三平面,以表示資產(chǎn)的 3D 形狀和外觀。接下來將預(yù)測到的三平面用來通過一個(gè) MLP 來解碼體積密度和顏色,以進(jìn)行可微體積渲染。

c940bcb8-b8c3-11ee-8b88-92fbcf53809c.png

時(shí)間調(diào)節(jié)。與基于 CNN 的 DDPM(去噪擴(kuò)散概率模型)相比,本文基于 transformer 的模型需要不同的時(shí)間調(diào)節(jié)設(shè)計(jì)。

相機(jī)調(diào)節(jié)。在具有高度多樣化的相機(jī)內(nèi)參和外參的數(shù)據(jù)集(如 MVImgNet)上訓(xùn)練本文的模型時(shí),研究者表示需要對輸入相機(jī)調(diào)節(jié)進(jìn)行有效的設(shè)計(jì),以促使模型理解相機(jī)并實(shí)現(xiàn) 3D 推理。

在單個(gè)圖像或文本上調(diào)節(jié)

以上方法使研究者提出的模型可以充當(dāng)一個(gè)無條件生成模型。他們介紹了如何利用條件降噪器

c955b3b6-b8c3-11ee-8b88-92fbcf53809c.png

來對條件概率分布進(jìn)行建模,其中 y 表示文本或圖像,以實(shí)現(xiàn)可控 3D 生成。

圖像調(diào)節(jié)。研究者提出了一種簡單但有效的圖像調(diào)節(jié)策略,其中不需要改變模型的架構(gòu)。

文本調(diào)節(jié)。為了將文本調(diào)節(jié)添加到自己的模型中,研究者采用了類似于 Stable Diffusion 的策略。他們使用 CLIP 文本編碼器生成文本嵌入,并使用交叉注意力將它們注入到降噪器中。

訓(xùn)練和推理

訓(xùn)練。在訓(xùn)練階段,研究者在范圍 [1, T] 內(nèi)均勻地采樣時(shí)間步 t,并根據(jù)余弦調(diào)度來添加噪聲。他們使用隨機(jī)相機(jī)姿態(tài)對輸入圖像進(jìn)行采樣,還隨機(jī)采樣額外的新視點(diǎn)來監(jiān)督渲染以獲得更好的質(zhì)量。

研究者使用條件信號 y 來最小化以下訓(xùn)練目標(biāo)。

c964e192-b8c3-11ee-8b88-92fbcf53809c.png

推理。在推理階段,研究者選擇了以圓圈均勻圍繞對象的視點(diǎn),以確保很好地覆蓋生成的 3D 資產(chǎn)。他們將四個(gè)視圖的相機(jī)市場角固定為 50 度。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)環(huán)節(jié),研究者使用了 AdamW 優(yōu)化器來訓(xùn)練自己的模型,其中初始學(xué)習(xí)率為 4e^-4。他們針對該學(xué)習(xí)率使用了 3K 步的預(yù)熱和余弦衰減,使用 256 × 256 輸入圖像來訓(xùn)練降噪器,對 128 × 128 的裁剪圖像進(jìn)行渲染以進(jìn)行監(jiān)督。

關(guān)于數(shù)據(jù)集,研究者的模型只需多視圖姿態(tài)圖像來訓(xùn)練,因而使用來自 Objaverse 數(shù)據(jù)集的約 730k 個(gè)對象的渲染后多視圖圖像。對于每個(gè)對象,他們按照 LRM 的設(shè)置,在對固定 50 度 FOV 的隨機(jī)視點(diǎn)均勻照明下,渲染了 32 張圖像。

首先是單圖像重建。研究者將自己的圖像 - 調(diào)節(jié)模型與 Point-E、Shap-E、Zero-1-to-3 和 Magic123 等以往方法在單圖像重建任務(wù)上進(jìn)行了比較。他們使用到的指標(biāo)有 PSNR、LPIPS、CLIP 相似性得分和 FID,以評估所有方法的新視圖渲染質(zhì)量。

下表 1 分別展示了 GSO 和 ABO 測試集上的定量結(jié)果。研究者的模型優(yōu)于所有基線方法,并在兩個(gè)數(shù)據(jù)集上實(shí)現(xiàn)所有指標(biāo)的新 SOTA。

c983cdd2-b8c3-11ee-8b88-92fbcf53809c.png

圖 4 為定性結(jié)果,相比基線,本文模型生成的結(jié)果具有更高質(zhì)量的幾何和更清晰的外觀細(xì)節(jié)。

相比之下,DMV3D 是一個(gè)以 2D 圖像為訓(xùn)練目標(biāo)的單階段模型,無需對每個(gè)資產(chǎn)單獨(dú)優(yōu)化,在消除多視圖擴(kuò)散噪聲的同時(shí),直接生成 3D NeRF 的模型??偟膩碚f,DMV3D 可以快速生成 3D 圖像,并獲得最優(yōu)的單圖像 3D 重建結(jié)果。

c996bb7c-b8c3-11ee-8b88-92fbcf53809c.png

從文本到 3D。研究者還評估了 DMV3D 基于文本的 3D 生成結(jié)果。研究者將 DMV3D 和同樣能夠支持全類別的快速推理的 Shap-E 和 Point-E 進(jìn)行了比較。研究者讓三個(gè)模型根據(jù) Shap-E 的 50 個(gè)文本提示進(jìn)行生成,并使用了兩個(gè)不同的 ViT 模型的 CLIP 精度和平均精度來評估生成結(jié)果,如表 2 所示。

c9ad2f10-b8c3-11ee-8b88-92fbcf53809c.png

從表中可以看出,DMV3D 表現(xiàn)出了最佳的精度。圖 5 中是定性結(jié)果,相比于其他模型的生成結(jié)果,DMV3D 生成的圖形明顯包含更豐富的幾何和外觀細(xì)節(jié),結(jié)果也更逼真。

c9b9ab1e-b8c3-11ee-8b88-92fbcf53809c.png

其他結(jié)果

在視角方面,研究者在表 3 和圖 8 中顯示了用不同數(shù)量(1、2、4、6)的輸入視圖訓(xùn)練的模型的定量和定性比較。

c9d5d7a8-b8c3-11ee-8b88-92fbcf53809c.png

c9e3962c-b8c3-11ee-8b88-92fbcf53809c.png

在多實(shí)例生成方面,與其他擴(kuò)散模型類似,本文提出的模型可以根據(jù)隨機(jī)輸入生成多種示例,如圖 1 所示,展示了該模型生成結(jié)果的泛化性。

c9f45f5c-b8c3-11ee-8b88-92fbcf53809c.png

在應(yīng)用方面,DMV3D 具備廣泛的靈活性和通用性,在 3D 生成應(yīng)用領(lǐng)域具備較強(qiáng)的發(fā)展?jié)摿?。如圖 1 和圖 2 所示,本文方法能夠在圖像編輯應(yīng)用程序中通過分割(如 SAM)等方法將 2D 照片中的任意對象提升到 3D 的維度。

更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請查閱原論文。

ca0dc5c8-b8c3-11ee-8b88-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3951

    瀏覽量

    142577
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    3011

    瀏覽量

    114903
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    156

    瀏覽量

    6936

原文標(biāo)題:ICLR 2024 | Adobe提出DMV3D:3D生成只需30秒!讓文本、圖像都動(dòng)起來的新方法!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    常見3D打印材料介紹及應(yīng)用場景分析

    3D打印材料種類豐富,不同材料性能差異明顯。本文介紹PLA、ABS、PETG等常見3D打印材料的特點(diǎn)與應(yīng)用場景,幫助讀者了解3D打印用什么材料更合適,為選材提供基礎(chǔ)參考。
    的頭像 發(fā)表于 12-29 14:52 ?608次閱讀
    常見<b class='flag-5'>3D</b>打印材料介紹及應(yīng)用場景分析

    探索TLE493D-P3XX-MS2GO 3D 2Go套件:開啟3D磁傳感器評估之旅

    Technologies TLE493D-P3XX-MS2GO 3D 2Go評估套件.pdf 套件概述 TLE493D-P3XX-MS2GO 3D 2Go套件旨在
    的頭像 發(fā)表于 12-18 17:15 ?803次閱讀

    半導(dǎo)體“HBM和3D Stacked Memory”技術(shù)的詳解

    3D Stacked Memory是“技術(shù)方法”,而HBM是“用這種方法解決特定問題的產(chǎn)品”。
    的頭像 發(fā)表于 11-07 19:39 ?6114次閱讀
    半導(dǎo)體“HBM和<b class='flag-5'>3D</b> Stacked Memory”技術(shù)的詳解

    微納尺度的神筆——雙光子聚合3D打印 #微納3D打印

    3D打印
    楊明遠(yuǎn)
    發(fā)布于 :2025年10月25日 13:09:29

    玩轉(zhuǎn) KiCad 3D模型的使用

    “ ?本文將帶您學(xué)習(xí)如何將 3D 模型與封裝關(guān)聯(lián)、文件嵌入,講解 3D 查看器中的光線追蹤,以及如何使用 CLI 生成 PCBA 的 3D 模型。? ” ? 在日常的 PCB 設(shè)計(jì)中,
    的頭像 發(fā)表于 09-16 19:21 ?1.2w次閱讀
    玩轉(zhuǎn) KiCad <b class='flag-5'>3D</b>模型的使用

    索尼與VAST達(dá)成3D業(yè)務(wù)合作

    近日,索尼空間現(xiàn)實(shí)顯示屏與VAST旗下的3D大模型Tripo AI正式宣布達(dá)成業(yè)務(wù)合作:雙方將圍繞裸眼3D顯示技術(shù)、AI驅(qū)動(dòng)的3D內(nèi)容生成與交互創(chuàng)新展開深度協(xié)同,致力于通過索尼空間現(xiàn)實(shí)
    的頭像 發(fā)表于 08-28 17:32 ?1402次閱讀

    AD 3D封裝庫資料

    ?AD ?PCB 3D封裝
    發(fā)表于 08-27 16:24 ?7次下載

    3D打印能用哪些材質(zhì)?

    3D打印的材質(zhì)有哪些?不同材料決定了打印效果、強(qiáng)度、用途乃至安全性,本文將介紹目前主流的3D打印材質(zhì),幫助你找到最適合自己需求的材料。
    的頭像 發(fā)表于 07-28 10:58 ?3748次閱讀
    <b class='flag-5'>3D</b>打印能用哪些材質(zhì)?

    TechWiz LCD 3D應(yīng)用:FFS仿真

    建模任務(wù) 堆棧結(jié)構(gòu) 建模過程 2.1使用TechWiz Layout繪制各層掩模版平面圖 2.2創(chuàng)建堆棧結(jié)構(gòu),并生成3D結(jié)構(gòu) 2.3 使用TechWiz LCD 3D進(jìn)行各項(xiàng)參數(shù)計(jì)算 3
    的頭像 發(fā)表于 07-14 14:08 ?664次閱讀
    TechWiz LCD <b class='flag-5'>3D</b>應(yīng)用:FFS仿真

    無刷直流電機(jī)反電勢過零檢測新方法

    的危險(xiǎn)。同時(shí),根據(jù)控制信號占空比切換低速區(qū)與高速區(qū)反電勢采樣方式,能有效改善在低速區(qū)時(shí)反電勢過零檢測效果。實(shí)驗(yàn)結(jié)果表明,提出的反電勢過零檢測新方法能保證電機(jī)工作于更寬的轉(zhuǎn)速范圍內(nèi)。 純分享帖,點(diǎn)擊下方
    發(fā)表于 06-26 13:50

    3D AD庫文件

    3D庫文件
    發(fā)表于 05-28 13:57 ?6次下載

    NVIDIA助力影眸科技3D生成工具Rodin升級

    在當(dāng)今數(shù)字化與 AI 飛速發(fā)展的時(shí)代,3D 生成技術(shù)正逐漸成為推動(dòng)各行業(yè)創(chuàng)新的關(guān)鍵力量。影眸科技(上海)有限公司專注于 3D 生成領(lǐng)域的探索,積極推動(dòng)領(lǐng)先實(shí)驗(yàn)室科研成果的民用化、商業(yè)化
    的頭像 發(fā)表于 04-27 15:09 ?1290次閱讀

    HT 可視化監(jiān)控頁面的 2D3D 連線效果

    的連線效果是如何實(shí)現(xiàn)的。我們將從 基本概念、實(shí)現(xiàn)步驟、關(guān)鍵代碼 多個(gè)維度,逐步剖析這個(gè)效果的具體實(shí)現(xiàn)過程,為你提供全面的知識和實(shí)踐指導(dǎo)。 盡管 2D3D 連線效果看起來復(fù)雜,其本質(zhì)仍然是二維節(jié)點(diǎn)之間的連接。
    的頭像 發(fā)表于 04-09 11:28 ?1495次閱讀
    HT 可視化監(jiān)控頁面的 2<b class='flag-5'>D</b> 與 <b class='flag-5'>3D</b> 連線效果

    3D閃存的制造工藝與挑戰(zhàn)

    3D閃存有著更大容量、更低成本和更高性能的優(yōu)勢,本文介紹了3D閃存的制造工藝與挑戰(zhàn)。
    的頭像 發(fā)表于 04-08 14:38 ?2417次閱讀
    <b class='flag-5'>3D</b>閃存的制造工藝與挑戰(zhàn)

    一種以圖像為中心的3D感知模型BIP3D

    在具身智能系統(tǒng)中,3D感知算法是一個(gè)關(guān)鍵組件,它在端側(cè)幫助可以幫助智能體理解環(huán)境信息,在云端可以用來輔助生成3D場景和3D標(biāo)簽,具備重要的研究價(jià)值?,F(xiàn)有主流算法主要依賴于點(diǎn)云作為輸入
    的頭像 發(fā)表于 03-17 13:44 ?1224次閱讀
    一種以<b class='flag-5'>圖像</b>為中心的<b class='flag-5'>3D</b>感知模型BIP<b class='flag-5'>3D</b>