91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種用于生成3D對(duì)象的替代方法

3D視覺(jué)工坊 ? 來(lái)源:3D視覺(jué)工坊 ? 2023-02-10 10:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要

雖然最近關(guān)于根據(jù)文本提示生成 3D點(diǎn)云的工作已經(jīng)顯示出可喜的結(jié)果,但最先進(jìn)的方法通常需要多個(gè) GPU 小時(shí)來(lái)生成單個(gè)樣本。這與最先進(jìn)的生成圖像模型形成鮮明對(duì)比,后者在幾秒或幾分鐘內(nèi)生成樣本。在本文中,我們探索了一種用于生成 3D 對(duì)象的替代方法,該方法僅需 1-2 分鐘即可在單個(gè) GPU 上生成 3D 模型。

我們的方法首先使用文本到圖像的擴(kuò)散模型生成單個(gè)合成視圖,然后使用以生成的圖像為條件的第二個(gè)擴(kuò)散模型生成 3D 點(diǎn)云。雖然我們的方法在樣本質(zhì)量方面仍未達(dá)到最先進(jìn)的水平,但它的采樣速度要快一到兩個(gè)數(shù)量級(jí),為某些用例提供了實(shí)際的權(quán)衡。

316d2028-a8db-11ed-bfe3-dac502259ad0.png

背景介紹

poYBAGPlsyWAZgTOAACVRNGDTM4056.jpg

3185c2a4-a8db-11ed-bfe3-dac502259ad0.png

poYBAGPlszeAF9yaAADRmvRNnE8287.jpg

3194c4e8-a8db-11ed-bfe3-dac502259ad0.png

pYYBAGPls1CAKJM9AANLAptF4S0323.jpg

31a49e0e-a8db-11ed-bfe3-dac502259ad0.png

這種方法實(shí)施起來(lái)很簡(jiǎn)單,只需要在訓(xùn)練期間隨機(jī)丟棄條件信息。我們?cè)谡麄€(gè)模型中采用這種技術(shù),使用丟棄概率 為0.1。

簡(jiǎn)介

我們不是訓(xùn)練單個(gè)生成模型直接生成以文本為條件的點(diǎn)云,而是將生成過(guò)程分為三個(gè)步驟。首先,我們生成一個(gè)以文本標(biāo)題為條件的綜合視圖。接下來(lái),我們生成一個(gè)基于合成視圖的粗略點(diǎn)云(1,024 個(gè)點(diǎn))。最后,我們生成了一個(gè)以低分辨率點(diǎn)云和合成視圖為條件的精細(xì)點(diǎn)云(4,096 個(gè)點(diǎn))。在實(shí)踐中,我們假設(shè)圖像包含來(lái)自文本的相關(guān)信息,并且不明確地以文本為條件點(diǎn)云。

1、數(shù)據(jù)集

我們?cè)跀?shù)百萬(wàn)個(gè) 3D 模型上訓(xùn)練我們的模型。我們發(fā)現(xiàn)數(shù)據(jù)集的數(shù)據(jù)格式和質(zhì)量差異很大,促使我們開(kāi)發(fā)各種后處理步驟以確保更高的數(shù)據(jù)質(zhì)量。 為了將我們所有的數(shù)據(jù)轉(zhuǎn)換為一種通用格式,我們使用 Blender(Community,2018)從 20 個(gè)隨機(jī)攝像機(jī)角度將每個(gè) 3D 模型渲染為 RGBAD 圖像,Blender 支持多種 3D 格式并帶有優(yōu)化的渲染引擎。對(duì)于每個(gè)模型,我們的 Blender 腳本將模型標(biāo)準(zhǔn)化為邊界立方體,配置標(biāo)準(zhǔn)照明設(shè)置,最后使用 Blender 的內(nèi)置實(shí)時(shí)渲染引擎導(dǎo)出 RGBAD 圖像。

然后,我們使用渲染將每個(gè)對(duì)象轉(zhuǎn)換為彩色點(diǎn)云。特別地,我們首先通過(guò)計(jì)算每個(gè) RGBAD 圖像中每個(gè)像素的點(diǎn)來(lái)為每個(gè)對(duì)象構(gòu)建一個(gè)稠密點(diǎn)云。這些點(diǎn)云通常包含數(shù)十萬(wàn)個(gè)不均勻分布的點(diǎn),因此我們還使用最遠(yuǎn)點(diǎn)采樣來(lái)創(chuàng)建均勻的 4K 點(diǎn)云。通過(guò)直接從渲染構(gòu)建點(diǎn)云,我們能夠避免嘗試直接從 3D 網(wǎng)格采樣點(diǎn)時(shí)可能出現(xiàn)的各種問(wèn)題,例如模型中包含的采樣點(diǎn)或處理以不尋常文件格式存儲(chǔ)的 3D 模型 。

最后,我們采用各種啟發(fā)式方法來(lái)減少數(shù)據(jù)集中低質(zhì)量模型的出現(xiàn)頻率。首先,我們通過(guò)計(jì)算每個(gè)點(diǎn)云的 SVD 來(lái)消除平面對(duì)象,只保留那些最小奇異值高于某個(gè)閾值的對(duì)象。接下來(lái),我們通過(guò) CLIP 特征對(duì)數(shù)據(jù)集進(jìn)行聚類(lèi)(對(duì)于每個(gè)對(duì)象,我們對(duì)所有渲染的特征進(jìn)行平均)。我們發(fā)現(xiàn)一些集群包含許多低質(zhì)量的模型類(lèi)別,而其他集群則顯得更加多樣化或可解釋。

我們將這些集群分到幾個(gè)不同質(zhì)量的容器中,并使用所得容器的加權(quán)混合作為我們的最終數(shù)據(jù)集。

2、查看合成 GLIDE 模型

本文的點(diǎn)云模型以文中數(shù)據(jù)集的渲染視圖為條件,這些視圖都是使用相同的渲染器和照明設(shè)置生成的。因此,為了確保這些模型正確處理生成的合成視圖,我們的目標(biāo)是顯式生成與數(shù)據(jù)集分布相匹配的 3D 渲染。 為此,我們微調(diào)了 GLIDE,混合了其原始的數(shù)據(jù)集和我們的 3D 渲染數(shù)據(jù)集。由于我們的 3D 數(shù)據(jù)集與原始 GLIDE 訓(xùn)練集相比較小,因此我們僅在 5% 的時(shí)間內(nèi)從 3D 數(shù)據(jù)集中采樣圖像,其余 95% 使用原始數(shù)據(jù)集。我們對(duì) 100K 次迭代進(jìn)行了微調(diào),這意味著該模型已經(jīng)在 3D 數(shù)據(jù)集上進(jìn)行了多次迭代(但從未兩次看到完全相同的渲染視點(diǎn))。

31b91618-a8db-11ed-bfe3-dac502259ad0.png

為了確保我們始終對(duì)分布渲染進(jìn)行采樣(而不是僅在 5% 的時(shí)間內(nèi)對(duì)其進(jìn)行采樣),我們?cè)诿總€(gè) 3D 渲染的文本提示中添加了一個(gè)特殊標(biāo)記,表明它是 3D 渲染;然后我們?cè)跍y(cè)試時(shí)使用此標(biāo)記進(jìn)行采樣。

3、點(diǎn)云擴(kuò)散

poYBAGPls6yAfS7oAAIukYDBAZQ954.jpg

值得注意的是,我們沒(méi)有為這個(gè)模型使用位置編碼。因此,模型本身對(duì)于輸入點(diǎn)云是排列不變的(盡管輸出順序與輸入順序相關(guān))。

4、點(diǎn)云上采樣

對(duì)于圖像擴(kuò)散模型,最好的質(zhì)量通常是通過(guò)使用某種形式的層級(jí)結(jié)構(gòu)來(lái)實(shí)現(xiàn)的,其中低分辨率基礎(chǔ)模型產(chǎn)生輸出,然后由另一個(gè)模型進(jìn)行上采樣。我們采用這種方法來(lái)生成點(diǎn)云,首先使用大型基礎(chǔ)模型生成 1K 點(diǎn),然后使用較小的上采樣模型上采樣到 4K 點(diǎn)。

值得注意的是,我們模型的計(jì)算需求隨點(diǎn)數(shù)的增加而增加,因此對(duì)于固定模型大小,生成 4K 點(diǎn)的成本是生成 1K 點(diǎn)的四倍。 我們的上采樣器使用與我們的基本模型相同的架構(gòu),為低分辨率點(diǎn)云提供額外的條件標(biāo)記。為了達(dá)到 4K 點(diǎn),上采樣器以 1K 點(diǎn)為條件并生成額外的 3K 點(diǎn),這些點(diǎn)被添加到低分辨率點(diǎn)云中。我們通過(guò)一個(gè)單獨(dú)的線性嵌入層傳遞條件點(diǎn),而不是用于 的線性嵌入層,從而允許模型將條件信息與新點(diǎn)區(qū)分開(kāi)來(lái),而無(wú)需使用位置嵌入。

5、點(diǎn)云網(wǎng)格

對(duì)于基于渲染的評(píng)估,我們不直接渲染生成的點(diǎn)云。相反,我們將點(diǎn)云轉(zhuǎn)換為帶紋理的網(wǎng)格并使用 Blender 渲染這些網(wǎng)格。從點(diǎn)云生成網(wǎng)格是一個(gè)經(jīng)過(guò)充分研究的問(wèn)題,有時(shí)甚至是一個(gè)難題。我們的模型生成的點(diǎn)云通常有裂縫、異常值或其他類(lèi)型的噪聲,使問(wèn)題特別具有挑戰(zhàn)性。

為此,我們簡(jiǎn)要嘗試使用預(yù)訓(xùn)練的 SAP 模型(Peng 等人,2021 年),但發(fā)現(xiàn)生成的網(wǎng)格有時(shí)會(huì)丟失點(diǎn)云中存在的大部分形狀或重要的形狀細(xì)節(jié)。我們沒(méi)有訓(xùn)練新的 SAP 模型,而是選擇了一種更簡(jiǎn)單的方法。 為了將點(diǎn)云轉(zhuǎn)換為網(wǎng)格,我們使用基于回歸的模型來(lái)預(yù)測(cè)給定點(diǎn)云的對(duì)象的符號(hào)距離場(chǎng),然后將行進(jìn)立方體 (Lorensen & Cline, 1987) 應(yīng)用于生成的 SDF 以提取網(wǎng)格。然后,我們使用距離原始點(diǎn)云最近的點(diǎn)的顏色為網(wǎng)格的每個(gè)頂點(diǎn)分配顏色。

實(shí)驗(yàn)結(jié)果

由于通過(guò)文本條件合成3D是一個(gè)相當(dāng)新的研究領(lǐng)域,因此還沒(méi)有針對(duì)此任務(wù)的標(biāo)準(zhǔn)基準(zhǔn)集。然而,其他幾項(xiàng)工作使用 CLIP R-Precision 評(píng)估 3D 生成,我們?cè)诒?1 中與這些方法進(jìn)行了比較。除了 CLIP R-Precision 之外,我們還注意到報(bào)告的每種方法的采樣計(jì)算要求。

31cf5090-a8db-11ed-bfe3-dac502259ad0.png

雖然我們的方法比當(dāng)前最先進(jìn)的方法表現(xiàn)要差些,但我們注意到此評(píng)估的兩個(gè)微妙之處,它們可以解釋部分(但可能不是全部)這種差異:

與 DreamFusion 等基于多視圖優(yōu)化的方法不同,Point E 不會(huì)明確優(yōu)化每個(gè)視圖以匹配文本提示。這可能會(huì)導(dǎo)致 CLIP R-Precision 降低,因?yàn)槟承┪矬w不容易從所有角度識(shí)別。

我們的方法生成的點(diǎn)云必須在渲染前進(jìn)行預(yù)處理。將點(diǎn)云轉(zhuǎn)換為網(wǎng)格是一個(gè)難題,我們使用的方法有時(shí)會(huì)丟失點(diǎn)云本身中存在的信息。

總結(jié)與展望

本文介紹了 Point E,一個(gè)用于從文本生成點(diǎn)云的方法,它首先生成合成視圖,然后生成以這些視圖為條件的彩色點(diǎn)云。我們發(fā)現(xiàn) Point E 能夠根據(jù)文本提示有效地生成多樣化和復(fù)雜的 3D 形狀。希望我們的方法可以作為文本到 3D這一塊研究領(lǐng)域進(jìn)一步工作的起點(diǎn)。








審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5194

    瀏覽量

    135467
  • RGB
    RGB
    +關(guān)注

    關(guān)注

    4

    文章

    831

    瀏覽量

    61947
  • SVD
    SVD
    +關(guān)注

    關(guān)注

    0

    文章

    21

    瀏覽量

    12452
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    34

    瀏覽量

    7260

原文標(biāo)題:使用擴(kuò)散模型從文本提示中生成3D點(diǎn)云

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    iDS iToF Nion 3D相機(jī),開(kāi)啟高性價(jià)比3D視覺(jué)新紀(jì)元!

    、友思特新品 友思特 iDS uEye Nion iTof 3D相機(jī)將 120 萬(wàn)像素的卓越空間分辨率與可靠的深度精度相結(jié)合—即使在極具挑戰(zhàn)性的環(huán)境中也能確保獲取精細(xì)的 3D 數(shù)據(jù)。 其外殼達(dá)到
    的頭像 發(fā)表于 12-15 14:59 ?375次閱讀
    iDS iToF Nion <b class='flag-5'>3D</b>相機(jī),開(kāi)啟高性價(jià)比<b class='flag-5'>3D</b>視覺(jué)新紀(jì)元!

    DIPO框架實(shí)現(xiàn)應(yīng)用于具身智能仿真的3D鉸鏈物體生成新范式

    在具身智能從理解環(huán)境向與環(huán)境交互進(jìn)化的當(dāng)下,構(gòu)建真實(shí)且可交互的仿真環(huán)境是重要路徑。單剛體生成已難滿足需求,機(jī)器人需要面對(duì)的是柜門(mén)、抽屜、微波爐等大量具有物理約束的鉸鏈物體。受限于復(fù)雜的運(yùn)動(dòng)學(xué)結(jié)構(gòu),高質(zhì)量3D鉸鏈物體資產(chǎn)極為稀缺
    的頭像 發(fā)表于 12-03 09:18 ?401次閱讀
    DIPO框架實(shí)現(xiàn)應(yīng)<b class='flag-5'>用于</b>具身智能仿真的<b class='flag-5'>3D</b>鉸鏈物體<b class='flag-5'>生成</b>新范式

    半導(dǎo)體“HBM和3D Stacked Memory”技術(shù)的詳解

    3D Stacked Memory是“技術(shù)方法”,而HBM是“用這種方法解決特定問(wèn)題的產(chǎn)品”。
    的頭像 發(fā)表于 11-07 19:39 ?6135次閱讀
    半導(dǎo)體“HBM和<b class='flag-5'>3D</b> Stacked Memory”技術(shù)的詳解

    玩轉(zhuǎn) KiCad 3D模型的使用

    “ ?本文將帶您學(xué)習(xí)如何將 3D 模型與封裝關(guān)聯(lián)、文件嵌入,講解 3D 查看器中的光線追蹤,以及如何使用 CLI 生成 PCBA 的 3D 模型。? ” ? 在日常的 PCB 設(shè)計(jì)中,
    的頭像 發(fā)表于 09-16 19:21 ?1.2w次閱讀
    玩轉(zhuǎn) KiCad <b class='flag-5'>3D</b>模型的使用

    索尼與VAST達(dá)成3D業(yè)務(wù)合作

    近日,索尼空間現(xiàn)實(shí)顯示屏與VAST旗下的3D大模型Tripo AI正式宣布達(dá)成業(yè)務(wù)合作:雙方將圍繞裸眼3D顯示技術(shù)、AI驅(qū)動(dòng)的3D內(nèi)容生成與交互創(chuàng)新展開(kāi)深度協(xié)同,致力于通過(guò)索尼空間現(xiàn)實(shí)
    的頭像 發(fā)表于 08-28 17:32 ?1430次閱讀

    生成式 AI 重塑自動(dòng)駕駛仿真:4D 場(chǎng)景生成技術(shù)的突破與實(shí)踐

    生成式AI驅(qū)動(dòng)的4D場(chǎng)景技術(shù)正解決傳統(tǒng)方法效率低、覆蓋不足等痛點(diǎn),如何通過(guò)NeRF、3D高斯?jié)姙R等技術(shù)實(shí)現(xiàn)高保真動(dòng)態(tài)建模?高效生成極端天氣等
    的頭像 發(fā)表于 08-06 11:20 ?5161次閱讀
    <b class='flag-5'>生成</b>式 AI 重塑自動(dòng)駕駛仿真:4<b class='flag-5'>D</b> 場(chǎng)景<b class='flag-5'>生成</b>技術(shù)的突破與實(shí)踐

    TechWiz LCD 3D應(yīng)用:FFS仿真

    建模任務(wù) 堆棧結(jié)構(gòu) 建模過(guò)程 2.1使用TechWiz Layout繪制各層掩模版平面圖 2.2創(chuàng)建堆棧結(jié)構(gòu),并生成3D結(jié)構(gòu) 2.3 使用TechWiz LCD 3D進(jìn)行各項(xiàng)參數(shù)計(jì)算 3
    的頭像 發(fā)表于 07-14 14:08 ?683次閱讀
    TechWiz LCD <b class='flag-5'>3D</b>應(yīng)用:FFS仿真

    一種用于動(dòng)態(tài)環(huán)境的實(shí)時(shí)RGB-D SLAM系統(tǒng)

    了UP-SLAM,這是一種用于動(dòng)態(tài)環(huán)境的實(shí)時(shí)RGB-D SLAM系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,UP-SLAM在定位精度方面(高出59.8%)和渲染質(zhì)量方面(峰值信噪比高出4.57分貝)均優(yōu)于最先進(jìn)的
    的頭像 發(fā)表于 07-04 15:14 ?1292次閱讀
    <b class='flag-5'>一種</b>適<b class='flag-5'>用于</b>動(dòng)態(tài)環(huán)境的實(shí)時(shí)RGB-<b class='flag-5'>D</b> SLAM系統(tǒng)

    TechWiz LCD 3D應(yīng)用:局部液晶配向

    ,并增加Condition層 此層為局部摩擦的層,所以要注意區(qū)域的設(shè)置; 設(shè)置完成后要生成mesh文件 2.2在TechWiz LCD 3D軟件中將Local Mask的頂部以及底部配向角度添加進(jìn)來(lái) 3. 結(jié)果查看 3.1
    發(fā)表于 06-16 08:46

    一種用于動(dòng)態(tài)環(huán)境的3DGS-SLAM系統(tǒng)

    當(dāng)前基于神經(jīng)輻射場(chǎng)(NeRF)或3D高斯?jié)姙R(3DGS)的SLAM方法在重建靜態(tài)3D場(chǎng)景方面表現(xiàn)出色,但在動(dòng)態(tài)環(huán)境中的跟蹤和重建方面卻面臨著挑戰(zhàn)。
    的頭像 發(fā)表于 06-13 10:10 ?1402次閱讀
    <b class='flag-5'>一種</b>適<b class='flag-5'>用于</b>動(dòng)態(tài)環(huán)境的<b class='flag-5'>3</b>DGS-SLAM系統(tǒng)

    3D AD庫(kù)文件

    3D庫(kù)文件
    發(fā)表于 05-28 13:57 ?6次下載

    TPS65735 用于主動(dòng)快門(mén) 3D 眼鏡的電源管理 IC數(shù)據(jù)手冊(cè)

    TPS65735 設(shè)備是用于活動(dòng)的電源管理單元 (PMU) 快門(mén) 3D 眼鏡由集成電源路徑、線性充電器、LDO、升壓轉(zhuǎn)換器、 以及全 H 橋模擬開(kāi)關(guān),用于對(duì)主動(dòng)快門(mén)中的左右快門(mén)作
    的頭像 發(fā)表于 04-28 09:41 ?900次閱讀
    TPS65735 <b class='flag-5'>用于</b>主動(dòng)快門(mén) <b class='flag-5'>3D</b> 眼鏡的電源管理 IC數(shù)據(jù)手冊(cè)

    NVIDIA助力影眸科技3D生成工具Rodin升級(jí)

    。在 NVIDIA Omniverse 平臺(tái)、OpenUSD 以及 Isaac Lab 解決方案的助力下,影眸科技實(shí)現(xiàn)了 Rodin 平臺(tái)的升級(jí),顯著提升了 3D 資產(chǎn)生成的速度、質(zhì)量與用戶體驗(yàn),推動(dòng)具身智能進(jìn)步發(fā)展。
    的頭像 發(fā)表于 04-27 15:09 ?1298次閱讀

    3D閃存的制造工藝與挑戰(zhàn)

    3D閃存有著更大容量、更低成本和更高性能的優(yōu)勢(shì),本文介紹了3D閃存的制造工藝與挑戰(zhàn)。
    的頭像 發(fā)表于 04-08 14:38 ?2443次閱讀
    <b class='flag-5'>3D</b>閃存的制造工藝與挑戰(zhàn)

    一種以圖像為中心的3D感知模型BIP3D

    在具身智能系統(tǒng)中,3D感知算法是個(gè)關(guān)鍵組件,它在端側(cè)幫助可以幫助智能體理解環(huán)境信息,在云端可以用來(lái)輔助生成3D場(chǎng)景和3D標(biāo)簽,具備重要的研
    的頭像 發(fā)表于 03-17 13:44 ?1238次閱讀
    <b class='flag-5'>一種</b>以圖像為中心的<b class='flag-5'>3D</b>感知模型BIP<b class='flag-5'>3D</b>