成人在线免费黄片,成年女人性爱中文字幕免费

1、導讀

盡管大規(guī)模文本到圖像模型取得了重大進展，但實現(xiàn)超現(xiàn)實的人類圖像生成仍然是一項理想但尚未解決的任務?，F(xiàn)有模型（例如穩(wěn)定擴散和DALL·E2）往往會生成部分不連貫或姿勢不自然的人體圖像。為了應對這些挑戰(zhàn)，我們的主要見解是，人類圖像本質(zhì)上具有多個粒度的結(jié)構，從粗粒度的身體骨骼到細粒度的空間幾何。因此，在一個模型中捕獲顯式外觀和潛在結(jié)構之間的這種相關性對于生成連貫且自然的人類圖像至關重要。為此，我們提出了一個統(tǒng)一的框架HyperHuman，它可以生成高度真實和多樣化布局的野外人類圖像。具體來說：

我們首先構建一個以人類為中心的大規(guī)模數(shù)據(jù)集，名為HumanVerse，它由3.4億張圖像組成，具有人體姿勢、深度和表面法線等全面注釋。

接下來，我們提出了一種潛在結(jié)構擴散模型，該模型可以同時對深度和表面法線以及合成的 RGB 圖像進行去噪。我們的模型在統(tǒng)一網(wǎng)絡中強制執(zhí)行圖像外觀、空間關系和幾何形狀的聯(lián)合學習，其中模型中的每個分支在結(jié)構意識和紋理豐富性方面相互補充。

最后，為了進一步提高視覺質(zhì)量，我們提出了一種結(jié)構引導細化器來組合預測條件，以更詳細地生成更高分辨率。大量的實驗表明，我們的框架具有最先進的性能，可以在不同的場景下生成超逼真的人類圖像。

2、介紹

所提出的HyperHuman同時生成以文本和骨架為條件的粗略 RGB、深度、法線和高分辨率圖像?？梢詣?chuàng)建逼真的圖像和風格化的渲染。

我們與最近的T2I模型進行比較，顯示出更好的真實性、質(zhì)量、多樣性和可控性。請注意，在每個2x2網(wǎng)格（左）中，左上角是輸入骨架，而其他部分是聯(lián)合去噪的法線、深度和512x512的粗略 RGB。對于完整模型，我們合成的圖像高達 1024x1024（右）

3、方法

在潛在結(jié)構擴散模型（紫色）中，圖像x、深度d和表面法線n對標題c和姿勢骨架p進行聯(lián)合去噪調(diào)節(jié)。在結(jié)構引導精煉器（藍色）中，我們構建了更高分辨率生成的預測條件。請注意，灰色圖像是指隨機丟棄條件，以實現(xiàn)更穩(wěn)健的訓練。

4、實驗

MS-COCO 2014 驗證人類的零樣本評估

我們將我們的模型與最近的 SOTA 通用 T2I 模型（Stable Diffusion v1.5、v2.0、v2.1；SDXL；DeepFloyd-IF）和可控方法（ControlNet；T2I-Adapter；HumanSD）進行比較。請注意，SDXL 生成 512x512 的藝術風格，而 IF 僅創(chuàng)建固定大小的圖像，我們首先生成 1024x1024 結(jié)果，然后針對這兩種方法將大小調(diào)整回 512x512。

MS-COCO 2014 驗證人類子集的評估曲線

我們展示了所有方法的FID-CLIP（左）和FID CLIP -CLIP（右曲線，CFG比例范圍為4.0至20.0。

用戶偏好比較

我們報告了用戶更喜歡我們的模型而不是基線的比率

5、結(jié)論

我們提出了一種新穎的框架HyperHuman來生成高質(zhì)量的野外人體圖像。為了在統(tǒng)一網(wǎng)絡中加強圖像外觀、空間關系和幾何形狀的聯(lián)合學習，我們提出了潛在結(jié)構擴散模型，該模型可同時對深度和法線以及RGB進行去噪。然后我們設計了結(jié)構引導優(yōu)化器來構建詳細生成的預測條件。大量的實驗證明我們的框架具有卓越的性能，可以在不同的場景下生成逼真的人類。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴