欧美国产日韩港台一级免费大片,AV婷婷久久A级一级片

英偉達(dá)推出基于風(fēng)格的生成器新結(jié)構(gòu)，由此得到的升級版GAN圖像生成效果逼真到可怕！將面部細(xì)節(jié)分離出來，由模型進(jìn)行單獨(dú)調(diào)整，從而大幅度超越其他模型，GAN 2.0橫空出世？

GAN 2.0來了？！

我們知道GAN能夠生成逼真的圖片，但沒有想到字面意義上的“逼真”會如此快到來。

下面是一組完全由計算機(jī)生成的圖片，重復(fù)一遍：全部是計算機(jī)生成的圖片！

這組效果驚艷到可怕的成果，出自英偉達(dá)的研究人員最近提出的一種新的生成器架構(gòu)，基于風(fēng)格遷移，將面部細(xì)節(jié)分離出來，由模型進(jìn)行單獨(dú)調(diào)整，從而大幅度超越傳統(tǒng)GAN等模型，生成的面部圖像結(jié)果簡直逼真到可怕，可以說是GAN 2.0。

這種生成器架構(gòu)提取的圖像風(fēng)格，不是筆劃或顏色空間，而是圖像的組成（居中，向左或向右看等）和臉部的物理特征（膚色，雀斑，頭發(fā)）。

該研究的論文已經(jīng)發(fā)表在Arxiv上：

https://arxiv.org/pdf/1812.04948.pdf

連Ian Goodfellow也服氣！

圖像逼真到可怕，能生成世界萬物

有CV研究人員看過上圖效果以后表示，機(jī)器學(xué)習(xí)模型非常擅長生成逼真的人臉，但這個新架構(gòu)生成的人臉圖像已經(jīng)真實(shí)到讓我再也不敢相信機(jī)器。

英偉達(dá)研究人員在論文中寫道，他們提出的新架構(gòu)可以完成自動學(xué)習(xí)，無監(jiān)督地分離高級屬性（例如在人臉上訓(xùn)練時的姿勢和身份）以及生成圖像中的隨機(jī)變化，并且可以對合成進(jìn)行更直觀且特定于比例的控制。

換句話說，這種新的GAN在生成和混合圖像，特別是人臉圖像時，可以更好地感知圖像之間有意義的變化，并且在各種尺度上針對這些變化做出引導(dǎo)。

例如，研究人員使用的舊系統(tǒng)可能產(chǎn)生兩個“不同”的面部，這兩個面部其實(shí)大致相同，只是一個人的耳朵被抹去了，兩人的襯衫是不同的顏色。而這些并不是真正的面部特異性特征，不過系統(tǒng)并不知道這些是無需重點(diǎn)關(guān)注的變化，而當(dāng)成了兩個人來處理。

在上面的動圖中，其實(shí)面部已經(jīng)完全變了，但“源”和“樣式”的明顯標(biāo)記顯然都得到了保留，例如最底下一排圖片的藍(lán)色襯衫。為什么會這樣？請注意，所有這些都是完全可變的，這里說的變量不僅僅是A + B = C，而且A和B的所有方面都可以存在/不存在，具體取決于設(shè)置的調(diào)整方式。

下面這些由計算機(jī)生成的圖像都不是真人。但如果我告訴你這些圖像是真人的照片，你可能也不會懷疑：

這個模型并不完美，但確實(shí)有效，而且不僅僅可用于人類，還能用于汽車、貓、風(fēng)景圖像的生成。

所有這些類型的圖像都或多或少可以單獨(dú)隔離出來，再現(xiàn)小型、中型和大型特征的相同范例。

基于風(fēng)格的生成器架構(gòu)：生成圖像效果質(zhì)的飛躍

英偉達(dá)研究人員介紹，新的生成器在傳統(tǒng)的分布質(zhì)量指標(biāo)方面改進(jìn)了最先進(jìn)的技術(shù)，使得插值特性明顯變好，并且更好地解決了變量隱因子問題。

傳統(tǒng)生成器架構(gòu)和基于風(fēng)格的生成器架構(gòu)對比

傳統(tǒng)方式中，隱碼(latent code)是通過輸入層提供給生成器的，即前饋網(wǎng)絡(luò)的第一層(圖1a)。而英偉達(dá)團(tuán)隊完全省略了輸入層，從一個學(xué)習(xí)的常量(learned constant)開始，從而脫離了傳統(tǒng)的設(shè)計(圖1b，右)。在輸入隱空間Z中，給定一個隱碼z，一個非線性網(wǎng)絡(luò) f：Z→W首先生成w∈W(圖1b，左)。

英偉達(dá)團(tuán)隊的發(fā)生器架構(gòu)可以通過對樣式進(jìn)行特定尺度的修改來控制圖像合成。可以將映射網(wǎng)絡(luò)和仿射變換看作是一種從學(xué)習(xí)分布(learned distribution)中為每種樣式繪制樣本的方法，而將合成網(wǎng)絡(luò)看作是一種基于樣式集合生成新圖像的方法。修改樣式的特定子集可能只會影響圖像的某些方面。

樣式混合

英偉達(dá)團(tuán)隊采用混合正則化，其中給定比例的圖像是使用兩個隨機(jī)隱碼生成的，而不是一個在訓(xùn)練期間生成給定百分比的圖像。

在生成這樣的圖像時，只需在合成網(wǎng)絡(luò)中隨機(jī)選擇的一個點(diǎn)上，從一個隱碼切換到另一個——稱之為樣式混合的操作。

表2顯示了在訓(xùn)練過程中啟用混合正則化是如何產(chǎn)生顯著改進(jìn)的，在測試時混合了多個延遲的場景中，改進(jìn)的FID表明了這一點(diǎn)。

表2

圖3給出了在不同尺度上混合兩個潛碼合成圖像的例子?？梢钥吹?，樣式的每個子集控制圖像的高級屬性。

圖3

隨機(jī)變化

人類肖像中有許多方面可以被視為隨機(jī)的，例如毛發(fā)，雀斑或皮膚毛孔的確切位置。只要它們遵循正確的分布，任何這些屬性都可以隨機(jī)化而不影響對圖像的感知。

圖4顯示了相同底層圖像的隨機(jī)實(shí)現(xiàn)，這些圖像是使用具有不同噪聲實(shí)現(xiàn)的生成器生成的。

圖4

可以看到，噪聲只影響隨機(jī)屬性，使整體組成和身份等高級屬性保持不變。

圖5進(jìn)一步說明了將隨機(jī)變化應(yīng)用于不同子層的效果。

圖5

整體效應(yīng)與隨機(jī)性的分離

在基于樣式的生成器中，樣式會影響整個圖像，因?yàn)橥暾奶卣鲌D像會被縮放并帶有相同的值。

因此，可以相干地控制姿態(tài)、燈光或背景風(fēng)格等全局效果。同時，噪聲被獨(dú)立地添加到每個像素上，因此非常適合于控制隨機(jī)變化。

如果網(wǎng)絡(luò)試圖控制例如使用噪聲的擺姿，這將導(dǎo)致空間不一致的決定，然后將受到鑒別器的“懲罰”。因此，網(wǎng)絡(luò)學(xué)會了在沒有明確指導(dǎo)的情況下，適當(dāng)?shù)厥褂萌趾捅镜赝ǖ?channel)。

兩種自動化方法，任何生成器都能升級

為了量化插值質(zhì)量和分離，英偉達(dá)提出了兩種新的自動化方法，適用于任何生成器體系架構(gòu)。

研究人員還發(fā)布了一個新的面部圖像數(shù)據(jù)集：數(shù)據(jù)收集自Flickr上的7萬張面部圖像，數(shù)據(jù)已經(jīng)對齊和裁剪。研究人員使用亞馬遜Mechanical Turk來清除雕像、繪畫和其他異常圖像。

鑒于目前此類項(xiàng)目所使用的標(biāo)準(zhǔn)數(shù)據(jù)集主要是名人走紅毯的照片，本數(shù)據(jù)集應(yīng)該能夠提供變化更豐富的面部圖像組合。

這些數(shù)據(jù)集不久后即將開放下載。

GAN 2.0已經(jīng)如此，GAN 3.0將會如何？

使用基于風(fēng)格的生成器的GAN，在各個方面都優(yōu)于傳統(tǒng)的GAN，可以說是 GAN 2.0。

英偉達(dá)團(tuán)隊相信，對高階屬性與隨機(jī)效應(yīng)分離的研究，以及中間隱空間(intermediate latent space)的線性，將會對提高GAN合成的理解和可控性有很大的幫助。

可以注意到，平均路徑長度度量可以很容易地用作訓(xùn)練中的正則化器，也許線性可分度量的某些變體也可以作為一個正則化器。

除了人像，GAN 2.0還可以生成房間、汽車等各種場景。有了這個利器，以后何愁圖像數(shù)據(jù)集？

看著這些計算機(jī)生成的“人”，是如此的真實(shí)但又虛擬。愛上一個不存在的人，似乎完全合情合理。

總的來說，在訓(xùn)練期間直接塑造中間隱空間(intermediate latent space)的方法將為未來的工作提供有趣的途徑。

所以，期待一下全新的判別器架構(gòu)，屆時得到的GAN 3.0，會如何沖擊我們的視覺和認(rèn)知呢？

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴