黄色中文视频99视频,天天草天天舔国产激情小视频

微軟和京東最近出了一個黑科技：說一句話就能生成圖片！在這項研究中，研究人員提出了一種新的機器學習框架——ObjGAN，可以通過關(guān)注文本描述中最相關(guān)的單詞和預先生成的語義布局（semantic layout）來合成顯著對象。

不會PS還想做圖？可以的！

近期，由紐約州立大學奧爾巴尼分校、微軟研究院和京東AI研究院合作的一篇文章就可以實現(xiàn)這個需求：只需要輸入一句話，就可以生成圖片！

輸入：

輸出：

在這項研究中，研究人員提出了一種新的機器學習框架——ObjGAN，可以通過關(guān)注文本描述中最相關(guān)的單詞和預先生成的語義布局（semantic layout）來合成顯著對象。

此外，他們還提出了一種新的基于Fast R-CNN的關(guān)于對象（object-wise）鑒別器，用來提供關(guān)于合成對象是否與文本描述和預先生成的布局匹配的對象識別信號。

論文地址：

https://www.microsoft.com/en-us/research/uploads/prod/2019/06/1902.10740.pdf

這項工作已經(jīng)發(fā)表在計算機視覺和模式識別領(lǐng)域頂會CVPR 2019。

這篇論文的合著作者表示，與之前最先進的技術(shù)相比，他們的方法大大提高了圖像質(zhì)量：

我們的生成器能夠利用細粒度的單詞和對象級（object-level）信息逐步細化合成圖像。

大量的實驗證明了ObjGAN在復雜場景的文本到圖像生成方面的有效性和泛化能力。

一句話秒生成圖片！

根據(jù)文本的描述來生成圖像，可以說是機器學習中一項非常重要的任務。

這項任務需要處理自然語言描述中模糊和不完整的信息，并且還需要跨視覺和語言模式來進行學習。

自從GAN提出后，這項任務在結(jié)果上取得了較好的成績，但是目前這些基于GAN的方法有一個缺點：

大多數(shù)圖像合成方法都是基于全局句子向量來合成圖像，而全局句子向量可能會丟失單詞級別（word-level）的重要細粒度信息，從而阻礙高質(zhì)量圖像的生成。

大多數(shù)方法都沒有在圖像中明確地建模對象及其關(guān)系，因此難以生成復雜的場景。

圖1 頂部：AttnGAN及其網(wǎng)格注意力可視化；中部：修改前人工作的結(jié)果；底部：ObjGAN及其對象驅(qū)動的注意力可視化

舉個例子，如果要根據(jù)“幾個人穿滑雪服的人在雪地里”這句話生成一張圖片，那么需要對不同的對象（人、滑雪服）及其交互（穿滑雪服的人）進行建模，還需要填充缺失的信息（例如背景中的巖石）。

圖1的第一行是由AttnGAN生成的圖像，雖然圖像中包含了人和雪的紋理，但是人的形狀是扭曲的，圖像布局在語義上是沒有意義的。

為了解決這個問題，首先從文本構(gòu)造語義布局，然后通過反卷積圖像生成器合成圖像。

從圖1的中間一行可知，雖然細粒度的word/objectlevel信息仍然沒有很好的用于生成。因此，合成的圖像沒有包含足夠的細節(jié)讓它們看起來更加真實。

本研究的目標就是生成具有語義意義（semantically meaningful）的布局和現(xiàn)實對象的高質(zhì)量復雜圖像。

為此，研究人員提出了一種新穎的對象驅(qū)動的注意力生成對抗網(wǎng)絡（Object-driven Attentive Generative Adversarial Networks，Obj-GAN），該網(wǎng)絡能夠有效地捕獲和利用細粒度的word/objectlevel信息進行文本到圖像的合成。

ObjGAN由一對兒對象驅(qū)動的注意力圖像生成器和object-wise判別器組成，并采用了一種新的對象驅(qū)動注意機制。

圖2 對象驅(qū)動的注意力圖像生成器

圖3 Object-wise判別器

該圖像生成器以文本描述和預先生成的語義布局為輸入，通過多階段由粗到精的過程合成高分辨率圖像。

在每個階段，生成器通過關(guān)注與該邊界框中的對象最相關(guān)的單詞來合成邊界框內(nèi)的圖像區(qū)域，如圖1的底部行所示。

更具體地說，它使用一個新的對象驅(qū)動的注意層，使用類標簽查詢句子中的單詞，形成一個單詞上下文向量，如圖4所示，然后根據(jù)類標簽和單詞上下文向量條件合成圖像區(qū)域。

圖4 對象驅(qū)動的注意力

Object-wise判別器會對每個邊界框進行檢查，確保生成的對象確實與預先生成的語義布局是匹配的。

同時，為了有效地計算所有邊界框的識別損失，object-wise判別器基于一個Fast-RNN，并且每個邊界框都有一個二院交叉熵損失。

實驗結(jié)果

研究人員在實驗過程中采用的數(shù)據(jù)集是COCO數(shù)據(jù)集。它包含80個對象類，其中每個圖像與對象注釋（即，邊界框和形狀）和5個文本描述相關(guān)聯(lián)。

在評價指標方面，研究人員采用 Inception score（IS）和Frechet Inception distance（FID） score作為定量評價指標。結(jié)果如下表所示：

表1

接下來，是采用不同方法生成圖像的結(jié)果與實際圖像的對比結(jié)果：

圖5 整體定性比較。所有圖像都是在不使用任何ground-truth的情況下生成的。

圖6 與P-AttnGAN w/ Lyt進行定性比較

圖7 與P-AttnGAN的定性比較。每個方法的注意力圖顯示在生成的圖像旁邊。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴