91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

不會PS還想做圖?微軟、京東出黑科技:說一句話就能生成圖片!

DPVg_AI_era ? 來源:YXQ ? 2019-06-24 14:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

微軟和京東最近出了一個黑科技:說一句話就能生成圖片!在這項研究中,研究人員提出了一種新的機器學習框架——ObjGAN,可以通過關(guān)注文本描述中最相關(guān)的單詞和預先生成的語義布局(semantic layout)來合成顯著對象。

不會PS還想做圖?可以的!

近期,由紐約州立大學奧爾巴尼分校、微軟研究院和京東AI研究院合作的一篇文章就可以實現(xiàn)這個需求:只需要輸入一句話,就可以生成圖片!

輸入:

輸出:

在這項研究中,研究人員提出了一種新的機器學習框架——ObjGAN,可以通過關(guān)注文本描述中最相關(guān)的單詞和預先生成的語義布局(semantic layout)來合成顯著對象。

此外,他們還提出了一種新的基于Fast R-CNN的關(guān)于對象(object-wise)鑒別器,用來提供關(guān)于合成對象是否與文本描述和預先生成的布局匹配的對象識別信號

論文地址:

https://www.microsoft.com/en-us/research/uploads/prod/2019/06/1902.10740.pdf

這項工作已經(jīng)發(fā)表在計算機視覺和模式識別領(lǐng)域頂會CVPR 2019。

這篇論文的合著作者表示,與之前最先進的技術(shù)相比,他們的方法大大提高了圖像質(zhì)量:

我們的生成器能夠利用細粒度的單詞和對象級(object-level)信息逐步細化合成圖像。

大量的實驗證明了ObjGAN在復雜場景的文本到圖像生成方面的有效性和泛化能力。

一句話秒生成圖片!

根據(jù)文本的描述來生成圖像,可以說是機器學習中一項非常重要的任務。

這項任務需要處理自然語言描述中模糊和不完整的信息,并且還需要跨視覺和語言模式來進行學習。

自從GAN提出后,這項任務在結(jié)果上取得了較好的成績,但是目前這些基于GAN的方法有一個缺點:

大多數(shù)圖像合成方法都是基于全局句子向量來合成圖像,而全局句子向量可能會丟失單詞級別(word-level)的重要細粒度信息,從而阻礙高質(zhì)量圖像的生成。

大多數(shù)方法都沒有在圖像中明確地建模對象及其關(guān)系,因此難以生成復雜的場景。

圖1 頂部:AttnGAN及其網(wǎng)格注意力可視化;中部:修改前人工作的結(jié)果;底部:ObjGAN及其對象驅(qū)動的注意力可視化

舉個例子,如果要根據(jù)“幾個人穿滑雪服的人在雪地里”這句話生成一張圖片,那么需要對不同的對象(人、滑雪服)及其交互(穿滑雪服的人)進行建模,還需要填充缺失的信息(例如背景中的巖石)。

圖1的第一行是由AttnGAN生成的圖像,雖然圖像中包含了人和雪的紋理,但是人的形狀是扭曲的,圖像布局在語義上是沒有意義的。

為了解決這個問題,首先從文本構(gòu)造語義布局,然后通過反卷積圖像生成器合成圖像。

從圖1的中間一行可知,雖然細粒度的word/objectlevel信息仍然沒有很好的用于生成。因此,合成的圖像沒有包含足夠的細節(jié)讓它們看起來更加真實。

本研究的目標就是生成具有語義意義(semantically meaningful)的布局和現(xiàn)實對象的高質(zhì)量復雜圖像。

為此,研究人員提出了一種新穎的對象驅(qū)動的注意力生成對抗網(wǎng)絡(Object-driven Attentive Generative Adversarial Networks,Obj-GAN),該網(wǎng)絡能夠有效地捕獲和利用細粒度的word/objectlevel信息進行文本到圖像的合成。

ObjGAN由一對兒對象驅(qū)動的注意力圖像生成器和object-wise判別器組成,并采用了一種新的對象驅(qū)動注意機制。

圖2 對象驅(qū)動的注意力圖像生成器

圖3 Object-wise判別器

該圖像生成器以文本描述和預先生成的語義布局為輸入,通過多階段由粗到精的過程合成高分辨率圖像。

在每個階段,生成器通過關(guān)注與該邊界框中的對象最相關(guān)的單詞來合成邊界框內(nèi)的圖像區(qū)域,如圖1的底部行所示。

更具體地說,它使用一個新的對象驅(qū)動的注意層,使用類標簽查詢句子中的單詞,形成一個單詞上下文向量,如圖4所示,然后根據(jù)類標簽和單詞上下文向量條件合成圖像區(qū)域。

圖4 對象驅(qū)動的注意力

Object-wise判別器會對每個邊界框進行檢查,確保生成的對象確實與預先生成的語義布局是匹配的。

同時,為了有效地計算所有邊界框的識別損失,object-wise判別器基于一個Fast-RNN,并且每個邊界框都有一個二院交叉熵損失。

實驗結(jié)果

研究人員在實驗過程中采用的數(shù)據(jù)集是COCO數(shù)據(jù)集。它包含80個對象類,其中每個圖像與對象注釋(即,邊界框和形狀)和5個文本描述相關(guān)聯(lián)。

在評價指標方面,研究人員采用 Inception score(IS)和Frechet Inception distance(FID) score作為定量評價指標。結(jié)果如下表所示:

表1

接下來,是采用不同方法生成圖像的結(jié)果與實際圖像的對比結(jié)果:

圖5 整體定性比較。所有圖像都是在不使用任何ground-truth的情況下生成的。

圖6 與P-AttnGAN w/ Lyt進行定性比較

圖7 與P-AttnGAN的定性比較。 每個方法的注意力圖顯示在生成的圖像旁邊。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6746

    瀏覽量

    107982
  • 京東方
    +關(guān)注

    關(guān)注

    25

    文章

    1617

    瀏覽量

    62530

原文標題:CVPR 2019:微軟最新提出ObjGAN,輸入一句話秒生成圖片

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    ?ACUPS vs DCUPS 大白話解析|UPS 姐姐干貨嘮

    運行。 ?一句話總結(jié):交流設(shè)備的專屬 “守門員”,日常使用最廣泛! ?DCUPS|低調(diào)能干的供電 “新秀”?全稱:直流不間斷電源 ?核心特點:輸入可交流 / 直流,輸出固定為直流電 ?適配
    發(fā)表于 03-28 15:22

    FT 測試:芯片出貨前的最后道閘門

    在封裝流程里FT是個挺微妙的工序。它排在最后,卻經(jīng)常最先被懷疑:良率掉了→是不是FT卡嚴了?客訴來了→終測有沒有漏檢?批量異?!遣皇菧y試程序問題?但在產(chǎn)線待久了會慢慢明白一句話:FT通常不是
    的頭像 發(fā)表于 03-27 10:02 ?35次閱讀
    FT 測試:芯片出貨前的最后<b class='flag-5'>一</b>道閘門

    逆天了!把OpenClaw裝入ESP32-S3上是種什么體驗

    最近小龍蝦OpenClaw實在是太火了,相信你或多或少都刷到過。如果一句話解釋什么是OpenClaw:款可以運行在任何系統(tǒng)上的A
    的頭像 發(fā)表于 03-22 10:05 ?218次閱讀
    逆天了!把OpenClaw裝入ESP32-S3上是<b class='flag-5'>一</b>種什么體驗

    小藝開放平臺鴻蒙智能體開發(fā)智能體配置-基礎(chǔ)信息

    創(chuàng)建智能體后,開發(fā)者可以進入智能體配置頁面對智能體基礎(chǔ)信息進行編輯。支持編輯智能體圖標、智能體名稱、智能體一句話描述、智能體支持的設(shè)備和系統(tǒng)、創(chuàng)建者昵稱、智能體分類、智能體別名、AgentCard
    發(fā)表于 02-02 16:47

    SeaVerse發(fā)布全球首個AI Native平臺,“All in AI Native”引領(lǐng)AI創(chuàng)作前瞻革命

    建設(shè)實現(xiàn)"只通過一句話"就能將所有的創(chuàng)意封裝成產(chǎn)品,無論它是Demo,應用,還是網(wǎng)頁。開發(fā)團隊表示,SeaVerse是為了解決現(xiàn)在AI工具多且雜、能力各有不同的問題而出現(xiàn)的,而
    的頭像 發(fā)表于 01-14 17:41 ?1373次閱讀

    EMMI-InGaAs 與 OBIRCH:分鐘教你看懂兩款失效定位設(shè)備原理與應用

    一句話區(qū)別總結(jié) EMMI 看光 → 漏電、擊穿這類“會發(fā)光的異?!? OBIRCH 看熱 → 金屬短路、高阻這類“無光但致命的問題”
    的頭像 發(fā)表于 12-05 16:21 ?1131次閱讀
    EMMI-InGaAs 與 OBIRCH:<b class='flag-5'>一</b>分鐘教你看懂兩款失效定位設(shè)備原理與應用

    一句話,多個命令同時執(zhí)行,AI語音模組也能多任務處理?

    、 Ai-WV02-32S ? 將語音識別、喚醒、語義理解等核心功能, 濃縮在顆小小的模組中。 安信可AI語音模組支持 MCP 協(xié)議(Multi Command Processing,多命令并行處理) ,讓語音交互從“單線程”進化為真正的“多任務協(xié)同”! 一句話喚醒“
    的頭像 發(fā)表于 10-31 14:45 ?576次閱讀
    <b class='flag-5'>一句話</b>,多個命令同時執(zhí)行,AI語音模組也能多任務處理?

    真正免費的AI生成PPT工具盤點:告別收費陷阱

    的戰(zhàn)斗機",其他9款工具也各有絕活,保證讓你告別收費陷阱,輕松做出專業(yè)級PPT! 、AiPPT:一句話生成PPT的"時間管理大師" 一句話生成
    的頭像 發(fā)表于 10-30 15:43 ?6733次閱讀
    真正免費的AI<b class='flag-5'>生成</b>PPT工具盤點:告別收費陷阱

    智多晶SA5T-200 FPGA開發(fā)板重磅發(fā)布

    在科技飛速發(fā)展的今天,硬件與軟件的融合正不斷重塑我們的世界。而在芯片領(lǐng)域,流傳著這樣一句話:“軟件定義世界,F(xiàn)PGA定義未來”。
    的頭像 發(fā)表于 10-11 11:45 ?1021次閱讀

    樹莓派官方都沒告訴你的散熱科技!

    ED-CM5ACOOLER——專為樹莓派ComputeModule5(CM5)量身打造的小鋼炮級主動散熱器,一句話總結(jié):裝上它,CM5就能“滿血”跑在2.4GHz,不降頻、不燙手。所以,它到底厲害
    的頭像 發(fā)表于 08-07 18:19 ?1608次閱讀
    樹莓派官方都沒告訴你的散熱<b class='flag-5'>黑</b>科技!

    一句話了解21種計算模式

    、智能化趨勢、安全與可持續(xù)四個維度,梳理了21種計算模式,并盡量用通俗易懂的一句話向您介紹每種模式的定義。架構(gòu)與資源維度并行計算:把大任務拆成多個小任務,讓多顆處理器
    的頭像 發(fā)表于 08-06 14:31 ?797次閱讀
    <b class='flag-5'>一句話</b>了解21種計算模式

    2025 AI主戰(zhàn)場,連鎖門店“變形記”

    讓業(yè)務駕馭AI,當大模型的價值通過“取漢堡更快”“一句話點咖啡”來實現(xiàn),這場技術(shù)變革才算真正落地
    的頭像 發(fā)表于 07-24 12:41 ?1318次閱讀
    2025 AI主戰(zhàn)場,連鎖門店“變形記”

    一句話PPT“的榮耀YOYO,AI生產(chǎn)力有多強?

    釋放AI生產(chǎn)力,榮耀讓智能體告別發(fā)布會炫技
    的頭像 發(fā)表于 07-14 14:15 ?2706次閱讀
    “<b class='flag-5'>一句話</b>秒<b class='flag-5'>出</b>PPT“的榮耀YOYO,AI生產(chǎn)力有多強?

    CYW55513是否支持linux4.4?

    開始支持55513的驅(qū)動版本是Infineon Linux Wi-Fi驅(qū)動程序(FMAC)(v2024_1115) 但在發(fā)行說明中有一句話 從內(nèi)核版本 4.14 到內(nèi)核版本 6.1.97 的反向移植支持 說明backport是不支持4.4的,我想確認下是否有驅(qū)動能支持l
    發(fā)表于 06-05 07:26

    使用FX3 SDK發(fā)布源代碼是否違反許可?

    使用 FX3 SDK 發(fā)布源代碼是否違反許可? CYPRESS?EZ-USB? FX3 SDK1.3licenselicense.txt ”4. 專有權(quán)利; 到“您同意對源代碼保密。” 那里寫著一句話,所以我想問下以確定。
    發(fā)表于 05-08 06:54