91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何去解決文本到圖像生成的跨模態(tài)對(duì)比損失問(wèn)題?

LiveVideoStack ? 來(lái)源:LiveVideoStack ? 作者:Google AI Blog ? 2021-06-15 10:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Google提出了一個(gè)跨模態(tài)對(duì)比學(xué)習(xí)框架來(lái)訓(xùn)練用于文本到圖像合成的 GAN 模型,用于研究解決生成的跨模態(tài)對(duì)比損失問(wèn)題。

從文本到圖像的自動(dòng)生成,如何訓(xùn)練模型僅通過(guò)一段文本描述輸入就能生成具體的圖像,是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。

與其它指導(dǎo)圖像創(chuàng)建的輸入類(lèi)型相比,描述性句子是一種更直觀、更靈活的視覺(jué)概念表達(dá)方式。強(qiáng)大的自動(dòng)文本到圖像的生成系統(tǒng)可以成為快速、有效的內(nèi)容生產(chǎn)、制作工具,用于更多具有創(chuàng)造性的應(yīng)用當(dāng)中。

在CVPR 2021中,Google提出了一個(gè)跨模態(tài)對(duì)比生成對(duì)抗網(wǎng)絡(luò)(XMC-GAN),訓(xùn)練用于文本到圖像合成的 GAN 模型,通過(guò)模態(tài)間與模態(tài)內(nèi)的對(duì)比學(xué)習(xí)使圖像和文本之間的互信息最大化,解決文本到圖像生成的跨模態(tài)對(duì)比損失問(wèn)題。

poYBAGDIDJ-AfrniAADMgxcEq1k626.jpg

XMC-GAN 文本到圖像合成模型中的模態(tài)間和模態(tài)內(nèi)對(duì)比學(xué)習(xí)

XMC-GAN 被成功應(yīng)用于三個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集:一個(gè)是MS-COCO 圖像描述集合,另外兩個(gè)是用Localized Narratives注釋的數(shù)據(jù)集,一個(gè)是包括MS-COCO 圖像(稱(chēng)為L(zhǎng)N-COCO) ,另一個(gè)描述開(kāi)放圖像數(shù)據(jù) (LN-OpenImages)。結(jié)果顯示 XMC-GAN生成圖像所描繪的場(chǎng)景相比于使用其它技術(shù)生成的圖像質(zhì)量更高,在每個(gè)方面都達(dá)到了最先進(jìn)的水平。

pYYBAGDIDI-AdQkNAAB3Ifj0XNA593.jpg

MS-COCO對(duì)圖像質(zhì)量和文本對(duì)齊的人工評(píng)估

此外,XMC-GAN還在 LN-OpenImages 上進(jìn)行了一系列訓(xùn)練和評(píng)估,這相比于 MS-COCO 更具有挑戰(zhàn)性,由于數(shù)據(jù)集更大,圖像涵蓋主題范圍更加廣泛且復(fù)雜。

對(duì)于人類(lèi)評(píng)估和定量指標(biāo),XMC-GAN 在多個(gè)數(shù)據(jù)集模型中相較之前有顯著的改進(jìn)??梢陨膳c輸入描述非常匹配的高質(zhì)量圖像,包括更長(zhǎng),更詳細(xì)的敘述,同時(shí)端到端模型的復(fù)雜度也相對(duì)較為簡(jiǎn)單,這代表了從自然語(yǔ)言描述生成圖像的創(chuàng)造性應(yīng)用的重大進(jìn)步。

責(zé)任編輯:lq6

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42326
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    21

    文章

    2366

    瀏覽量

    82291

原文標(biāo)題:XMC-GAN:從文本到圖像的跨模態(tài)對(duì)比學(xué)習(xí)

文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    全球首個(gè)最大規(guī)模本體視觸覺(jué)多模態(tài)數(shù)據(jù)集白虎-VTouch發(fā)布

    全球首個(gè)最大規(guī)模本體視觸覺(jué)多模態(tài)數(shù)據(jù)集——白虎-VTouch(Vision-Based Tactile Sensor),總規(guī)模超過(guò)60,000分鐘。
    的頭像 發(fā)表于 01-29 14:41 ?475次閱讀

    格靈深瞳多模態(tài)大模型Glint-ME讓圖文互搜更精準(zhǔn)

    在電商、安防等場(chǎng)景下,圖文互搜應(yīng)用廣泛。隨著以CLIP為代表的多模態(tài)表征方法相繼提出,過(guò)去單一模態(tài)搜索(文搜文、圖搜圖)被突破,模型可以同時(shí)理解文本、圖像、音頻乃至視頻,實(shí)現(xiàn)
    的頭像 發(fā)表于 11-02 15:56 ?1714次閱讀
    格靈深瞳多<b class='flag-5'>模態(tài)</b>大模型Glint-ME讓圖文互搜更精準(zhǔn)

    亞馬遜云科技上線Amazon Nova多模態(tài)嵌入模型

    的統(tǒng)一嵌入模型,能以行業(yè)頂尖的準(zhǔn)確率實(shí)現(xiàn)模態(tài)檢索。 當(dāng)今,企業(yè)正不斷尋求解決方案,以期從文本、圖像、文檔、視頻、音頻等海
    的頭像 發(fā)表于 10-29 17:15 ?264次閱讀
    亞馬遜云科技上線Amazon Nova多<b class='flag-5'>模態(tài)</b>嵌入模型

    米爾RK3576部署端側(cè)多模態(tài)多輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    細(xì)化需求,系統(tǒng)需實(shí)時(shí)調(diào)整響應(yīng)策略 1.2 多輪對(duì)話系統(tǒng)鳥(niǎo)瞰:三顆“核心”協(xié)同驅(qū)動(dòng)RK3576 多模態(tài)交互對(duì)話方案基于 RKLLM 的核心運(yùn)作,依賴(lài)于圖像視覺(jué)編碼器、大語(yǔ)言模型與對(duì)話管家這三大模塊的協(xié)同
    發(fā)表于 09-05 17:25

    淺析多模態(tài)標(biāo)注對(duì)大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例

    ”的關(guān)鍵工序——多模態(tài)標(biāo)注重要性日益凸顯。 一、什么是多模態(tài)標(biāo)注? 多模態(tài)標(biāo)注是指對(duì)文本、圖像、語(yǔ)音、視頻、點(diǎn)云等異構(gòu)數(shù)據(jù)進(jìn)行
    的頭像 發(fā)表于 09-05 13:49 ?2254次閱讀

    基于米爾瑞芯微RK3576開(kāi)發(fā)板的Qwen2-VL-3B模型NPU多模態(tài)部署評(píng)測(cè)

    案例:支持圖像文本交互 步驟 1:環(huán)境準(zhǔn)備 步驟 2:模型的獲取、驗(yàn)證與格式轉(zhuǎn)換 步驟 3:修改代碼并交叉編譯可執(zhí)行文件并上傳到板子上 步驟 4:上傳文件開(kāi)發(fā)板 性能測(cè)試 Tips 多
    發(fā)表于 08-29 18:08

    中國(guó)科學(xué)院自動(dòng)化研究所攜手中科曙光打造高性能工具鏈解決方案

    2019年起,中國(guó)科學(xué)院自動(dòng)化研究所以語(yǔ)音、文本、圖像等單模態(tài)大模型的研究與應(yīng)用為基石,全力攻關(guān)全球首個(gè)千億參數(shù)多模態(tài)大模型。如今,相關(guān)產(chǎn)品已突破
    的頭像 發(fā)表于 08-11 11:08 ?1058次閱讀

    無(wú)法使用OpenVINO?在 GPU 設(shè)備上運(yùn)行穩(wěn)定擴(kuò)散文本圖像的原因?

    在OpenVINO? GPU 設(shè)備上使用圖像大小 (1024X576) 運(yùn)行穩(wěn)定擴(kuò)散文本圖像,并收到錯(cuò)誤消息: RuntimeError: Exception from
    發(fā)表于 06-25 06:36

    利用NVIDIA 3D引導(dǎo)生成式AI Blueprint控制圖像生成

    AI 賦能的圖像生成技術(shù)突飛猛進(jìn),從早期模型會(huì)生成手指過(guò)多的人類(lèi)圖像,到現(xiàn)在能創(chuàng)造出令人驚嘆的逼真視覺(jué)效果。即使取得了如此飛躍,仍然存在一個(gè)挑戰(zhàn):實(shí)現(xiàn)創(chuàng)意掌控。
    的頭像 發(fā)表于 06-05 09:24 ?895次閱讀

    如何使用離線工具od SPSDK生成完整圖像?

    對(duì)我來(lái)說(shuō),完整圖像是指包含 keyblob、FCB 等的圖像。換句話說(shuō),圖像包含 0x30000000 0x30000FFF 之間的大約 4KB。 如果我理解正確,使用 SPT(以
    發(fā)表于 03-28 06:51

    把樹(shù)莓派打造成識(shí)別文本的“神器”!

    在許多項(xiàng)目中,RaspberryPi被用作監(jiān)控?cái)z像頭或執(zhí)行機(jī)器學(xué)習(xí)任務(wù)。在這些場(chǎng)景中,圖像中經(jīng)常包含應(yīng)用程序感興趣的文本信息。我們希望提取這些信息并將其轉(zhuǎn)換,以便通過(guò)程序分析文本
    的頭像 發(fā)表于 03-25 09:30 ?979次閱讀
    把樹(shù)莓派打造成識(shí)別<b class='flag-5'>文本</b>的“神器”!

    一種多模態(tài)駕駛場(chǎng)景生成框架UMGen介紹

    端自動(dòng)駕駛技術(shù)的快速發(fā)展對(duì)閉環(huán)仿真器提出了迫切需求,而生成式模型為其提供了一種有效的技術(shù)架構(gòu)。然而,現(xiàn)有的駕駛場(chǎng)景生成方法大多側(cè)重于圖像模態(tài)
    的頭像 發(fā)表于 03-24 15:57 ?1686次閱讀
    一種多<b class='flag-5'>模態(tài)</b>駕駛場(chǎng)景<b class='flag-5'>生成</b>框架UMGen介紹

    端自動(dòng)駕駛多模態(tài)軌跡生成方法GoalFlow解析

    自動(dòng)駕駛軌跡規(guī)劃往往采用直接回歸軌跡的方法,這種方式雖在測(cè)試中能取得不錯(cuò)的性能,可直接輸出當(dāng)前場(chǎng)景下最有可能的軌跡或控制,但它難以對(duì)自動(dòng)駕駛場(chǎng)景中常見(jiàn)的多模態(tài)動(dòng)作分布進(jìn)行有效建模。
    的頭像 發(fā)表于 03-18 17:59 ?1531次閱讀
    端<b class='flag-5'>到</b>端自動(dòng)駕駛多<b class='flag-5'>模態(tài)</b>軌跡<b class='flag-5'>生成</b>方法GoalFlow解析

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    支持生成式任務(wù)。 多模態(tài)融合 :通過(guò)模態(tài)注意力機(jī)制、投影層(如CLIP將圖像文本映射到同一空間
    的頭像 發(fā)表于 03-17 15:32 ?8834次閱讀
    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    使用OpenVINO GenAI和LoRA適配器進(jìn)行圖像生成

    借助生成式 AI 模型(如 Stable Diffusion 和 FLUX.1),用戶(hù)可以將平平無(wú)奇的文本提示詞轉(zhuǎn)換為令人驚艷的視覺(jué)效果。
    的頭像 發(fā)表于 03-12 13:49 ?1876次閱讀
    使用OpenVINO GenAI和LoRA適配器進(jìn)行<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>