91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

擴散模型和其在文本生成圖像任務(wù)上的應(yīng)用

深度學(xué)習(xí)自然語言處理 ? 來源:RUC AI Box ? 作者:楊錦霞 ? 2022-08-03 15:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文主要介紹擴散模型和其在文本生成圖像任務(wù)上的應(yīng)用,從擴散模型的理論知識開始,再到不同的指導(dǎo)技巧,最后介紹文本生成圖像的應(yīng)用,帶讀者初探擴散模型的究竟。如有遺漏或錯誤,歡迎大家指正。

引言:擴散模型是一類生成模型,通過迭代去噪過程將高斯噪聲轉(zhuǎn)換為已知數(shù)據(jù)分布的樣本,生成的圖片具有較好的多樣性和寫實性。文本生成圖像是多模態(tài)的任務(wù)之一,目前該任務(wù)的很多工作也是基于擴散模型進行構(gòu)建的,如GLIDE、DALL·E2、Imagen等,生成的圖片讓人驚嘆。本文從介紹擴散模型的理論部分開始,主要介紹DDPM一文中涉及到的數(shù)學(xué)公式,然后介紹擴散模型中常用到的指導(dǎo)技巧,最后會介紹文本生成圖像的一些應(yīng)用。 1. 擴散模型

8d166234-0f27-11ed-ba43-dac502259ad0.png

上圖展示了擴散模型的兩個過程。其中,從右到左(從到)表示正向過程或擴散過程,從左到右(從到)表示的是逆向過程。擴散過程逐步向原始圖像添加高斯噪聲,是一個固定的馬爾科夫鏈過程,最后圖像也被漸進變換為一個高斯噪聲。而逆向過程則通過去噪一步步恢復(fù)原始圖像,從而實現(xiàn)圖像的生成。下面形式化介紹擴散過程、逆擴散過程和目標函數(shù),主要參考DDPM[1]論文和What are Diffusion Models?[2]博客內(nèi)容。1.1 擴散過程設(shè)原始圖像,擴散過程進行步,每一步都向數(shù)據(jù)中添加方差為每一步都向數(shù)據(jù)中添加方差為,最終。所以,由馬爾科夫鏈的無記憶性,可對擴散過程進行如下定義:

8d2bf996-0f27-11ed-ba43-dac502259ad0.png

所以,擴散過程的均值和方差是已知的,其均值為,方差為。 擴散過程有一個顯著特性,我們可以對任意 進行采樣。為了證明該性質(zhì)需要使用參數(shù)重整化技巧:假設(shè)要從高斯分布中采樣時,可以先從采樣出 ,然后計算 ,這樣可以解決梯度無法回傳問題。 所以首先將進行重參數(shù)化:設(shè), 故: 設(shè),: 其中 ,第三行到第四行進行了兩個正態(tài)分布的相加。所以,重整化后 ,即 1.2 逆擴散過程 逆擴散過程是從給定的高斯噪聲中恢復(fù)原始數(shù)據(jù),也是一個馬爾可夫鏈過程,但每個時刻 的均值和方差需要我們?nèi)W(xué)習(xí),所以,我們可以構(gòu)建生成模型 : 1.3 目標函數(shù)擴散模型使用負對數(shù)似然最小化的思想,采用近似的技術(shù)等價地要求負對數(shù)似然最小化。同時,由于KL散度具有非負性,因而將和的KL散度添加至負對數(shù)似然函數(shù)中,形成新的上界。 對于全部的訓(xùn)練數(shù)據(jù),添加上式兩邊同乘 ,即:對上式進行化簡:上式中第四行到第五行,利用了馬爾可夫鏈的無記憶性和貝葉斯公式:第六行到第七行是第二個求和符號展開并化簡的結(jié)果。 上述過程在DDPM論文中的附錄部分也有展示。 觀察可知,項的兩個分布均已知,同時DDPM文中將項設(shè)置為一個特殊的高斯分布。故最后的目標只和有關(guān)。 同時,雖然無法直接給出,但當我們加入作為條件時,設(shè) 類似上面的處理,根據(jù)貝葉斯公式和馬爾可夫性質(zhì),可知 然后由公式(1)(4)可知: 由于高斯分布的概率密度函數(shù)是: 將上面兩個式子進行一一對應(yīng),可以得到均值: 所以,由高斯分布的KL散度計算式可知,可化為: 因此,我們可以直觀地看到其目標含義是模型預(yù)測的均值要盡可能和接近。然后,由公式 可知,輸入 不含參數(shù),則在給定時,若 能夠預(yù)測出,則也能夠計算出均值,所以同樣進行參數(shù)重整化,可得: 所以: DDPM論文中最終的簡化目標為: 所以可以看出,從預(yù)測均值變?yōu)榱酥苯宇A(yù)測噪聲,加快了推理速度。 2. Guided Diffusion DDPM論文提出之后,擴散模型就可以生成質(zhì)量比較高的圖片,具有較強的多樣性,但是在具體的指標數(shù)值上沒有超過GAN。同時,在協(xié)助用戶進行藝術(shù)創(chuàng)作和設(shè)計時,對生成的圖像進行細粒度控制也是一個重要的考慮因素。所以之后嘗試將一些具體的指導(dǎo)融入擴散模型中去。 2.1 Classifier Guidance 用于圖像生成的GAN的相關(guān)工作大量使用了類標簽,而我們也希望生成的圖片更加寫實,所以有必要探索在類標簽上調(diào)整擴散模型。具體來說,Diffusion Models Beat GANs[3]一文中使用了額外的分類器,在前面我們描述的無條件的逆向過程的基礎(chǔ)上,將類別作為條件進行生成,具體公式如下:

8d3bc394-0f27-11ed-ba43-dac502259ad0.png

上式的含義是加入類別作為條件進行生成,可以看作無條件的生成和分類兩者的結(jié)合。具體而言,用分類模型對生成的圖片進行分類,得到預(yù)測與目標類別的交叉熵,從而使用梯度幫助模型的采樣和生成。 實際中,分類器是在噪聲數(shù)據(jù)上訓(xùn)練的。 采樣過程的算法如下:

8d4b8f90-0f27-11ed-ba43-dac502259ad0.png

可以看到該過程中同時學(xué)習(xí)均值和方差,然后加入分類器的梯度引導(dǎo)采樣過程。 2.2 Semantic Diffusion Guidance (SDG) 看到分類器指導(dǎo)的圖像生成的有效性后,自然而然可以想到:是否可以將圖像類別信息換為其他不同類型的指導(dǎo)呢?比如使用CLIP模型作為圖像和文本之間的橋梁,實現(xiàn)文本指導(dǎo)的圖像生成。 Semantic Diffusion Guidance(SDG)[4]是一個統(tǒng)一的文本引導(dǎo)和圖像引導(dǎo)框架,通過使用引導(dǎo)函數(shù)來注入語義輸入,以指導(dǎo)無條件擴散模型的采樣過程,這使得擴散模型中的生成更加可控,并為語言和圖像引導(dǎo)提供了統(tǒng)一的公式。

8d5e1dae-0f27-11ed-ba43-dac502259ad0.png

8d6cffcc-0f27-11ed-ba43-dac502259ad0.png

從采樣過程可以看出,不同的引導(dǎo)其實就是中的不同,可以是文本、圖像,也可以是兩者的結(jié)合。 2.3 Classifier-Free Guidance 以上方法都是使用了額外的模型,成本比較高,而且須在噪聲數(shù)據(jù)上進行訓(xùn)練,無法使用預(yù)訓(xùn)練好的分類器。Classifier-Free Guidance[5]一文提出在沒有分類器的情況下,純生成模型可以進行引導(dǎo):共同訓(xùn)練有條件和無條件擴散模型,并發(fā)現(xiàn)將兩者進行組合,可以得到樣本質(zhì)量和多樣性之間的權(quán)衡。 原來分類器指導(dǎo)的式子如下,表示條件,和含義類似:

8d77242a-0f27-11ed-ba43-dac502259ad0.png

Classifier-Free Guidance方法將模型的輸入分為兩種,一種是無條件的 ,另一種是有條件的,使用一個神經(jīng)網(wǎng)絡(luò)來參數(shù)化兩個模型,對于無條件模型,我們可以在預(yù)測分數(shù)時簡單地為類標識符設(shè)為零,即。我們聯(lián)合訓(xùn)練無條件和條件模型,只需將隨機設(shè)置為無條件類標識符即可。然后,使用以下有條件和無條件分數(shù)估計的線性組合進行抽樣:

8d893034-0f27-11ed-ba43-dac502259ad0.png

3. 應(yīng)用

3.1 GLIDE OpenAI的GLIDE[6]將擴散模型和Classifier-Free Guidance進行結(jié)合去生成圖像。同時文中比較了兩種不同的引導(dǎo)策略:CLIP Guidance和Classifier-Free Guidance,然后發(fā)現(xiàn)Classifier-Free Guidance在照片寫實等方面更受人類評估者的青睞,并且通常會產(chǎn)生很逼真的樣本,并能實現(xiàn)圖像編輯。其中,Classifier-Free Guidance中的條件是文本。

8d977284-0f27-11ed-ba43-dac502259ad0.png

下表是GLIDE在MS-COCO上的實驗結(jié)果。

8dae878a-0f27-11ed-ba43-dac502259ad0.png

除了零樣本生成之外,GLIDE還具有編輯功能,允許迭代地改進模型樣本。 3.2 DALL·E 2 DALL·E2[7]利用CLIP來生成圖像,提出了一個兩階段模型:一個先驗prior網(wǎng)絡(luò)用于生成一個給定文本下的 CLIP 圖像嵌入,一個解碼器decoder在給定圖像編碼的情況下生成圖像。DALL·E2對解碼器使用擴散模型,并對先驗網(wǎng)絡(luò)使用自回歸模型和擴散模型進行實驗,發(fā)現(xiàn)后者在計算上更高效,并產(chǎn)生更高質(zhì)量的樣本。 具體來說:

prior :在給定文本條件下生成CLIP圖像的編碼,并且文中探索了兩種實現(xiàn)方式:自回歸和擴散,均使用classifier-free guidance,并且發(fā)現(xiàn)擴散模型的效果更好:

8dbaafec-0f27-11ed-ba43-dac502259ad0.png

注意此處目標和前面有所不同,prior直接去預(yù)測圖像特征,而不是預(yù)測噪聲

decoder:在圖像編碼(和可選的文本標題)條件下生成圖像;使用擴散模型并利用classifier-free guidance和CLIP guidance在給定CLIP圖像編碼的情況下生成圖像。為了生成高分辨率圖像,訓(xùn)練了兩個擴散上采樣模型,分別用于將圖像從64*64上采樣到256*256、進一步上采樣到1024*1024。

將這兩個部分疊加起來會得到一個生成模型可以在給定標題下生成圖像:。第一個等號是由于和是一對一的關(guān)系。

所以DALL·E2可以先用prior采樣出,然后用decoder得到;

DALL·E2能夠生成高分辨率、風(fēng)格多樣的圖片,并且能夠給定一張圖,生成許多風(fēng)格類似的圖片;可以進行兩張圖片的插值,實現(xiàn)風(fēng)格的融合等,在具體數(shù)值上也超越了GLIDE。

8dc9dd32-0f27-11ed-ba43-dac502259ad0.png

3.3 Imagen 下圖是谷歌提出的Imagen[8]的模型架構(gòu):

8dd80f56-0f27-11ed-ba43-dac502259ad0.png

Imagen由一個文本編碼器和一連串條件擴散模型組成。

預(yù)訓(xùn)練文本編碼器:語言模型是在文本語料庫上訓(xùn)練的,該語料庫比配對的圖像-文本數(shù)據(jù)要大得多,因此可以接觸到非常豐富和廣泛的文本分布。文中使用Frozen Text Encoder進行文本的編碼

擴散模型和classifier-free guidance:使用前面提到的classifier-free guidance,將文本編碼作為條件,進行圖像的生成。同樣,后面也有兩個擴散模型進行分辨率的提升,最終可以生成1024*1024分辨率的圖像。文本到圖像擴散模型使用改進的U-Net 架構(gòu),生成64*64 圖像,后面兩個擴散模型使用本文提出Efficient U-Net,可以更節(jié)省內(nèi)存和時間。

我們使用FID分數(shù)在COCO驗證集上評估Imagen,下表展示了結(jié)果。Imagen在COCO上實現(xiàn)了最好的zero-shot效果,其FID為7.27,優(yōu)于前面的一系列工作。

8dee950a-0f27-11ed-ba43-dac502259ad0.png

8dfa7da2-0f27-11ed-ba43-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42338
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3755

    瀏覽量

    52125
  • 擴散模型
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    5678

原文標題:文本生成 | 擴散模型與其在文本生成圖像領(lǐng)域的應(yīng)用

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    ElfBoard技術(shù)貼|如何在【RK3588】ELF 2開發(fā)板完成PPOC本地化部署

    背景、模糊字跡、傾斜變形及特殊字體等挑戰(zhàn),圖像轉(zhuǎn)文本任務(wù)中展現(xiàn)出優(yōu)異的準確性和魯棒性。支持多種圖像格式輸入和輕量化部署特性,使其廣泛應(yīng)用
    的頭像 發(fā)表于 11-14 10:54 ?7207次閱讀
    ElfBoard技術(shù)貼|如何在【RK3588】ELF 2開發(fā)板<b class='flag-5'>上</b>完成PPOC本地化部署

    萬里紅文本生成算法通過國家網(wǎng)信辦備案

    近日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布了第十四批深度合成服務(wù)算法備案信息,北京萬里紅科技有限公司(以下簡稱:萬里紅)自主研發(fā)的“萬里紅文本生成算法”正式通過備案。該算法致力于通過自動化的方式,提升知識問答、RAG分類、預(yù)測、文檔生成的準確率,確保信息的安全性和合規(guī)性,為用戶提供及
    的頭像 發(fā)表于 11-14 09:06 ?691次閱讀

    【Sipeed MaixCAM Pro開發(fā)板試用體驗】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    能夠有效捕捉AI生成圖像與真實手繪掃描圖像在紋理、筆觸、光影、全局一致性等方面的細微差異。 邊緣端部署:將模型量化、編譯,最終高效運行在算力有限的MaixCAM-Pro開發(fā)板
    發(fā)表于 08-21 13:59

    速看!EASY-EAI教你離線部署Deepseek R1大模型

    和自然語言推理等復(fù)雜任務(wù)。作為國產(chǎn)AI大數(shù)據(jù)模型的代表,憑借卓越的推理能力和高效的文本生成技術(shù),全球人工智能領(lǐng)域引發(fā)廣泛關(guān)注。本文主要說
    的頭像 發(fā)表于 07-25 15:22 ?1385次閱讀
    速看!EASY-EAI教你離線部署Deepseek R1大<b class='flag-5'>模型</b>

    關(guān)于鴻蒙App架中“AI文本生成模塊的資質(zhì)證明文件”的情況說明

    檢查結(jié)果為“通過”或?qū)徍藸顟B(tài)為“審核通過”。 那么對于這個問題,我也是嘗試去解決……這里分享一下我了解到的情況和方法 首先,這個政策雖然說是針對AI文本生成模塊,但實際,針對的是所有調(diào)用了AI大模型
    發(fā)表于 06-30 18:37

    無法使用OpenVINO? GPU 設(shè)備運行穩(wěn)定擴散文本圖像的原因?

    OpenVINO? GPU 設(shè)備使用圖像大小 (1024X576) 運行穩(wěn)定擴散文本圖像,并收到錯誤消息: RuntimeError:
    發(fā)表于 06-25 06:36

    生成式人工智能認證:重構(gòu)AI時代的人才培養(yǎng)與職業(yè)躍遷路徑

    ,恰似一座連接技術(shù)前沿與個體成長的橋梁,既承載著時代對人才的迫切需求,也指向著未來職場的核心競爭力。 一、技術(shù)革命的雙重性:賦能與失衡并存 生成式人工智能的突破性,在于首次讓機器具備了“無中生有”的創(chuàng)造力。從文本生成
    的頭像 發(fā)表于 05-23 09:29 ?865次閱讀

    Gemini API集成Google圖像生成模型Imagen 3

    開發(fā)者現(xiàn)在可以通過 Gemini API 訪問 Google 最先進的圖像生成模型 Imagen 3。該模型最初僅對付費用戶開放,不久后也將面向免費用戶推出。
    的頭像 發(fā)表于 05-14 16:53 ?1274次閱讀

    小白學(xué)大模型:從零實現(xiàn) LLM語言模型

    在當今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的
    的頭像 發(fā)表于 04-30 18:34 ?1319次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實現(xiàn) LLM語言<b class='flag-5'>模型</b>

    把樹莓派打造成識別文本的“神器”!

    許多項目中,RaspberryPi被用作監(jiān)控攝像頭或執(zhí)行機器學(xué)習(xí)任務(wù)。在這些場景中,圖像中經(jīng)常包含應(yīng)用程序感興趣的文本信息。我們希望提取這些信息并將其轉(zhuǎn)換,以便通過程序分析
    的頭像 發(fā)表于 03-25 09:30 ?989次閱讀
    把樹莓派打造成識別<b class='flag-5'>文本</b>的“神器”!

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并
    的頭像 發(fā)表于 03-17 15:32 ?8892次閱讀
    ?VLM(視覺語言<b class='flag-5'>模型</b>)?詳細解析

    ?Diffusion生成式動作引擎技術(shù)解析

    開發(fā)、虛擬現(xiàn)實、影視動畫和機器人控制等領(lǐng)域具有廣泛應(yīng)用前景。以下是核心原理、技術(shù)實現(xiàn)和應(yīng)用方向的詳細解析: 一、核心原理 擴散模型基礎(chǔ) Diffusion模型通過逐步添加噪聲破壞數(shù)據(jù)
    的頭像 發(fā)表于 03-17 15:14 ?3071次閱讀

    NVIDIA RTX 5880 Ada顯卡部署DeepSeek-R1模型實測報告

    DeepSeek-R1 模型 4 張 NVIDIA RTX 5880 Ada 顯卡配置下,面對短文本生成、長文本生成、總結(jié)概括三大實戰(zhàn)場景,會碰撞出怎樣的性能火花?參數(shù)規(guī)模差異懸殊的
    的頭像 發(fā)表于 03-17 11:12 ?3127次閱讀
    NVIDIA RTX 5880 Ada顯卡部署DeepSeek-R1<b class='flag-5'>模型</b>實測報告

    使用OpenVINO GenAI和LoRA適配器進行圖像生成

    借助生成式 AI 模型(如 Stable Diffusion 和 FLUX.1),用戶可以將平平無奇的文本提示詞轉(zhuǎn)換為令人驚艷的視覺效果。
    的頭像 發(fā)表于 03-12 13:49 ?1899次閱讀
    使用OpenVINO GenAI和LoRA適配器進行<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>

    stm32cubemx 6.13.0(win)版本生成代碼中文注釋亂碼怎么解決?

    stm32cubemx 6.13.0(win)版本生成代碼中文注釋亂碼
    發(fā)表于 03-11 07:10