91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

字節(jié)跳動發(fā)布文生圖開放模型,迅速沖上Hugging Face Spaces熱榜

jf_WZTOguxH ? 來源:AI前線 ? 2024-02-26 13:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

很高興跟大家分享我們最新的文生圖模型 —— SDXL-Lightning,它實現(xiàn)了前所未有的速度和質(zhì)量,并且已經(jīng)向社區(qū)開放。

閃電般的圖片生成

生成式 AI 正憑借其根據(jù)文本提示(text prompts)創(chuàng)造出驚艷圖像乃至視頻的能力,贏得全球的矚目。當前最先進的生成模型依賴于擴散過程(diffusion),這是一個將噪聲逐步轉(zhuǎn)化為圖像樣本的迭代過程。這個過程需要耗費巨大的計算資源并且速度較慢,在生成高質(zhì)量圖像樣本的過程中,單張圖像的處理時間約為 5 秒,其中通常需要多次(20 到 40 次)調(diào)用龐大的神經(jīng)網(wǎng)絡。這樣的速度限制了有快速、實時生成需求的應用場景。如何在提升生成質(zhì)量的同時加快速度,是當前研究的熱點領(lǐng)域,也是我們工作的核心目標。

SDXL-Lightning 通過一種創(chuàng)新技術(shù)——漸進式對抗蒸餾(Progressive Adversarial Distillation)——突破了這一障礙,實現(xiàn)了前所未有的生成速度。該模型能夠在短短 2 步或 4 步內(nèi)生成極高質(zhì)量和分辨率的圖像,將計算成本和時間降低十倍。我們的方法甚至可以在 1 步內(nèi)為超時敏感的應用生成圖像,雖然可能會稍微犧牲一些質(zhì)量。

除了速度優(yōu)勢,SDXL-Lightning 在圖像質(zhì)量上也有顯著表現(xiàn),并在評估中超越了以往的加速技術(shù)。在實現(xiàn)更高分辨率和更佳細節(jié)的同時保持良好的多樣性和圖文匹配度。

33c5b058-d461-11ee-a297-92fbcf53809c.gif

速度對比示意

原始模型(20 步),SDXL-Lightning 模型(2 步)

模型效果

SDXL-Lightning 模型可以通過 1 步、2 步、4 步和 8 步來生成圖像。推理步驟越多,圖像質(zhì)量越好。

以下是 4 步生成結(jié)果——

以下是 2 步生成結(jié)果—— 與以前的方法(Turbo 和 LCM)相比,我們的方法生成的圖像在細節(jié)上有顯著改進,并且更忠實于原始生成模型的風格和布局。

3400e01a-d461-11ee-a297-92fbcf53809c.png

回饋社區(qū),開放模型

開源開放的浪潮已經(jīng)成為推動人工智能迅猛發(fā)展的關(guān)鍵力量,字節(jié)跳動也自豪地成為這股浪潮的一部分。我們的模型基于目前最流行的文字生成圖像開放模型 SDXL,該模型已經(jīng)擁有一個繁榮的生態(tài)系統(tǒng)?,F(xiàn)在,我們決定將 SDXL-Lightning 開放給全球的開發(fā)者、研究人員和創(chuàng)意從業(yè)者,以便他們能訪問并運用這一模型,進一步推動整個行業(yè)的創(chuàng)新和協(xié)作。

在設(shè)計 SDXL-Lightning 時,我們就考慮到與開放模型社區(qū)的兼容。社區(qū)中已有眾多藝術(shù)家和開發(fā)者創(chuàng)建了各種各樣的風格化圖像生成模型,例如卡通和動漫風格等。為了支持這些模型,我們提供 SDXL-Lightning 作為一個增速插件,它可以無縫地整合到這些多樣風格的 SDXL 模型中,為各種不同模型加快圖像生成的速度。 342047d4-d461-11ee-a297-92fbcf53809c.png

SDXL-Lightning 模型也可以和目前非常流行的控制插件 ControlNet 相結(jié)合,實現(xiàn)極速可控的圖片生成。

345c001c-d461-11ee-a297-92fbcf53809c.png

SDXL-Lightning 模型也支持開源社區(qū)里目前最流行的生成軟件 ComfyUI,模型可以被直接加載來使用:

347621e0-d461-11ee-a297-92fbcf53809c.png

關(guān)于技術(shù)細節(jié)

從理論上來說,圖像生成是一個由噪聲到清晰圖像的逐步轉(zhuǎn)化過程。在這一過程中,神經(jīng)網(wǎng)絡學習在這個轉(zhuǎn)化流(flow)中各個位置上的梯度。

生成圖像的具體步驟是這樣的:

首先我們在流的起點,隨機采樣一個噪聲樣本,接著用神經(jīng)網(wǎng)絡計算出梯度。根據(jù)當前位置上的梯度,我們對樣本進行微小的調(diào)整,然后不斷重復這一過程。每一次迭代,樣本都會更接近最終的圖像分布,直至獲得一張清晰的圖像。 34921a9e-d461-11ee-a297-92fbcf53809c.png

圖:生成流程(來自:https://arxiv.org/abs/2011.13456)

由于生成流復雜且非直線,生成過程必須一次只走一小步以減少梯度誤差累積,所以需要神經(jīng)網(wǎng)絡的頻繁計算,這就是計算量大的原因。

34a43d00-d461-11ee-a297-92fbcf53809c.png

圖:曲線流程(圖片來自:https://arxiv.org/abs/2210.05475)

為了減少生成圖像所需的步驟數(shù)量,許多研究致力于尋找解決方案。一些研究提出了能減少誤差的采樣方法,而其他研究則試圖使生成流更加直線化。盡管這些方法有所進展,但它們?nèi)匀恍枰^ 10 個推理步驟來生成圖像。

另一種方法是模型蒸餾,它能夠在少于 10 個推理步驟的情況下生成高質(zhì)量圖像。不同于計算當前流位置下的梯度,模型蒸餾改變模型預測的目標,直接讓其預測下一個更遠的流位置。具體來說,我們訓練一個學生網(wǎng)絡直接預測老師網(wǎng)絡完成了多步推理后的結(jié)果。這樣的策略可以大幅減少所需的推理步驟數(shù)量。通過反復應用這個過程,我們可以進一步降低推理步驟的數(shù)量。這種方法被先前的研究稱之為漸進式蒸餾。

34bd92c8-d461-11ee-a297-92fbcf53809c.png

圖:漸進式蒸餾,學生網(wǎng)絡預測老師網(wǎng)絡多步后的結(jié)果

在實際操作中,學生網(wǎng)絡往往難以精確預測未來的流位置。誤差隨著每一步的累積而放大,導致在少于 8 步推理的情況下,模型產(chǎn)生的圖像開始變得模糊不清。

為了解決這個問題,我們的策略是不強求學生網(wǎng)絡精確匹配教師網(wǎng)絡的預測,而是讓學生網(wǎng)絡在概率分布上與教師網(wǎng)絡保持一致。換言之,學生網(wǎng)絡被訓練來預測一個概率上可能的位置,即使這個位置并不完全準確,我們也不會對它進行懲罰。這個目標是通過對抗訓練來實現(xiàn)的,引入了一個額外的判別網(wǎng)絡來幫助實現(xiàn)學生網(wǎng)絡和教師網(wǎng)絡輸出的分布匹配。

這是我們研究方法的簡要概述。在技術(shù)論文(https://arxiv.org/abs/2402.13929)中,我們提供了更深入的理論分析、訓練策略以及模型的具體公式化細節(jié)。

SDXL-Lightning 之外

盡管本研究主要探討了如何利用 SDXL-Lightning 技術(shù)進行圖像生成,但我們所提出的漸進式對抗蒸餾方法的應用潛力不局限于靜態(tài)圖像的范疇。這一創(chuàng)新技術(shù)也可以被運用于快速且高質(zhì)量生成視頻、音頻以及其他多模態(tài)內(nèi)容。我們誠摯邀請您在 HuggingFace 平臺上體驗 SDXL-Lightning,并期待您寶貴的意見和反饋。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡

    關(guān)注

    42

    文章

    4838

    瀏覽量

    107871
  • LCM
    LCM
    +關(guān)注

    關(guān)注

    6

    文章

    60

    瀏覽量

    35450
  • 字節(jié)跳動
    +關(guān)注

    關(guān)注

    0

    文章

    352

    瀏覽量

    10079
  • 生成式AI
    +關(guān)注

    關(guān)注

    0

    文章

    538

    瀏覽量

    1093

原文標題:就是“快”!字節(jié)跳動發(fā)布文生圖開放模型,迅速沖上Hugging Face Spaces 熱榜

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    NVIDIA Alpamayo 1模型Hugging Face平臺下載量已突破10萬次

    NVIDIA Alpamayo 1 在 Hugging Face 的下載量已突破 10 萬次,且仍在持續(xù)增長,已成為 Hugging Face 平臺下載量最高的機器人
    的頭像 發(fā)表于 03-04 16:27 ?706次閱讀

    惠倫晶體助力字節(jié)豆包AI眼鏡新體驗

    近日,行業(yè)備受矚目的“豆包”AI眼鏡發(fā)布新動態(tài),這款由字節(jié)跳動與龍旗科技聯(lián)合研發(fā)的眼鏡,搭載自研空間算法芯片,整體重量不足50克,展示了AI眼鏡發(fā)展的新方向。
    的頭像 發(fā)表于 01-09 11:23 ?651次閱讀
    惠倫晶體助力<b class='flag-5'>字節(jié)</b>豆包AI眼鏡新體驗

    NVIDIA在CES 2026發(fā)布全新開放模型、數(shù)據(jù)和工具

    為擴展開放模型生態(tài),NVIDIA 發(fā)布全新開放模型、數(shù)據(jù)和工具,推動各行業(yè) AI 技術(shù)的發(fā)展。
    的頭像 發(fā)表于 01-09 10:42 ?577次閱讀

    百度文心大模型5.0 Preview榮登LMArena文本國內(nèi)第一

    12月23日,LMArena大模型競技場發(fā)布最新排名,文心新模型ERNIE-5.0-Preview-1203以1451分登上LMArena文本,排名國內(nèi)第一該
    的頭像 發(fā)表于 12-23 15:02 ?566次閱讀

    利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測試與驗證數(shù)據(jù)生成。借助 NVIDIA Omniverse 庫和 Co
    的頭像 發(fā)表于 12-01 09:25 ?1166次閱讀

    面向科學仿真的開放模型系列NVIDIA Apollo正式發(fā)布

    用于加速工業(yè)和計算工程的開放模型系列 NVIDIA Apollo 于近日舉行的 SC25 大會上正式發(fā)布。
    的頭像 發(fā)表于 11-25 11:15 ?7.4w次閱讀

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現(xiàn)已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應用開發(fā)者都可以構(gòu)建并部署帶有先進動畫的高精度角色。NVIDIA 開源 Audio2Face 的訓練框架,任何人都可以針對特定用例對現(xiàn)有
    的頭像 發(fā)表于 10-21 11:11 ?836次閱讀
    NVIDIA開源Audio2<b class='flag-5'>Face</b><b class='flag-5'>模型</b>及SDK

    什么是AI模型的推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理
    的頭像 發(fā)表于 09-23 15:19 ?1296次閱讀

    亞馬遜云科技現(xiàn)已上線OpenAI開放權(quán)重模型

    客戶現(xiàn)可通過Amazon Bedrock和Amazon SageMaker AI使用OpenAI開放權(quán)重模型,實現(xiàn)將先進的開放權(quán)重模型與全球最廣泛云服務的深度集成。 亞馬遜云科技首次上
    的頭像 發(fā)表于 08-06 19:29 ?859次閱讀

    4K、多模態(tài)、長視頻:AI視頻生成的下一個戰(zhàn)場,誰在領(lǐng)跑?

    電子發(fā)燒友網(wǎng)報道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節(jié)跳動最新視頻模型,支持文字與圖片輸入,可生成多鏡頭無縫切換的1080
    的頭像 發(fā)表于 06-16 00:13 ?7309次閱讀

    【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗】+Agent開發(fā)平臺

    store 一樣構(gòu)建起一整套完善的交易及會員體系。目前,大多數(shù)Agent開放平臺還處于免費模式,其商業(yè)化的生態(tài)尚且不夠成熟。 扣子是字節(jié)跳動所推出的Agent開發(fā)平臺,它包括海外版和國內(nèi)版。對于功能版又分
    發(fā)表于 05-13 12:24

    賽思×火山引擎 | 高精度同步時鐘助力字節(jié)跳動華東地區(qū)首個算力中心落地

    賽思同步時鐘全方位賦能火山引擎長三角算力中心,助力字節(jié)跳動火山引擎打造“云上新宇宙”。
    的頭像 發(fā)表于 03-31 14:44 ?1138次閱讀
    賽思×火山引擎 | 高精度同步時鐘助力<b class='flag-5'>字節(jié)</b><b class='flag-5'>跳動</b>華東地區(qū)首個算力中心落地

    賽思×字節(jié)跳動 高精度同步時鐘助力火山引擎打造“云上新宇宙”

    摘要: 賽思同步時鐘將對火山引擎長三角算力中心進行從基礎(chǔ)設(shè)施到業(yè)務引擎的全方位賦能,助力字節(jié)跳動旗下火山引擎打造“云上新宇宙”。 火山引擎長三角算力中心 — 蕪湖“東數(shù)西算”數(shù)據(jù)集群重點項目 火山云
    的頭像 發(fā)表于 03-28 09:11 ?895次閱讀
    賽思×<b class='flag-5'>字節(jié)</b><b class='flag-5'>跳動</b>  高精度同步時鐘助力火山引擎打造“云上新宇宙”

    字節(jié)跳動扣子AI工坊硬件專場四城聯(lián)動,機智云引領(lǐng)AI+IoT創(chuàng)新變革

    2025年3月22日,由字節(jié)跳動旗下扣子AI工坊舉辦的硬件專場活動在北京、杭州、深圳、成都四城同步火熱開展。本次活動匯聚了AI行業(yè)專家、開發(fā)者以及企業(yè)代表,共同深入探討AI硬件的創(chuàng)新應用與發(fā)展趨勢
    的頭像 發(fā)表于 03-24 19:32 ?1856次閱讀
    <b class='flag-5'>字節(jié)</b><b class='flag-5'>跳動</b>扣子AI工坊硬件專場四城聯(lián)動,機智云引領(lǐng)AI+IoT創(chuàng)新變革

    利用英特爾OpenVINO在本地運行Qwen2.5-VL系列模型

    近期阿里通義實驗室在 Hugging Face 和 ModelScope 上開源了 Qwen2.5-VL 的 Base 和 Instruct 模型,包含 3B、7B 和 72B 在內(nèi)的 3 個
    的頭像 發(fā)表于 03-12 13:42 ?2629次閱讀
    利用英特爾OpenVINO在本地運行Qwen2.5-VL系列<b class='flag-5'>模型</b>