91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌新作Dreamix:視頻擴散模型是通用視頻編輯器,效果驚艷!

CVer ? 來源:機器之心 ? 2023-02-09 11:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AIGC 已經(jīng)火了很長時間了,出現(xiàn)了文本生成圖像、文本生成視頻、圖像生成視頻等廣泛的應(yīng)用場景,如今谷歌研究院的一項新研究可以讓我們根據(jù)輸入視頻生成其他視頻了!

我們知道,生成模型和多模態(tài)視覺語言模型的進展已經(jīng)為具備前所未有生成真實性和多樣性的大型文本到圖像模型鋪平了道路。這些模型提供了新的創(chuàng)作過程,但僅限于合成新圖像而非編輯現(xiàn)有圖像。為了彌合這一差距,基于文本的直觀編輯方法可以對生成和真實圖像進行基于文本的編輯,并保留這些圖像的一些原始屬性。與圖像類似,近來文本到視頻模型也提出了很多,但使用這些模型進行視頻編輯的方法卻很少。 在文本指導(dǎo)的視頻編輯中,用戶提供輸入視頻以及描述生成視頻預(yù)期屬性的文本 prompt,如下圖 1 所示。目標有以下三個方面,1)對齊,編輯后的視頻應(yīng)符合輸入文本 prompt;2)保真度,編輯后的視頻應(yīng)保留原始視頻的內(nèi)容,3)質(zhì)量,編輯后的視頻應(yīng)具備高質(zhì)量。 可以看到,視頻編輯比圖像編輯更加具有挑戰(zhàn)性,它需要合成新的動作,而不僅僅是修改視覺外觀。此外還需要保持時間上的一致性。因此,將 SDEdit、Prompt-to-Prompt 等圖像級別的編輯方法應(yīng)用于視頻幀上不足以實現(xiàn)很好的效果。

c97ae65a-a7e3-11ed-bfe3-dac502259ad0.png

在近日谷歌研究院等發(fā)表在 arXiv 的一篇論文中,研究者提出了一種新方法 Dreamix,它受到了 UniTune 的啟發(fā),將文本條件視頻擴散模型(video diffusion model, VDM)應(yīng)用于視頻編輯。

c996adcc-a7e3-11ed-bfe3-dac502259ad0.png

Dreamix: Video Diffusion Models are General Video Editors

論文地址:https://arxiv.org/abs/2302.01329

項目主頁:https://dreamix-video-editing.github.io/

文中方法的核心是通過以下兩種主要思路使文本條件 VDM 保持對輸入視頻的高保真度。其一不使用純噪聲作為模型初始化,而是使用原始視頻的降級版本,通過縮小尺寸和添加噪聲僅保留低時空信息;其二通過微調(diào)原始視頻上的生成模型來進一步提升對原始視頻的保真度。 微調(diào)確保模型了解原始視頻的高分辨率屬性。對輸入視頻的簡單微調(diào)會促成相對較低的運動可編輯性,這是因為模型學(xué)會了更傾向于原始運動而不是遵循文本 prompt。研究者提出了一種新穎的混合微調(diào)方法,其中 VDM 也在輸入視頻各個幀的集合上進行微調(diào),并丟棄了它們的時序。混合微調(diào)顯著提升了運動編輯的質(zhì)量。 研究者進一步利用其視頻編輯模型提出了一個新的圖像動畫框架,如下圖 2 所示。該框架包含了幾個步驟,比如為圖像中的對象和背景設(shè)置動畫、創(chuàng)建動態(tài)相機運動等。他們通過幀復(fù)制或幾何圖像變換等簡單的圖像處理操作來實現(xiàn),從而創(chuàng)建粗糙的視頻。接著使用 Dreamix 視頻編輯器對視頻進行編輯。此外研究者還使用其微調(diào)方法進行目標驅(qū)動的視頻生成,也即 Dreambooth 的視頻版本。

c9aa1678-a7e3-11ed-bfe3-dac502259ad0.png

在實驗展示部分,研究者進行了廣泛的定性研究和人工評估,展示了他們方法的強大能力,具體可參考如下動圖。

c9c1c62e-a7e3-11ed-bfe3-dac502259ad0.gif

?

ca0b8e44-a7e3-11ed-bfe3-dac502259ad0.gif

cab5acee-a7e3-11ed-bfe3-dac502259ad0.gif

對于谷歌這項研究,有人表示,3D + 運動和編輯工具可能是下一波論文的熱門主題。

cb1f10da-a7e3-11ed-bfe3-dac502259ad0.png

還有人表示:大家可以很快在預(yù)算內(nèi)制作自己的的電影了,你所需要的只是一個綠幕以及這項技術(shù):

cb39199e-a7e3-11ed-bfe3-dac502259ad0.png

方法概覽 本文提出了一種新的方法用于視頻編輯,具體而言: 通過逆向被破壞視頻進行文本引導(dǎo)視頻編輯 他們采用級聯(lián) VDM( Video Diffusion Models ),首先通過下采樣對輸入視頻就行一定的破壞,后加入噪聲。接下來是級聯(lián)擴散模型用于采樣過程,并以時間 t 為條件,將視頻升級到最終的時間 - 空間分辨率。 在對輸入視頻進行破壞處理的這一過程中,首先需要進行下采樣操作,以得到基礎(chǔ)模型(16 幀 24 × 40),然后加入方差為cb4acffe-a7e3-11ed-bfe3-dac502259ad0.png高斯噪聲,從而進一步破壞輸入視頻。 ? 對于上述處理好的視頻,接下來的操作是使用級聯(lián) VDM 將損壞掉的低分辨率視頻映射到與文本對齊的高分辨率視頻。這里的核心思想是,給定一個嘈雜的、時間空間分辨率非常低的視頻,有許多完全可行的、高分辨率的視頻與之對應(yīng)。本文中基礎(chǔ)模型從損壞的視頻開始,它與時間 s 的擴散過程具有相同的噪聲。然后該研究用 VDM 來逆向擴散過程直到時間 0。最后通過超分辨率模型對視頻進行升級。 ?混合視頻圖像微調(diào)? 僅利用輸入視頻進行視頻擴散模型的微調(diào)會限制物體運動變化,相反,該研究使用了一種混合目標,即除了原始目標(左下角)之外,本文還對無序的幀集進行了微調(diào),這是通過「masked temporal attention」來完成的,以防止時間注意力和卷積被微調(diào)(右下)。這種操作允許向靜態(tài)視頻中添加運動。 ?

cb5b667a-a7e3-11ed-bfe3-dac502259ad0.png

推理 在應(yīng)用程序預(yù)處理的基礎(chǔ)上(Aapplication Dependent Pre-processing,下圖左),該研究支持多種應(yīng)用,能將輸入內(nèi)容轉(zhuǎn)換為統(tǒng)一的視頻格式。對于圖像到視頻,輸入圖像被復(fù)制并被變換,合成帶有一些相機運動的粗略視頻;對于目標驅(qū)動視頻生成,其輸入被省略,單獨進行微調(diào)以維持保真度。然后使用 Dreamix Video Editor(右)編輯這個粗糙的視頻:即前面講到的,首先通過下采樣破壞視頻,添加噪聲。然后應(yīng)用微調(diào)的文本引導(dǎo)視頻擴散模型,將視頻升級到最終的時間空間分辨率。

cb7a6520-a7e3-11ed-bfe3-dac502259ad0.png

實驗結(jié)果 視頻編輯:下圖中 Dreamix 將動作改為舞蹈,并且外觀由猴子變?yōu)樾埽曨l中主體的基本屬性沒有變:

cb8bda80-a7e3-11ed-bfe3-dac502259ad0.gif

Dreamix 還可以生成與輸入視頻時間信息一致的平滑視覺修改,如下圖會滑滑板的小鹿:

cbd6fd08-a7e3-11ed-bfe3-dac502259ad0.gif

圖像到視頻:當輸入是一張圖像時,Dreamix 可以使用其視頻先驗添加新的移動對象,如下圖中添加了在有霧的森林中出現(xiàn)一頭獨角獸,并放大。

cc397f00-a7e3-11ed-bfe3-dac502259ad0.gif

小屋旁邊出現(xiàn)企鵝:

cc73cb56-a7e3-11ed-bfe3-dac502259ad0.gif

目標驅(qū)動視頻生成:Dreamix 還可以獲取顯示相同主題的圖像集合,并以該主題為運動對象生成新的視頻。如下圖是一條在葉子上蠕動的毛毛蟲:

ccb304ba-a7e3-11ed-bfe3-dac502259ad0.gif

除了定性分析外,該研究還進行了基線比較,主要是將 Dreamix 與 Imagen-Video、 Plug-and-Play (PnP) 兩種基線方法進行對比。下表為評分結(jié)果:

ccec576a-a7e3-11ed-bfe3-dac502259ad0.png

圖 8 展示了由 Dreamix 編輯的視頻和兩個基線示例:文本到視頻模型實現(xiàn)了低保真度的編輯,因為它不以原始視頻為條件。PnP 保留了場景,但不同幀之間缺乏一致性;Dreamix 在這三個目標上都表現(xiàn)良好。

cd035e2e-a7e3-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 視頻
    +關(guān)注

    關(guān)注

    6

    文章

    2005

    瀏覽量

    74980
  • 編輯器
    +關(guān)注

    關(guān)注

    1

    文章

    828

    瀏覽量

    32916
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    572

    瀏覽量

    11323

原文標題:谷歌新作Dreamix:視頻擴散模型是通用視頻編輯器,效果驚艷!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Termux手機攝像頭采集圖像/視頻流 部署 YOLO 模型推理

    Termux手機攝像頭采集圖像/視頻流 部署 YOLO 模型推理
    的頭像 發(fā)表于 12-14 07:26 ?2877次閱讀

    編輯器無法正常運行,為什么?

    編輯器無法正常運行
    發(fā)表于 11-11 07:33

    飛凌嵌入式ElfBoard-常用編輯器之Vim編輯器

    在Linux下我們對文本進行編輯,經(jīng)常用到的編輯器就是Vi/Vim, Vi/Vim命令眾多,功能強大,是大多數(shù)Linux程序員選擇使用的編輯器。但是Vi/Vim沒有圖形界面,對于經(jīng)常在windows
    發(fā)表于 10-13 08:47

    rtthread studio的編輯器如何開啟自動換行功能?

    rtthread studio的編輯器如何開啟自動換行功能
    發(fā)表于 09-19 06:00

    ?LMH1982多速率視頻時鐘發(fā)生技術(shù)文檔總結(jié)

    LMH1982 器件是一款多速率視頻時鐘發(fā)生,非常適合用于各種 3 Gbps (3G)、高清 (HD) 和標清 (SD) 視頻應(yīng)用,例如視頻 同步,串行數(shù)字接口 (SDI) 串行
    的頭像 發(fā)表于 09-18 13:57 ?691次閱讀
    ?LMH1982多速率<b class='flag-5'>視頻</b>時鐘發(fā)生<b class='flag-5'>器</b>技術(shù)文檔總結(jié)

    成都匯陽投資關(guān)于大模型白熱化,應(yīng)用加速分化

    Gemini 2.5 Flash Image登頂 多主流圖像榜,Meta 也從 Midjourney 授權(quán) AI 圖像模型;視頻領(lǐng)域,阿里字節(jié)等刷新能力高度 ,谷歌視頻
    的頭像 發(fā)表于 09-09 09:30 ?933次閱讀

    Vim編輯器高效操作流程

    在現(xiàn)代運維工作中,服務(wù)配置管理、日志分析、腳本編寫等任務(wù)幾乎占據(jù)了工程師日常工作的大部分時間。作為Linux系統(tǒng)標配的文本編輯器,Vim以其強大的功能和極高的效率贏得了無數(shù)運維工程師的青睞。然而,Vim陡峭的學(xué)習(xí)曲線也讓許多初學(xué)者望而卻步。
    的頭像 發(fā)表于 09-02 16:45 ?1062次閱讀

    視頻教程 | 單元測試工具TESSY:腳本編輯器(Script Editor)#單元測試工具

    編輯器
    龍智DevSecOps
    發(fā)布于 :2025年08月21日 14:43:49

    4K、多模態(tài)、長視頻:AI視頻生成的下一個戰(zhàn)場,誰在領(lǐng)跑?

    電子發(fā)燒友網(wǎng)報道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節(jié)跳動最新視頻模型,支持文字與圖片輸入,可生成多鏡頭無縫切換的1080
    的頭像 發(fā)表于 06-16 00:13 ?7305次閱讀

    rtthread studio的編輯器如何開啟自動換行功能?

    rtthread studio的編輯器如何開啟自動換行功能?
    發(fā)表于 06-13 08:16

    從初學(xué)到進階:樹莓派上最適合你的代碼編輯器推薦!

    之前,你需要安裝一些必備工具,代碼編輯器便是其中之一。樹莓派系統(tǒng)自帶了一些代碼編輯器,它們功能良好,足以滿足基本需求。不過,如果你需要更高級的功能,就必須探索其他
    的頭像 發(fā)表于 05-15 16:20 ?1208次閱讀
    從初學(xué)到進階:樹莓派上最適合你的代碼<b class='flag-5'>編輯器</b>推薦!

    Vim編輯器的基本操作

    在代碼的世界里,效率是永恒的追求。無論是新手開發(fā)者還是資深工程師,都渴望擁有一款能讓自己如虎添翼的編輯器。而在Linux生態(tài)中,有一款被無數(shù)程序員奉為神器、被譽為“效率之王”的編輯器——Vim。它以
    的頭像 發(fā)表于 05-06 13:41 ?1292次閱讀
    Vim<b class='flag-5'>編輯器</b>的基本操作

    Linux下Vim編輯器的使用技巧

    【Vim】常用總結(jié)? 簡介? image 什么是vim?? Linux下兩大編輯神器之一 vim ? Linux/Unix下使用最多的編輯器 ? vi的改進版 ? 可能是最難上手的編輯器之一
    的頭像 發(fā)表于 04-01 17:36 ?1455次閱讀
    Linux下Vim<b class='flag-5'>編輯器</b>的使用技巧

    簡化樹莓派文件操作:Picockpit 編輯器應(yīng)用上手體驗

    我們激動地宣布推出全新的文件編輯器應(yīng)用,讓您能夠在RaspberryPi上遠程創(chuàng)建和編輯文件和目錄!不僅如此,通過我們的文件編輯器應(yīng)用,您還能獲得我們的AI系統(tǒng)——RaspiGPT的協(xié)助。要您擁有
    的頭像 發(fā)表于 03-25 09:26 ?700次閱讀
    簡化樹莓派文件操作:Picockpit <b class='flag-5'>編輯器</b>應(yīng)用上手體驗

    鴻蒙海報編輯器APP,分享端云一體化開發(fā)的經(jīng)驗!

    前言 在我工作的日常中,經(jīng)常會用一些畫圖編輯器,簡單設(shè)計一些頁面原型。而在去年低代碼很火的時候,我在公司就開發(fā)了一款大屏可視化編輯器,可以通過拖拉拽生成網(wǎng)頁的一個工具。后面也想著自己也開發(fā)一個畫圖
    的頭像 發(fā)表于 03-16 16:09 ?893次閱讀
    鴻蒙海報<b class='flag-5'>編輯器</b>APP,分享端云一體化開發(fā)的經(jīng)驗!