谷歌推出能一次生成完整視頻的擴(kuò)散模型

谷歌研究院近日發(fā)布了一款名為Lumiere的文生視頻擴(kuò)散模型，基于自家研發(fā)的Space-Time U-Net基礎(chǔ)架構(gòu)，獨(dú)立生成具有高效、完整且動(dòng)作連貫性的視頻效果。

該公司指出，當(dāng)前眾多文生視頻模型普遍存在無法生成長時(shí)、高品質(zhì)及動(dòng)作連貫的問題。這些模型往往采用“分段生成視頻”策略，即先生成少量關(guān)鍵幀，再借助時(shí)間超級(jí)分辨率（TSM）技術(shù)生成其間的視頻文件。盡管此策略可減緩RAM負(fù)擔(dān)，但難以生成理想的連續(xù)視頻效果。

針對(duì)此問題，谷歌的Lumiere模型創(chuàng)新地引入了新型Space-Time U-Net基礎(chǔ)架構(gòu)，這種架構(gòu)能在空間和時(shí)間兩個(gè)維度同時(shí)降低信號(hào)采樣率，使其具備更高的計(jì)算效率，進(jìn)而實(shí)現(xiàn)生成更具持續(xù)性、動(dòng)作連貫的視頻效果。

此外，開發(fā)者們特別說明，Lumiere每次可生成80幀視頻（在16FPS模式下相當(dāng)于5秒視頻，或在24FPS模式下為約3.34秒視頻）。盡管這一時(shí)光貌似短暫，然而他們強(qiáng)調(diào)，事實(shí)上，這段5秒視頻所包含的鏡頭時(shí)長已超出大多數(shù)媒體作品中單一鏡頭的平均時(shí)長。

除運(yùn)用架構(gòu)創(chuàng)新以外，作為AI構(gòu)建基礎(chǔ)的預(yù)訓(xùn)練文生圖像模型也得到了谷歌團(tuán)隊(duì)的特別關(guān)注。該模型首次生成簡單像素草稿作為視頻分幀，然后借助空間超分辨率（SRM）模型，逐步提高分幀分辨率，同時(shí)引入通用生成框架Multi-Diffusion以增強(qiáng)模型穩(wěn)定性，從而確保最終輸出的視頻效果一致且連續(xù)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6254

瀏覽量
111490
RAM

RAM

+關(guān)注

關(guān)注
8

文章
1399

瀏覽量
120627
AI

AI

+關(guān)注

關(guān)注
91

文章
39912

瀏覽量
301557
模型

模型

+關(guān)注

關(guān)注
1

文章
3757

瀏覽量
52131

評(píng)論

微云疏影
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁

Hot 對(duì)比各家主流MCU指標(biāo)，國產(chǎn)MCU真的品質(zhì)不佳？
Hot 模擬信號(hào)和數(shù)字信號(hào)的區(qū)別和特點(diǎn)

New 方正電機(jī)成為小鵬汽車驅(qū)動(dòng)電機(jī)供應(yīng)商，總需求量預(yù)計(jì)達(dá)35萬臺(tái)
New 雷諾-吉利動(dòng)力總成合資企業(yè)HORSE在倫敦成立

精選推薦
更多

文章

資料

帖子

國產(chǎn)龍蝦三劍客，為什么成了全球蝦農(nóng)的最優(yōu)選？

腦極體
13小時(shí)前

1808 閱讀

飛凌嵌入式亮相德國紐倫堡embedded world 2026，深耕全球嵌入式AI市場！

飛凌嵌入式
16小時(shí)前

1178 閱讀

如何在邊緣AI應(yīng)用場景中實(shí)現(xiàn)高性能、低功耗推理（下）

RA生態(tài)工作室
16小時(shí)前

999 閱讀

了解Qorvo PAC2xxxx系列電池管理系統(tǒng)的硬核實(shí)力

Qorvo半導(dǎo)體
17小時(shí)前

915 閱讀

基于DYNA4實(shí)現(xiàn)攝像頭畸變應(yīng)用

北匯信息POLELINK
22小時(shí)前

1228 閱讀

LED電子工程師必備知識(shí)

青樓滿座
3.36 MB

免費(fèi)

0下載

React-in-patterns React開發(fā)設(shè)計(jì)模式/技術(shù)列表

席毖庸
61.19 MB

免費(fèi)

0下載

TeslaMate特斯拉自托管數(shù)據(jù)記錄器

h1654155275.5748
3.29 MB

2積分

2下載

docker-sshd Docker容器的sshd代理

YYXIAO
0.00 MB

免費(fèi)

0下載

jwt-auth基于ThinkPHP的jwt框架

張虎豹
0.02 MB

2積分

1下載

【飛凌嵌入式RV1126B開發(fā)板】+外設(shè)功能測試篇

jennyzhaojie
1天前

341 閱讀

5V_ext為輸入，5V_MEAS為輸出，請(qǐng)問電路原理是什么，作用是什么？

jf_52890932
1天前

475 閱讀

【瑞薩AI挑戰(zhàn)賽-FPB-RA6E2】+ 從零開始：FPB-RA6E2 開箱測評(píng)與 e2 studio 環(huán)境配置

時(shí)光找茬
2天前

496 閱讀

【米爾全志T153開發(fā)板評(píng)測】LVGL 9.3.0 移植到 MYD-YT153MX-MINI 開發(fā)板

華仔stm32
2天前

440 閱讀

在昉·星光開發(fā)板上通舵機(jī)控制板實(shí)現(xiàn)機(jī)器人舵機(jī)控制

感謝相遇
3天前

887 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

搜索歷史

谷歌推出能一次生成完整視頻的擴(kuò)散模型

評(píng)論