91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

字節(jié)跳動(dòng)推出一款顛覆性視頻模型—Boximator

jf_WZTOguxH ? 來源:Boximator論文 ? 2024-02-20 13:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來源|AIGC開放社區(qū)

在 Sora 引爆文生視頻賽道之前,國(guó)內(nèi)的字節(jié)跳動(dòng)也推出了一款顛覆性視頻模型——Boximator。

與 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通過文本精準(zhǔn)控制生成視頻中人物或物體的動(dòng)作。

例如,下雨天,大風(fēng)把一位女生的雨傘吹走了。目前,很少有視頻模型能精準(zhǔn)做到這一點(diǎn)。

Boximator 案例賞析

我們先看一下 Boximator 與 Gen-2、Pink1.0,在使用相同的文本提示詞、圖像生成的視頻,所表現(xiàn)出來的不同動(dòng)作。

為了方便觀察,「AIGC 開放社區(qū)」將對(duì)比視頻整合在一起,最左邊的是 Boximator 生成的視頻。

一個(gè)可愛的 3D 男孩站著,然后走路

在這個(gè)案例中,Pika 1.0 生成的視頻男孩只是站著沒有走動(dòng),Gen-2 的視頻走動(dòng)了但不明顯,只有 Boximator 產(chǎn)生了明顯的走動(dòng)動(dòng)作。

一位英俊的男人用他的右手從口袋里拿出一朵玫瑰,并且在看著這朵玫瑰

這個(gè)案例 Pika 1.0 和 Gen-2 表現(xiàn)的都非常不好,男士沒有掏出玫瑰花的動(dòng)作。Boximator 再一次完美理解文本語(yǔ)義并做出了相應(yīng)的動(dòng)作。

往杯子里加紅酒

這個(gè)案例主要展示了控制物體動(dòng)作的能力,Pika 1.0 和 Gen-2 都做出了倒酒的動(dòng)作,但是杯子里的酒沒有明顯上升的動(dòng)作。只有 Boximator 做到了倒酒 + 上升兩個(gè)動(dòng)作。

看了這 3 個(gè)案例,能感受到 Boximator 對(duì)文本語(yǔ)義精準(zhǔn)理解,以及對(duì)動(dòng)作控制的強(qiáng)大功能了吧。

Boximator 模型介紹

為了實(shí)現(xiàn)對(duì)視頻中物體、人物的動(dòng)作控制,Boximator 使用了“軟框”和“硬框”兩種約束方法。

硬框:可精確定義目標(biāo)對(duì)象的邊界框。用戶可以在圖片中畫出感興趣的對(duì)象,Boximator 會(huì)將其視為硬框約束, 在之后的幀中精準(zhǔn)定位該對(duì)象的位置。

22fcfe7e-cfb2-11ee-a297-92fbcf53809c.png

軟框:軟框定義一個(gè)對(duì)象可能存在的區(qū)域, 形成一個(gè)寬松的邊界框。對(duì)象需要停留在這個(gè)區(qū)域內(nèi), 但位置可以有一定變化,實(shí)現(xiàn)適度的隨機(jī)性。

兩類框都包含目標(biāo)對(duì)象的 ID, 用于在不同幀中跟蹤同一對(duì)象。此外, 框還包含坐標(biāo)、類型等信息的編碼。

控制模塊和訓(xùn)練策略

控制模塊可以將框約束的編碼與視頻幀的視覺編碼結(jié)合,用來指導(dǎo)視頻的精準(zhǔn)動(dòng)作生成。包含框編碼器和自注意力層兩大塊。

框編碼器:將框的坐標(biāo)、ID、類型等信息, 通過 Fourier 編碼和 MLP 映射為控制向量。

自注意力層:將框的控制向量與視頻幀的視覺向量通過自注意力建模其關(guān)系, 學(xué)習(xí)將框指導(dǎo)幀生成。

訓(xùn)練策略方面,Boximator 主要分為兩個(gè)階段: 自跟蹤階段,訓(xùn)練模型的同時(shí)生成視頻內(nèi)容和對(duì)應(yīng)的框,并簡(jiǎn)化框與對(duì)象的關(guān)系學(xué)習(xí)。

正常訓(xùn)練,訓(xùn)練模型只生成視頻內(nèi)容, 框的內(nèi)在表達(dá)已經(jīng)學(xué)會(huì)指導(dǎo)對(duì)象生成。此外, 訓(xùn)練還使用多階段策略,逐步過渡從硬框到軟框的約束, 以及適當(dāng)融合無框數(shù)據(jù)。

Boximator 實(shí)驗(yàn)數(shù)據(jù)

為獲得視頻訓(xùn)練數(shù)據(jù), 研究人員從 WebVid-10M 數(shù)據(jù)集中,過濾出 110 萬段動(dòng)態(tài)明顯的視頻片段, 并自動(dòng)為其注釋了 220 萬個(gè)對(duì)象的邊界框。并在 PixelDance 和 ModelScope 這兩個(gè)模型上訓(xùn)練了 Boximator。

實(shí)驗(yàn)數(shù)據(jù)顯示,Boximator 在保持原模型視頻質(zhì)量, 具有非常強(qiáng)大的動(dòng)作控制能力。同時(shí)可以作為一種插件,幫助現(xiàn)有視頻擴(kuò)散模型提升生成質(zhì)量。

在 MSR-VTT 數(shù)據(jù)集上, 無論是視頻質(zhì)量還是框與對(duì)象對(duì)齊精度方面,Boximator 都優(yōu)于原模型。在人類評(píng)估中,Boximator 生成的視頻也在質(zhì)量和運(yùn)動(dòng)控制上明顯超過原模型。

239eb6ce-cfb2-11ee-a297-92fbcf53809c.png

字節(jié)跳動(dòng)的研究人員表示,目前該模型處于研發(fā)階段,預(yù)計(jì) 2-3 個(gè)月內(nèi)發(fā)布測(cè)試網(wǎng)站。讓我們期待一下國(guó)內(nèi)挑戰(zhàn) Sora 的產(chǎn)品誕生吧!




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 字節(jié)跳動(dòng)
    +關(guān)注

    關(guān)注

    0

    文章

    352

    瀏覽量

    10079
  • Sora
    +關(guān)注

    關(guān)注

    0

    文章

    86

    瀏覽量

    810

原文標(biāo)題:字節(jié)跳動(dòng)推出顛覆性文生視頻模型,可自由控制動(dòng)作!

文章出處:【微信號(hào):AI前線,微信公眾號(hào):AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    探索THS8136:一款高性能的圖形與視頻DAC

    探索THS8136:一款高性能的圖形與視頻DAC 在電子設(shè)計(jì)領(lǐng)域,數(shù)字 - 模擬轉(zhuǎn)換器(DAC)是連接數(shù)字世界和模擬世界的關(guān)鍵橋梁。今天,我們將深入探討德州儀器(TI)的THS8136,一款專為圖形
    的頭像 發(fā)表于 12-25 14:10 ?279次閱讀

    工業(yè)制造顛覆性挑戰(zhàn)

    關(guān)于工業(yè)制造顛覆性挑戰(zhàn)及可能的戰(zhàn)略選擇。1.AI領(lǐng)域:生成式AI估值修正,泡沫不會(huì)全面破裂,工業(yè)AI需依托專業(yè)數(shù)據(jù)、流程與基礎(chǔ)設(shè)施,行業(yè)將迎來炒作退潮、價(jià)值回歸與應(yīng)
    的頭像 發(fā)表于 12-17 22:09 ?434次閱讀
    工業(yè)制造<b class='flag-5'>顛覆性</b>挑戰(zhàn)

    恭賀!同星智能TSMaster項(xiàng)目榮獲2025全國(guó)顛覆性技術(shù)創(chuàng)新大賽優(yōu)勝獎(jiǎng)

    ,再次獲得的又重要榮譽(yù)。2025全國(guó)顛覆性技術(shù)創(chuàng)新大賽是由京津冀國(guó)家技術(shù)創(chuàng)新中心主辦,上海顛覆性技術(shù)創(chuàng)新中心、廣州顛覆性技術(shù)創(chuàng)新中心、黃埔創(chuàng)新學(xué)院承辦的全國(guó)
    的頭像 發(fā)表于 11-07 20:05 ?580次閱讀
    恭賀!同星智能TSMaster項(xiàng)目榮獲2025全國(guó)<b class='flag-5'>顛覆性</b>技術(shù)創(chuàng)新大賽優(yōu)勝獎(jiǎng)

    華秋四層板直降10%!以極致性價(jià)比賦能每一款產(chǎn)品

    讓高可靠的四層板,成為您的標(biāo)準(zhǔn)選擇!在成本與品質(zhì)間尋找完美平衡,是每位電子工程師與采購(gòu)的核心挑戰(zhàn)。今天,華秋PCB正式推出「四層板爆專項(xiàng)」,以顛覆性的¥400/㎡的價(jià)格,打破四層板
    的頭像 發(fā)表于 10-22 07:34 ?743次閱讀
    華秋四層板直降10%!以極致性價(jià)比賦能每<b class='flag-5'>一款</b>產(chǎn)品

    工業(yè)設(shè)備遠(yuǎn)程監(jiān)控的“顛覆性突破”:邊緣計(jì)算網(wǎng)關(guān)讓千里之外如在眼前

    工業(yè)設(shè)備遠(yuǎn)程監(jiān)控的“顛覆性突破”:邊緣計(jì)算網(wǎng)關(guān)讓千里之外如在眼前 隨著工業(yè)領(lǐng)域?qū)χ悄芑?shù)字化管理需求的不斷攀升,工業(yè)設(shè)備遠(yuǎn)程監(jiān)控成為提升生產(chǎn)效率、降低運(yùn)維成本的重要手段,藍(lán)蜂網(wǎng)關(guān)憑借專業(yè)技術(shù)與豐富
    的頭像 發(fā)表于 08-05 15:37 ?602次閱讀

    研華科技攜手創(chuàng)新奇智推出多模態(tài)大模型AI體機(jī)

    這是一款基于研華高性能邊緣計(jì)算平臺(tái)MIC-733,深度集成創(chuàng)新奇智視覺小模型與多模態(tài)大模型的邊緣智能終端,通過創(chuàng)新的“視覺識(shí)別 + 深度語(yǔ)義理解”融合分析路徑,具備強(qiáng)大的本地視頻智能分
    的頭像 發(fā)表于 07-17 17:14 ?954次閱讀
    研華科技攜手創(chuàng)新奇智<b class='flag-5'>推出</b>多模態(tài)大<b class='flag-5'>模型</b>AI<b class='flag-5'>一</b>體機(jī)

    模型在半導(dǎo)體行業(yè)的應(yīng)用可行分析

    的應(yīng)用,比如使用機(jī)器學(xué)習(xí)分析數(shù)據(jù),提升良率。 這些大模型是否真的有幫助 能夠在解決工程師的知識(shí)斷層問題 本人純小白,不知道如何涉足這方面 應(yīng)該問什么大模型比較好,或者是看什么視頻能夠
    發(fā)表于 06-24 15:10

    4K、多模態(tài)、長(zhǎng)視頻:AI視頻生成的下個(gè)戰(zhàn)場(chǎng),誰(shuí)在領(lǐng)跑?

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節(jié)跳動(dòng)最新視頻
    的頭像 發(fā)表于 06-16 00:13 ?7297次閱讀

    科而美正式推出新一代RDM線條燈

    在照明技術(shù)快速迭代的今天,科而美正式推出新一代RDM線條燈,以顛覆性的技術(shù)突破重新定義行業(yè)標(biāo)準(zhǔn)!
    的頭像 發(fā)表于 06-11 15:41 ?1321次閱讀

    邊緣計(jì)算如何顛覆人工智能變革

    2025年以來,DeepSeek發(fā)布的大模型熱度居高不下,再次點(diǎn)燃了全球?qū)θ斯ぶ悄艿臒o限熱情。深度學(xué)習(xí)模型以指數(shù)級(jí)速度膨脹,性能不斷突破極限,成本效益也在向著更低的趨勢(shì)發(fā)展,這為各行各業(yè)帶來了顛覆性
    的頭像 發(fā)表于 05-30 09:29 ?1040次閱讀

    AlphaEvolve:一款基于Gemini的編程Agent,用于設(shè)計(jì)高級(jí)算法

    構(gòu)思創(chuàng)新理念。如今,Google 進(jìn)步擴(kuò)展這些能力,將其應(yīng)用于解決數(shù)學(xué)基礎(chǔ)領(lǐng)域和現(xiàn)代計(jì)算中高度復(fù)雜的難題。 AlphaEvolve 是一款由大語(yǔ)言模型驅(qū)動(dòng)的進(jìn)化式編程代理,致力于通用算法的發(fā)現(xiàn)與優(yōu)化。該平臺(tái)將 Gemini
    的頭像 發(fā)表于 05-19 11:19 ?1751次閱讀
    AlphaEvolve:<b class='flag-5'>一款</b>基于Gemini的編程Agent,用于設(shè)計(jì)高級(jí)算法

    賽思×火山引擎 | 高精度同步時(shí)鐘助力字節(jié)跳動(dòng)華東地區(qū)首個(gè)算力中心落地

    賽思同步時(shí)鐘全方位賦能火山引擎長(zhǎng)三角算力中心,助力字節(jié)跳動(dòng)火山引擎打造“云上新宇宙”。
    的頭像 發(fā)表于 03-31 14:44 ?1129次閱讀
    賽思×火山引擎 | 高精度同步時(shí)鐘助力<b class='flag-5'>字節(jié)</b><b class='flag-5'>跳動(dòng)</b>華東地區(qū)首個(gè)算力中心落地

    請(qǐng)問瑞芯微的soc芯片,有沒有尺寸小于10mm*10mm的? 找一款小尺寸的soc用于視頻處理

    請(qǐng)問瑞芯微的soc芯片,有沒有尺寸小于10mm*10mm的? 找一款小尺寸的soc用于視頻處理
    發(fā)表于 03-28 11:47

    賽思×字節(jié)跳動(dòng) 高精度同步時(shí)鐘助力火山引擎打造“云上新宇宙”

    摘要: 賽思同步時(shí)鐘將對(duì)火山引擎長(zhǎng)三角算力中心進(jìn)行從基礎(chǔ)設(shè)施到業(yè)務(wù)引擎的全方位賦能,助力字節(jié)跳動(dòng)旗下火山引擎打造“云上新宇宙”。 火山引擎長(zhǎng)三角算力中心 — 蕪湖“東數(shù)西算”數(shù)據(jù)集群重點(diǎn)項(xiàng)目 火山云
    的頭像 發(fā)表于 03-28 09:11 ?891次閱讀
    賽思×<b class='flag-5'>字節(jié)</b><b class='flag-5'>跳動(dòng)</b>  高精度同步時(shí)鐘助力火山引擎打造“云上新宇宙”

    新品發(fā)布|啟英泰倫聯(lián)合啟明云端推出離在線語(yǔ)音大模型方案

    當(dāng)前,生成式大模型正以顛覆性姿態(tài)重塑人機(jī)交互的邊界,并逐漸向終端場(chǎng)景滲透。然而,云端大模型在落地終端場(chǎng)景時(shí)面臨兩大挑戰(zhàn):1.在真實(shí)噪聲場(chǎng)景下容易聽不清、誤識(shí)別,影響交互準(zhǔn)確;2.云端
    的頭像 發(fā)表于 03-11 14:07 ?1296次閱讀
    新品發(fā)布|啟英泰倫聯(lián)合啟明云端<b class='flag-5'>推出</b>離在線語(yǔ)音大<b class='flag-5'>模型</b>方案