91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ICCV 2023 | 重塑人體動(dòng)作生成,融合擴(kuò)散模型與檢索策略的新范式ReMoDiffuse來(lái)了

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:未知 ? 2023-09-10 22:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人體動(dòng)作生成任務(wù)旨在生成逼真的人體動(dòng)作序列,以滿(mǎn)足娛樂(lè)、虛擬現(xiàn)實(shí)、機(jī)器人技術(shù)等領(lǐng)域的需求。傳統(tǒng)的生成方法包括 3D 角色創(chuàng)建、關(guān)鍵幀動(dòng)畫(huà)和動(dòng)作捕捉等步驟,其存在諸多限制,如耗時(shí)較長(zhǎng),需要專(zhuān)業(yè)技術(shù)知識(shí),涉及昂貴的系統(tǒng)和軟件,不同軟硬件系統(tǒng)之間可能存在兼容性問(wèn)題等。隨著深度學(xué)習(xí)的發(fā)展,人們開(kāi)始嘗試使用生成模型來(lái)實(shí)現(xiàn)人體動(dòng)作序列的自動(dòng)生成,例如通過(guò)輸入文本描述,要求模型生成與文本要求相匹配的動(dòng)作序列。隨著擴(kuò)散模型被引入這個(gè)領(lǐng)域,生成動(dòng)作與給定文本的一致性不斷提高。

然而,生成動(dòng)作的自然程度離使用需求仍有很大差距。為了進(jìn)一步提升人體動(dòng)作生成算法的能力,本文在 MotionDiffuse [1] 的基礎(chǔ)上提出了 ReMoDiffuse 算法(圖 1),通過(guò)利用檢索策略,找到高相關(guān)性的參考樣本,提供細(xì)粒度的參考特征,從而生成更高質(zhì)量的動(dòng)作序列。

wKgaomT91ByAJfNFAAFXJu_whUs405.png

  • 論文鏈接:https://arxiv.org/pdf/2304.01116.pdf

  • GitHub:https://github.com/mingyuan-zhang/ReMoDiffuse

  • 項(xiàng)目主頁(yè):https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

通過(guò)巧妙地將擴(kuò)散模型和創(chuàng)新的檢索策略融合,ReMoDiffuse 為文本指導(dǎo)的人體動(dòng)作生成注入了新的生命力。經(jīng)過(guò)精心構(gòu)思的模型結(jié)構(gòu),ReMoDiffuse 不僅能夠創(chuàng)造出豐富多樣、真實(shí)度高的動(dòng)作序列,還能有效地滿(mǎn)足各種長(zhǎng)度和多粒度的動(dòng)作需求。實(shí)驗(yàn)證明,ReMoDiffuse 在動(dòng)作生成領(lǐng)域的多個(gè)關(guān)鍵指標(biāo)上表現(xiàn)出色,顯著地超越了現(xiàn)有算法。

wKgaomT91ByAZF-fAAIVPX6J5mM831.png

圖 1. ReMoDiffuse 概覽

方法介紹

ReMoDiffuse 主要由兩個(gè)階段組成:檢索和擴(kuò)散。在檢索階段,ReMoDiffuse 使用混合檢索技術(shù),基于用戶(hù)輸入文本以及預(yù)期動(dòng)作序列長(zhǎng)度,從外部的多模態(tài)數(shù)據(jù)庫(kù)中檢索出信息豐富的樣本,為動(dòng)作生成提供強(qiáng)有力的指導(dǎo)。在擴(kuò)散階段,ReMoDiffuse 利用檢索階段檢索到的信息,通過(guò)高效的模型結(jié)構(gòu),生成與用戶(hù)輸入語(yǔ)義一致的運(yùn)動(dòng)序列。

為了確保高效的檢索,ReMoDiffuse 為檢索階段精心設(shè)計(jì)了以下數(shù)據(jù)流(圖 2):

共有三種數(shù)據(jù)參與檢索過(guò)程,分別是用戶(hù)輸入文本、預(yù)期動(dòng)作序列長(zhǎng)度,以及一個(gè)外部的、包含多個(gè) < 文本,動(dòng)作 > 對(duì)的多模態(tài)數(shù)據(jù)庫(kù)。在檢索最相關(guān)的樣本時(shí),ReMoDiffuse 利用公式wKgaomT91ByAJvU7AABIc-hXsEw192.jpg計(jì)算出每個(gè)數(shù)據(jù)庫(kù)中的樣本與用戶(hù)輸入的相似度。這里的第一項(xiàng)是利用預(yù)訓(xùn)練的 CLIP [2] 模型的文本編碼器對(duì)用戶(hù)輸入文本和數(shù)據(jù)庫(kù)實(shí)體的文本計(jì)算余弦相似度,第二項(xiàng)計(jì)算預(yù)期動(dòng)作序列長(zhǎng)度和數(shù)據(jù)庫(kù)實(shí)體的動(dòng)作序列長(zhǎng)度之間的相對(duì)差異作為運(yùn)動(dòng)學(xué)相似度。計(jì)算相似度分?jǐn)?shù)后,ReMoDiffuse 選擇相似度排名前 k 的樣本作為檢索到的樣本,并提取出文本特征wKgaomT91ByAERawAAAc-TaYXRo557.jpg,和動(dòng)作特征wKgaomT91B2APqtpAAAgTdunvyo004.jpg。這兩者和從用戶(hù)輸入的文本中提取的特征wKgaomT91B2AKwE8AAAszx0bnmc131.jpg一同作為輸入給擴(kuò)散階段的信號(hào),指導(dǎo)動(dòng)作生成。

wKgaomT91B2AT9ZKAAIx47aDiPw641.png

圖 2:ReMoDiffuse 的檢索階段

擴(kuò)散過(guò)程(圖3.c)由正向過(guò)程和逆向過(guò)程兩個(gè)部分組成。在正向過(guò)程中,ReMoDiffuse 逐步將高斯噪聲添加到原始動(dòng)作數(shù)據(jù)中,并最終將其轉(zhuǎn)化為隨機(jī)噪聲。逆向過(guò)程專(zhuān)注于除去噪聲并生成逼真的動(dòng)作樣本。從一個(gè)隨機(jī)高斯噪聲開(kāi)始,ReMoDiffuse 在逆向過(guò)程中的每一步都使用語(yǔ)義調(diào)制模塊(SMT)(圖3.a)來(lái)估測(cè)真實(shí)分布,并根據(jù)條件信號(hào)來(lái)逐步去除噪聲。這里 SMT 中的 SMA 模塊將會(huì)將所有的條件信息融入到生成的序列特征中,是本文提出的核心模塊。

wKgaomT91B2ASSzuAAJAGhFuaLk707.png

圖 3:ReMoDiffuse 的擴(kuò)散階段

對(duì)于 SMA 層(圖 3.b),我們使用了高效的注意力機(jī)制(Efficient Attention)[3] 來(lái)加速注意力模塊的計(jì)算,并創(chuàng)造了一個(gè)更強(qiáng)調(diào)全局信息的全局特征圖。該特征圖為動(dòng)作序列提供了更綜合的語(yǔ)義線(xiàn)索,從而提升了模型的性能。SMA 層的核心目標(biāo)是通過(guò)聚合條件信息來(lái)優(yōu)化動(dòng)作序列wKgaomT91B2ABzoxAAAdxhjtZao260.jpg的生成。在這個(gè)框架下:

1.Q 向量具體地代表了我們期望基于條件信息生成的預(yù)期動(dòng)作序列wKgaomT91B2ABzoxAAAdxhjtZao260.jpg。

2.K 向量作為一種索引機(jī)制綜合考慮了多個(gè)要素,包括當(dāng)前動(dòng)作序列特征wKgaomT91B2ABzoxAAAdxhjtZao260.jpg、用戶(hù)輸入的語(yǔ)義特征wKgaomT91B2AKwE8AAAszx0bnmc131.jpg,以及從檢索樣本中獲取的特征wKgaomT91B2APqtpAAAgTdunvyo004.jpgwKgaomT91ByAERawAAAc-TaYXRo557.jpg其中,wKgaomT91B2APqtpAAAgTdunvyo004.jpg表示從檢索樣本中獲取的動(dòng)作序列特征,wKgaomT91ByAERawAAAc-TaYXRo557.jpg表示從檢索樣本中獲取的文描述特征。這種綜合性的構(gòu)建方式保證了 K 向量在索引過(guò)程中的有效性。

3.V 向量提供了動(dòng)作生成所需的實(shí)際特征。類(lèi)似 K 向量,這里 V 向量也綜合考慮了檢索樣本、用戶(hù)輸入以及當(dāng)前動(dòng)作序列??紤]到檢索樣本的文本描述特征與生成的動(dòng)作之間沒(méi)有直接關(guān)聯(lián),因此在計(jì)算 V 向量時(shí)我們選擇不使用這一特征,以避免不必要的信息干擾。

結(jié)合 Efficient Attention 的全局注意力模板機(jī)制,SMA 層利用來(lái)自檢索樣本的輔助信息、用戶(hù)文本的語(yǔ)義信息以及待去噪序列的特征信息,建立起一系列綜合性的全局模板,使得所有條件信息能夠被待生成序列充分吸收。

實(shí)驗(yàn)及結(jié)果

我們?cè)趦蓚€(gè)數(shù)據(jù)集 HumanML3D [4] 和 KIT-ML [5] 上評(píng)估了 ReMoDiffuse。在與文本的一致性與動(dòng)作質(zhì)量?jī)蓚€(gè)角度上,實(shí)驗(yàn)結(jié)果(表 1、2)展示了我們提出的 ReMoDiffuse 框架的強(qiáng)大性能和優(yōu)勢(shì)。

wKgaomT91B2AJZskAAOGmlEXtww746.png

表 1. 不同方法在 HumanML3D 測(cè)試集上的表現(xiàn)

wKgaomT91B2ASgAKAAHjqaBlL_o118.png

表 2. 不同方法在 KIT-ML 測(cè)試集上的表現(xiàn)

以下是一些能定性展示 ReMoDiffuse 的強(qiáng)大性能的示例(圖 4)。與之前的方法相比,例如,在給定文本 “一個(gè)人在圓圈里跳躍” 時(shí),只有 ReMoDiffuse 能夠準(zhǔn)確捕捉到 “跳躍” 動(dòng)作和 “圓圈” 路徑。這表明 ReMoDiffuse 能夠有效地捕捉文本細(xì)節(jié),并將內(nèi)容與給定的運(yùn)動(dòng)持續(xù)時(shí)間對(duì)齊。

wKgaomT91B6AWLC-AAQ2rL4uyGM058.png

圖 4. ReMoDiffuse 生成的動(dòng)作序列與其他方法生成的動(dòng)作序列的比較

我們對(duì) Guo 等人的方法 [4]、MotionDiffuse [1]、MDM [6] 以及 ReMoDiffuse 所生成的相應(yīng)動(dòng)作序列進(jìn)行了可視化展示,并以問(wèn)卷形式收集測(cè)試參與者的意見(jiàn)。結(jié)果的分布情況如圖 5 所示。從結(jié)果中可以清晰地看出,在大多數(shù)情況下,參與測(cè)試者認(rèn)為我們的方法 —— 即 ReMoDiffuse 所生成的動(dòng)作序列在四個(gè)算法中最貼合所給的文本描述,也最自然流暢。

wKgaomT91B6ANVwDAAEHvu5tSPY908.png

圖 5:用戶(hù)調(diào)研的結(jié)果分布

引用

[1] Mingyuan Zhang, Zhongang Cai, Liang Pan, Fangzhou Hong, Xinying Guo, Lei Yang, and Ziwei Liu. Motiondiffuse: Text-driven human motion generation with diffusion model. arXiv preprint arXiv:2208.15001, 2022.

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, and Hongsheng Li. Efficient attention: Attention with linear complexities. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 3531–3539, 2021.

[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li, and Li Cheng. Generating diverse and natural 3d human motions from text. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5152–5161, 2022.

[5] Matthias Plappert, Christian Mandery, and Tamim Asfour. The kit motion-language dataset. Big data, 4 (4):236–252, 2016.

[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. In The Eleventh International Conference on Learning Representations, 2022.


原文標(biāo)題:ICCV 2023 | 重塑人體動(dòng)作生成,融合擴(kuò)散模型與檢索策略的新范式ReMoDiffuse來(lái)了

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:ICCV 2023 | 重塑人體動(dòng)作生成,融合擴(kuò)散模型與檢索策略的新范式ReMoDiffuse來(lái)了

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    RAG(檢索增強(qiáng)生成)原理與實(shí)踐

    模型更新 :跟蹤最新的Embedding和LLM模型 七、未來(lái)趨勢(shì)與展望 7.1 多模態(tài)RAG 支持圖像、音頻等多種模態(tài)的檢索生成。 7.2 自適應(yīng)RAG 根據(jù)問(wèn)題類(lèi)型自動(dòng)選擇最
    發(fā)表于 02-11 12:46

    openDACS 2025 開(kāi)源EDA與芯片賽項(xiàng) 賽題七:基于大模型生成式原理圖設(shè)計(jì)

    領(lǐng)域,對(duì)促進(jìn)產(chǎn)業(yè)高質(zhì)量發(fā)展具有重要意義。本賽項(xiàng)包含7道賽題,下面是賽題七 基于大模型生成式原理圖設(shè)計(jì)的介紹。 2. 命題單位及賽題Chair 2.1 命題單位 openDACS工作委員會(huì)、復(fù)旦大學(xué)
    發(fā)表于 11-13 11:49

    ANSA人體模型姿態(tài)調(diào)整工具的使用案例

    中國(guó)體征人體數(shù)字模型(AC-HUMs)是中國(guó)汽研主持研發(fā)的人體有限元模型。BETA CAE Systems與中國(guó)汽研保持緊密合作,前、后處理軟件(ANSA/META)會(huì)全面支持AC-H
    的頭像 發(fā)表于 09-28 15:44 ?1225次閱讀
    ANSA<b class='flag-5'>人體模型</b>姿態(tài)調(diào)整工具的使用案例

    ANSA人體模型姿態(tài)調(diào)整工具介紹

    ANSA的人體模型姿態(tài)調(diào)整工具(HBM Articulation Tool)通過(guò)網(wǎng)格變形技術(shù)實(shí)現(xiàn)基于人體不同部位進(jìn)行調(diào)節(jié),定位人體模型最終的姿態(tài)。
    的頭像 發(fā)表于 09-28 15:40 ?1296次閱讀
    ANSA<b class='flag-5'>人體模型</b>姿態(tài)調(diào)整工具介紹

    普強(qiáng)用大模型重塑TTS語(yǔ)音合成新高度

    普強(qiáng)依托自研深思大模型與神經(jīng)網(wǎng)絡(luò)算法,融合海量高質(zhì)量音頻數(shù)據(jù),通過(guò)最新的擴(kuò)散模型技術(shù)打造超自然音色,目前技術(shù)已用于部分車(chē)企出海車(chē)輛。
    的頭像 發(fā)表于 08-26 15:09 ?1972次閱讀

    中科曙光超智融合技術(shù)重塑生物醫(yī)藥研發(fā)新范式

    當(dāng)前,海量生物數(shù)據(jù)的處理與分析能力已成為制約行業(yè)發(fā)展的關(guān)鍵瓶頸。近日,依托曙光超智融合技術(shù)建設(shè)的華東某全國(guó)產(chǎn)計(jì)算中心,與單細(xì)胞測(cè)序領(lǐng)域代表性企業(yè)墨卓生物達(dá)成戰(zhàn)略合作。以強(qiáng)大算力為單細(xì)胞測(cè)序、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)及海量臨床樣本分析提供支撐,加速精準(zhǔn)診斷進(jìn)程,重塑生物醫(yī)藥研發(fā)與應(yīng)用
    的頭像 發(fā)表于 08-11 11:12 ?1138次閱讀

    一種基于擴(kuò)散模型的視頻生成框架RoboTransfer

    在機(jī)器人操作領(lǐng)域,模仿學(xué)習(xí)是推動(dòng)具身智能發(fā)展的關(guān)鍵路徑,但高度依賴(lài)大規(guī)模、高質(zhì)量的真實(shí)演示數(shù)據(jù),面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數(shù)據(jù)生成方案,但顯著的“模擬到現(xiàn)實(shí)”(Sim2Real)鴻溝,制約了仿真數(shù)據(jù)訓(xùn)練策略的泛化能力與落地應(yīng)用。
    的頭像 發(fā)表于 07-09 14:02 ?839次閱讀
    一種基于<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的視頻<b class='flag-5'>生成</b>框架RoboTransfer

    格靈深瞳六篇論文入選ICCV 2025

    近日,國(guó)際頂級(jí)會(huì)議ICCV 2025(計(jì)算機(jī)視覺(jué)國(guó)際大會(huì))公布論文錄用結(jié)果,格靈深瞳團(tuán)隊(duì)共有6篇論文入選。
    的頭像 發(fā)表于 07-07 18:23 ?1570次閱讀

    理想汽車(chē)八篇論文入選ICCV 2025

    近日,ICCV 2025(國(guó)際計(jì)算機(jī)視覺(jué)大會(huì))公布論文錄用結(jié)果,理想汽車(chē)共有8篇論文入選,其中5篇來(lái)自自動(dòng)駕駛團(tuán)隊(duì),3篇來(lái)自基座模型團(tuán)隊(duì)。ICCV作為計(jì)算機(jī)視覺(jué)領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議,每?jī)赡昱e辦一次
    的頭像 發(fā)表于 07-03 13:58 ?1127次閱讀

    如何將一個(gè)FA模型開(kāi)發(fā)的聲明式范式應(yīng)用切換到Stage模型

    模型切換概述 本文介紹如何將一個(gè)FA模型開(kāi)發(fā)的聲明式范式應(yīng)用切換到Stage模型,您需要完成如下動(dòng)作: 工程切換:新建一個(gè)Stage
    發(fā)表于 06-04 06:22

    生成式AI如何重塑設(shè)計(jì)思維與品牌創(chuàng)新?從工具到認(rèn)知革命的躍遷

    ?作為深度參與AI與設(shè)計(jì)融合實(shí)踐的觀察者,我逐漸意識(shí)到這場(chǎng)變革的本質(zhì)不是簡(jiǎn)單的"人機(jī)協(xié)作",而是一場(chǎng)認(rèn)知范式的遷移——就像文藝復(fù)興時(shí)期透視法的發(fā)明永久改變了人類(lèi)觀察世界的方式,GAI正在重新定義"創(chuàng)造力"的疆域。 一、設(shè)計(jì)民主化背后的認(rèn)知升級(jí) 傳統(tǒng)設(shè)計(jì)流程
    的頭像 發(fā)表于 05-30 15:55 ?650次閱讀

    DevEco Studio AI輔助開(kāi)發(fā)工具兩大升級(jí)功能 鴻蒙應(yīng)用開(kāi)發(fā)效率再提升

    對(duì)DeepSeek模型增強(qiáng)融合了RAG能力,從生成機(jī)制上協(xié)同降低模型幻象,并同時(shí)提升生成模型的準(zhǔn)
    發(fā)表于 04-18 14:43

    大華星漢大模型2.0重塑產(chǎn)業(yè)格局

    模型的蓬勃發(fā)展,正以前所未有的速度和方式融入社會(huì)各領(lǐng)域。大華星漢大模型2.0創(chuàng)新構(gòu)建行業(yè)智能體,重塑產(chǎn)業(yè)格局。
    的頭像 發(fā)表于 04-15 10:38 ?1255次閱讀

    ?Diffusion生成動(dòng)作引擎技術(shù)解析

    Diffusion生成動(dòng)作引擎 Diffusion生成動(dòng)作引擎是一種基于擴(kuò)散模型(Diffu
    的頭像 發(fā)表于 03-17 15:14 ?3075次閱讀

    浪潮軟件率先推出政務(wù)服務(wù)大模型,重塑全場(chǎng)景應(yīng)用

    30年深耕和積累,率先推出政務(wù)服務(wù)大模型及政務(wù)智能體系列產(chǎn)品,讓AI智慧觸手可及,重塑政務(wù)服務(wù)新境界! 深耕政務(wù),智造一個(gè)"行業(yè)基石" 面向政務(wù)服務(wù)垂直領(lǐng)域,浪潮軟件成功打造出獨(dú)具優(yōu)勢(shì)的浪潮政務(wù)服務(wù)大模型。該
    的頭像 發(fā)表于 03-14 18:18 ?866次閱讀
    浪潮軟件率先推出政務(wù)服務(wù)大<b class='flag-5'>模型</b>,<b class='flag-5'>重塑</b>全場(chǎng)景應(yīng)用