91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

阿里云視頻生成技術(shù)創(chuàng)新!視頻生成使用了哪些AI技術(shù)和算法

Carol Li ? 來源:電子發(fā)燒友 ? 作者:李彎彎 ? 2024-05-08 00:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/李彎彎)日前,阿里云宣布通義實驗室研發(fā)的視頻生成模型EMO正式上線通義App,免費對所有人開放。借助這一功能,用戶可以在歌曲、熱梗、表情包中任選一款模板,然后通過上傳一張肖像照片就能讓 EMO 合成演戲唱歌視頻。

阿里云在視頻生成領(lǐng)域的創(chuàng)新

EMO(Emote Portrait Alive)是一個由阿里巴巴集團智能計算研究院開發(fā)的框架,一個音頻驅(qū)動的 AI 肖像視頻生成系統(tǒng),能夠通過輸入單一的參考圖像和語音音頻,生成具有表現(xiàn)力的面部表情和各種頭部姿勢的視頻。

據(jù)介紹,通義 App 首批上線了80多個 EMO 模板,包括熱門歌曲《上春山》《野狼 Disco》等,還有網(wǎng)絡熱?!袄徖忞u”“回手掏”等。EMO自2月底公布模型論文以來,在海內(nèi)外引發(fā)廣泛關(guān)注,并與OpenAI的Sora模型相提并論。

具體來看,EMO的功能包括,音頻驅(qū)動的視頻生成,通過輸入一段音頻(如語音、歌曲等)和一張參考圖片(通常是人物的肖像),就能生成一個動態(tài)的、與音頻內(nèi)容同步的視頻。

阿里EMO使用先進的音視頻擴散模型和注意力機制,能夠生成具有高度真實感和豐富表現(xiàn)力的肖像視頻。肖像的表情和動作會非常自然和流暢,與音頻內(nèi)容緊密同步。

阿里EMO的應用場景非常廣泛。它不僅可以用于娛樂和創(chuàng)作領(lǐng)域,如讓歷史人物“復活”、為電影角色配音等,還可以用于教育、廣告、游戲等多個領(lǐng)域,為用戶提供更多樣化、個性化的視頻內(nèi)容。

另外,阿里EMO采用高效的算法和計算框架,能夠在較短的時間內(nèi)生成高質(zhì)量的肖像視頻。這為用戶節(jié)省了大量的時間成本,提高了工作效率。

阿里EMO的框架還具有良好的可擴展性和靈活性,可以根據(jù)用戶的具體需求進行定制和優(yōu)化。例如,可以通過調(diào)整參數(shù)或添加新的模型組件來優(yōu)化生成視頻的質(zhì)量和性能。

阿里在視頻生成領(lǐng)域做過非常多創(chuàng)新,此前還推出過VideoComposer,這是一個結(jié)合了空間條件和時序條件的視頻生成框架。它利用單張圖像或草圖作為空間條件,同時結(jié)合運動矢量和深度序列等時序條件,來生成具有高度視覺逼真度的視頻。

阿里云還發(fā)布了AtomoVideo模型,這是一種能夠從單一靜態(tài)圖像生成高保真視頻序列的技術(shù)。它結(jié)合了個性化文本到圖像(T2I)模型,能夠根據(jù)文字描述和靜態(tài)圖片生成符合描述的視頻內(nèi)容。

此外,阿里云視覺智能開放平臺提供了豐富的視頻生產(chǎn)能力,包括視頻摘要、視頻編輯、視頻人臉融合等功能。這些功能可以應用于電商、影視、廣告等多個領(lǐng)域,幫助用戶快速生成高質(zhì)量的視頻內(nèi)容。

視頻生成使用到的AI技術(shù)和算法

視頻生成是一個涉及多個步驟和技術(shù)的過程,目前國內(nèi)外有多款視頻生成工具,如Pixverse、Pika、Runway Gen-2、Kaiber、Plaiday、Genmo等。其中,Pika因其高質(zhì)量和穩(wěn)定的畫面生成能力而受到用戶好評,Runway Gen-2則可以將midjourney生成的圖像轉(zhuǎn)換為高質(zhì)量動畫。另外,Sora作為一款新興的視頻生成工具,其獨特之處在于能夠生成高質(zhì)量的長視頻內(nèi)容,并理解長文本指令以生成詳盡細節(jié)的視頻內(nèi)容。

從算法的角度來看,視頻生成涉及到一些基本的算法和技術(shù)。例如,循環(huán)神經(jīng)網(wǎng)絡(RNN)中的GRU和LSTM可以有效避免梯度下降和衰減的問題,而encoder-decoder架構(gòu)則使得機器翻譯等任務的效果大幅提升。在視頻生成領(lǐng)域,這些算法和技術(shù)可能用于生成視頻的內(nèi)容、結(jié)構(gòu)、風格等方面。

視頻生成采用了相當多的技術(shù),包括深度學習模型,這是視頻生成中最為關(guān)鍵的技術(shù)之一。深度學習模型,特別是生成對抗網(wǎng)絡(GANs)和變分自編碼器(VAEs),被廣泛應用于視頻生成中。這些模型能夠?qū)W習并模仿視頻數(shù)據(jù)的分布,從而生成新的、與原始數(shù)據(jù)相似的視頻。

計算機圖形學,它在視頻生成中扮演著重要角色,特別是在創(chuàng)建虛擬場景、角色和特效時。通過計算機圖形學技術(shù),可以生成逼真的虛擬場景和角色,并將其與真實視頻相結(jié)合,創(chuàng)造出獨特的視覺效果。

物理模擬,為了生成更逼真的視頻,物理模擬技術(shù)被用來模擬物體的運動和交互。這包括模擬物體的運動軌跡、碰撞效果、光影變化等,以使得生成的視頻更加真實可信。

自然語言處理,隨著技術(shù)的發(fā)展,自然語言處理(NLP)也被應用于視頻生成中。通過解析文本描述,NLP技術(shù)可以指導視頻生成模型生成與文本內(nèi)容相匹配的視頻。這為視頻生成提供了更多的創(chuàng)意和可能性。

還有音頻合成技術(shù),除了視覺元素外,音頻也是視頻的重要組成部分。音頻合成技術(shù)可以生成與視頻內(nèi)容相匹配的音效和背景音樂,從而提升視頻的觀看體驗。此外,還有一些其他的技術(shù)也被用于視頻生成中,如增強學習、遷移學習等。這些技術(shù)使得視頻生成更加靈活、高效和多樣化。

寫在最后

經(jīng)過近些年的發(fā)展,視頻生成技術(shù)也逐漸成熟,并且在新聞報道、廣告制作、教育培訓、電影與游戲制作、醫(yī)療健康等領(lǐng)域有不少實際的應用案例。未來,娛樂與媒體、廣告與營銷、教育培訓、虛擬現(xiàn)實/增強現(xiàn)實、醫(yī)療健康等都將會成為視頻生成技術(shù)的主流應用。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4785

    瀏覽量

    98138
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40001

    瀏覽量

    301635
  • 阿里云
    +關(guān)注

    關(guān)注

    3

    文章

    1038

    瀏覽量

    45742
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    NVIDIA和ComfyUI攜手簡化本地AI視頻生成工作流

    借助 ComfyUI 的應用視圖、NVIDIA RTX Video 超分辨率和全新的 NVFP4 模型,AI 驅(qū)動的視頻生成更加易用。
    的頭像 發(fā)表于 03-14 16:37 ?421次閱讀
    NVIDIA和ComfyUI攜手簡化本地<b class='flag-5'>AI</b><b class='flag-5'>視頻生成</b>工作流

    SeaVerse發(fā)布全球首個AI Native平臺,“All in AI Native”引領(lǐng)AI創(chuàng)作前瞻革命

    2026年1月10日,SeaVerse宣布全球發(fā)布SeaVerse AI平臺。這是全球首個AI原生的創(chuàng)建和部署平臺,集合大語言模型、圖像生成、視頻生成、Agent等多方面的能力,通過全
    的頭像 發(fā)表于 01-14 17:41 ?1278次閱讀

    商湯科技日日新Seko系列模型與寒武紀成功適配

    12月15日,商湯科技基于在生成AI與多模態(tài)交互領(lǐng)域的技術(shù)積累,正式發(fā)布Seko2.0——行業(yè)首個多劇集生成智能體。該智能體在多劇集視頻生成
    的頭像 發(fā)表于 12-17 14:06 ?479次閱讀

    OpenAI Sora 2模型上線微軟Azure AI Foundry國際版

    我們非常激動地宣布,OpenAI 的新一代多模態(tài)視頻生成模型 Sora 2 現(xiàn)已在 Azure AI Foundry(國際版)上線,進入公共預覽階段。
    的頭像 發(fā)表于 10-22 09:44 ?800次閱讀
    OpenAI Sora 2模型上線微軟Azure <b class='flag-5'>AI</b> Foundry國際版

    全球首個動漫專屬AI視頻生成平臺Animon,國內(nèi)版&quot;萌動AI&quot;正式發(fā)布

    Animon國內(nèi)版——"萌動AI"首秀:AI動漫創(chuàng)作進入全民時代 北京2025年9月25日?/美通社/ -- CreateAI(OTC:TSPH)今日宣布,其打造的全球首個專注于動漫的AI視頻
    的頭像 發(fā)表于 09-25 12:33 ?1005次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰(zhàn)

    AI的應用多種多樣。比如:DALL-E2、Midjourney、Stable Diffusion等,不僅包括對話功能,還包括生成圖像、視頻、語音和程序代碼等功能。 竟然連代碼都可以生成
    發(fā)表于 09-12 16:07

    生成AI 重塑自動駕駛仿真:4D 場景生成技術(shù)的突破與實踐

    生成AI驅(qū)動的4D場景技術(shù)正解決傳統(tǒng)方法效率低、覆蓋不足等痛點,如何通過NeRF、3D高斯?jié)姙R等技術(shù)實現(xiàn)高保真動態(tài)建模?高效生成極端天氣等
    的頭像 發(fā)表于 08-06 11:20 ?5192次閱讀
    <b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b> 重塑自動駕駛仿真:4D 場景<b class='flag-5'>生成</b><b class='flag-5'>技術(shù)</b>的突破與實踐

    百度重磅發(fā)布!全球首創(chuàng)中文音視頻模型

    同步等核心技術(shù)突破,為廣告商、影視創(chuàng)作者及中小企業(yè)提供高效、低成本的視頻創(chuàng)作解決方案,重新定義了AI視頻生成技術(shù)標準與應用邊界。 ? 從指
    的頭像 發(fā)表于 07-11 09:18 ?4413次閱讀

    一種基于擴散模型的視頻生成框架RoboTransfer

    在機器人操作領(lǐng)域,模仿學習是推動具身智能發(fā)展的關(guān)鍵路徑,但高度依賴大規(guī)模、高質(zhì)量的真實演示數(shù)據(jù),面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數(shù)據(jù)生成方案,但顯著的“模擬到現(xiàn)實”(Sim2Real)鴻溝,制約了仿真數(shù)據(jù)訓練策略的泛化能力與落地應用。
    的頭像 發(fā)表于 07-09 14:02 ?843次閱讀
    一種基于擴散模型的<b class='flag-5'>視頻生成</b>框架RoboTransfer

    4K、多模態(tài)、長視頻AI視頻生成的下一個戰(zhàn)場,誰在領(lǐng)跑?

    電子發(fā)燒友網(wǎng)報道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節(jié)跳動最新視頻模型,支持文字與圖片輸入,可生成多鏡頭無縫切換的1080P高品質(zhì)
    的頭像 發(fā)表于 06-16 00:13 ?7321次閱讀

    AKOOL發(fā)布全球首款實時攝像頭

    近日,硅谷新銳公司AKOOL發(fā)布全球首款實時攝像頭Akool Live Camera,集虛擬數(shù)字人、AI視頻翻譯、實時換臉、實時AI視頻生成四大功能于一身,重新定義了
    的頭像 發(fā)表于 06-09 16:30 ?2247次閱讀

    Dify攜手亞馬遜科技加速全球企業(yè)生成AI應用規(guī)?;涞?/a>

    簡單易用的AI應用開發(fā)平臺Dify通過深度集成亞馬遜科技的生成AI技術(shù)服務,在保障性能、
    的頭像 發(fā)表于 06-07 16:00 ?900次閱讀

    從Gartner報告看Atlassian在生成AI領(lǐng)域的創(chuàng)新路徑與實踐價值

    Atlassian入選Gartner 2025生成AI技術(shù)"新興領(lǐng)導者"!其核心AI產(chǎn)品Rovo依托Teamwork Graph,支持從團隊知識庫中提取情境化的個性答案與洞察
    的頭像 發(fā)表于 06-05 15:59 ?1154次閱讀
    從Gartner報告看Atlassian在<b class='flag-5'>生成</b>式<b class='flag-5'>AI</b>領(lǐng)域的<b class='flag-5'>創(chuàng)新</b>路徑與實踐價值

    SAP與亞馬遜科技推出AI聯(lián)合創(chuàng)新計劃,打造生成AI解決方案,助力客戶應對市場波動與供應鏈復雜性

    北京 2025年5月26日 /美通社/ -- 在SAP藍寶石大會上,亞馬遜科技與SAP宣布啟動全新的AI聯(lián)合創(chuàng)新計劃,幫助合作伙伴構(gòu)建生成AI
    的頭像 發(fā)表于 05-26 16:54 ?579次閱讀

    SAP與亞馬遜科技推出AI聯(lián)合創(chuàng)新計劃,打造生成AI解決方案, 助力客戶應對市場波動與供應鏈復雜性

    北京 ——2025 年 5 月 26 日 在SAP藍寶石大會上,亞馬遜科技與SAP宣布啟動全新的AI聯(lián)合創(chuàng)新計劃,幫助合作伙伴構(gòu)建生成AI
    發(fā)表于 05-26 11:44 ?1173次閱讀