91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI文生視頻模型Sora要點分析

架構(gòu)師技術(shù)聯(lián)盟 ? 來源:芯智訊 ? 2024-02-22 16:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

? 近日,美國人工智能公司OpenAI發(fā)布了首個視頻生成模型Sora。不同于此前許多AI大模型文生圖或視頻時,會出現(xiàn)人物形象前后不一致等問題,此次OpenAI展示的Sora生成的視頻中的主角、背景人物,都展現(xiàn)了極強的一致性,可以支持60秒一鏡到底,并包含高細致背景、多角度鏡頭,以及富有情感的多個角色,可謂是相當(dāng)?shù)摹罢选薄I踔劣胁簧偃思埠簦瑐鹘y(tǒng)視頻制作行業(yè)將會被“革命”!

相關(guān)內(nèi)容參考“OpenAI視頻模型Sora替代品分析(2024)”、“一場AI“革命”開始,OpenAI文生視頻模型Sora”。

據(jù)OpenAI官網(wǎng)介紹,Sora“通過一次性為模型提供多幀的預(yù)測,我們解決了一個具有挑戰(zhàn)性的問題”。據(jù)了解,此次大模型完美繼承DALL·E 3的畫質(zhì)和遵循指令能力,能生成長達1分鐘的高清視頻。并且在隨后公布的多段AI生成的視頻中,無論鏡頭如何切換,人物前后都保持了高度的穩(wěn)定性。

總結(jié)來說,Sora大模型的強大之處主要有以下六點:

1、文本到視頻生成能力:Sora能夠根據(jù)用戶提供的文本描述生成長達60S的視頻,這些視頻不僅保持了視覺品質(zhì),而且完整準(zhǔn)確還原了用戶的提示語。

2、復(fù)雜場景和角色生成能力:Sora能夠生成包含多個角色、特定運動類型以及主題精確、背景細節(jié)復(fù)雜的場景。它能夠創(chuàng)造出生動的角色表情和復(fù)雜的運鏡,使得生成的視頻具有高度的逼真性和敘事效果。

3、語言理解能力:Sora擁有深入的語言理解能力,能夠準(zhǔn)確解釋提示并生成能表達豐富情感的角色。這使得模型能夠更好地理解用戶的文本指令,并在生成的視頻內(nèi)容中忠實地反映這些指令。

4、多鏡頭生成能力:Sora可以在單個生成的視頻中創(chuàng)建多個鏡頭,同時保持角色和視覺風(fēng)格的一致性。這種能力對于制作電影預(yù)告片、動畫或其他需要多視角展示的內(nèi)容非常有用。

5、從靜態(tài)圖像生成視頻能力:Sora不僅能夠從文本生成視頻,還能夠從現(xiàn)有的靜態(tài)圖像開始,準(zhǔn)確地動畫化圖像內(nèi)容,或者擴展現(xiàn)有視頻,填補視頻中的缺失幀。

6、物理世界模擬能力:Sora展示了人工智能在理解真實世界場景并與之互動的能力,這是朝著實現(xiàn)通用人工智能(AGI)的重要一步。它能夠模擬真實物理世界的運動,如物體的移動和相互作用。 可以說,Sora的出現(xiàn),預(yù)示著一個全新的視覺敘事時代的到來,它能夠?qū)⑷藗兊南胂罅D(zhuǎn)化為生動的動態(tài)畫面,將文字的魔力轉(zhuǎn)化為視覺的盛宴。在這個由數(shù)據(jù)和算法編織的未來,Sora正以其獨特的方式,或?qū)⒅匦露x我們與數(shù)字世界的互動。

OpenAI在模型公布后的不久,就公布了相關(guān)的技術(shù)論文《Video generation models as world simulators》。以下為論文的主要內(nèi)容:

a492a0d4-d119-11ee-a297-92fbcf53809c.png

Sora的技術(shù)特點

三維空間的連貫性:Sora可以生成帶有動態(tài)相機運動的視頻。隨著相機移動和旋轉(zhuǎn),人物和場景元素在三維空間中保持連貫的運動。

模擬數(shù)字世界:Sora還能模擬人工過程,如視頻游戲。Sora能夠同時控制Minecraft中的玩家,并高保真地渲染游戲世界及其動態(tài)。通過提及“Minecraft”的提示,可以零樣本地激發(fā)Sora的這些能力

長期連續(xù)性和物體持久性:對視頻生成系統(tǒng)來說,Sora通常能夠有效地模擬短期和長期的依賴關(guān)系。同樣,它能在一個樣本中生成同一角色的多個鏡頭,確保其在整個視頻中的外觀一致。

與世界互動:Sora有時能夠模擬對世界狀態(tài)產(chǎn)生簡單影響的行為。例如,畫家可以在畫布上留下隨時間持續(xù)的新筆觸,或者一個人吃漢堡時留下咬痕。

訓(xùn)練過程

Sora 的訓(xùn)練受到了大語言模型(Large Language Model)的啟發(fā)。這些模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進行訓(xùn)練,從而獲得了廣泛的能力。

Sora實際上是一種擴散型變換器模型(diffusion transformer)。首先將視頻壓縮到一個低維潛在空間中,然后將這種表現(xiàn)形式分解成時空區(qū)塊,從而將視頻轉(zhuǎn)換為區(qū)塊。它能夠接受帶有噪聲的patch(和條件信息,如文本提示)作為輸入,隨后被訓(xùn)練,來預(yù)測原始的“干凈”patch。

a497c9e2-d119-11ee-a297-92fbcf53809c.png

訓(xùn)練了一個用于降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。這個網(wǎng)絡(luò)以原始視頻為輸入,輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進行訓(xùn)練,并在此空間中生成視頻。還開發(fā)了一個對應(yīng)的解碼器模型,它能將生成的潛在表示映射回到像素空間。

對于給定的壓縮輸入視頻,提取一系列時空區(qū)塊,它們在變換器模型中充當(dāng)標(biāo)記(token)。這種方案同樣適用于圖像,因為圖像本質(zhì)上是單幀的視頻?;趨^(qū)塊的表示方法使Sora能夠針對不同分辨率、持續(xù)時間和縱橫比的視頻和圖像進行訓(xùn)練。在推理過程中,可以通過在適當(dāng)大小的網(wǎng)格中排列隨機初始化的區(qū)塊來控制生成視頻的大小。

隨著 Sora 訓(xùn)練計算量的增加,樣本質(zhì)量有了顯著提升。

Sora訓(xùn)練時沒有對素材進行裁切,使得Sora能夠直接為不同設(shè)備以其原生縱橫比創(chuàng)造內(nèi)容。針對視頻的原生縱橫比進行訓(xùn)練,還可以提高構(gòu)圖和取景的質(zhì)量。

它還可以先以較低分辨率快速制作出視頻原型,再用相同的模型制作出全分辨率的視頻。

訓(xùn)練文本到視頻的生成系統(tǒng)需要大量配有相應(yīng)文本提示的視頻。應(yīng)用了在DALL·E 3中引入的重新字幕技術(shù)到視頻上。

與DALL·E 3相似,也利用了GPT技術(shù),將用戶的簡短提示轉(zhuǎn)換成更詳細的提示,然后發(fā)送給視頻模型。

論文關(guān)鍵點

OpenAI 的研究論文《Video generation models as world simulators》探討了在視頻數(shù)據(jù)上進行大規(guī)模訓(xùn)練生成模型的方法。這項研究特別關(guān)注于文本條件擴散模型,這些模型同時在視頻和圖像上進行訓(xùn)練,處理不同時長、分辨率和寬高比的數(shù)據(jù)。研究中提到的最大模型 Sora 能夠生成長達一分鐘的高保真視頻。以下是論文的一些關(guān)鍵點:

統(tǒng)一的視覺數(shù)據(jù)表示:研究者們將所有類型的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表示,以便進行大規(guī)模的生成模型訓(xùn)練。Sora 使用視覺補?。╬atches)作為其表示方式,類似于大型語言模型(LLM)中的文本標(biāo)記。

視頻壓縮網(wǎng)絡(luò):研究者們訓(xùn)練了一個網(wǎng)絡(luò),將原始視頻壓縮到一個低維潛在空間,并將其表示分解為時空補丁。Sora 在這個壓縮的潛在空間中進行訓(xùn)練,并生成視頻。

擴散模型:Sora 是一個擴散模型,它通過預(yù)測原始“干凈”的補丁來從輸入的噪聲補丁中生成視頻。擴散模型在語言建模、計算機視覺和圖像生成等領(lǐng)域已經(jīng)顯示出了顯著的擴展性。

視頻生成的可擴展性:Sora 能夠生成不同分辨率、時長和寬高比的視頻,包括全高清視頻。這種靈活性使得 Sora 能夠直接為不同設(shè)備生成內(nèi)容,或者在生成全分辨率視頻之前快速原型化內(nèi)容。

語言理解:為了訓(xùn)練文本到視頻生成系統(tǒng),需要大量的視頻和相應(yīng)的文本標(biāo)題。研究者們應(yīng)用了在 DALL·E 3 中引入的重新描述技術(shù),首先訓(xùn)練一個高度描述性的標(biāo)題生成器,然后為訓(xùn)練集中的所有視頻生成文本標(biāo)題。

圖像和視頻編輯:Sora 不僅能夠基于文本提示生成視頻,還可以基于現(xiàn)有圖像或視頻進行提示。這使得 Sora 能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù),如創(chuàng)建完美循環(huán)的視頻、動畫靜態(tài)圖像、向前或向后擴展視頻等。

模擬能力:當(dāng)視頻模型在大規(guī)模訓(xùn)練時,它們展現(xiàn)出了一些有趣的新興能力,使得 Sora 能夠模擬物理世界中的某些方面,如動態(tài)相機運動、長期一致性和對象持久性等。

雖然存在不足之處,但這不是關(guān)鍵

盡管 Sora 展示了作為模擬器的潛力,但它仍然存在許多局限性,例如在模擬基本物理交互時的準(zhǔn)確性不足。

比如下面這個由 Sora 生成的視頻當(dāng)中,動物的數(shù)量隨著時間的推移出現(xiàn)了明顯的錯亂,多個動物憑空出現(xiàn)又憑空消失了。此外,在一些生成的視頻當(dāng)中還會出現(xiàn)違反物理規(guī)則的現(xiàn)象。但是,對于新生的Sora來說,這些都不是關(guān)鍵,后續(xù)完全能夠通過技術(shù)迭代來進行完善和改進。

這也是為什么,Sora雖然有一些不完美之處,但是外界仍一致認(rèn)為它將會革命性地改變許多行業(yè)。

可以說,目前的Sora已經(jīng)擁有了足以改變視頻廣告行業(yè)的能力,如果持續(xù)迭代,并在保持穩(wěn)定性和一致性的前提下,進一步支持更復(fù)雜的交互、更長的視頻時長,并加入更為豐富的AI視頻編輯功能,必將對于現(xiàn)有的影視制作產(chǎn)業(yè)帶來革命。

試想一下,如果將一部小說輸入Sora就能夠生成一部高質(zhì)量的電影,這將會是多么的激動人心!這將極大的降低視頻創(chuàng)作的門檻,并提升視頻的質(zhì)量,這對于整個行業(yè)來說都將帶來更為積極的意義。當(dāng)然,這也將會沖擊到現(xiàn)有的傳統(tǒng)視頻制作產(chǎn)業(yè)鏈上的諸多從業(yè)者,恐怕很多演員、導(dǎo)演、攝影師,以及很多相關(guān)的服裝、化妝、道具人員都將要失業(yè)了。

來源:芯智訊 原文:

https://mp.weixin.qq.com/s/_WIFlmCzQHS4K1fRSkgmYg





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1219

    瀏覽量

    43446
  • 變換器
    +關(guān)注

    關(guān)注

    17

    文章

    2166

    瀏覽量

    112523
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50105

    瀏覽量

    265533
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1245

    瀏覽量

    10104
  • Sora
    +關(guān)注

    關(guān)注

    0

    文章

    86

    瀏覽量

    810

原文標(biāo)題:一場AI“革命”開始,OpenAI文生視頻模型Sora要點分析

文章出處:【微信號:架構(gòu)師技術(shù)聯(lián)盟,微信公眾號:架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    GPT-5.1發(fā)布 OpenAI開始拼情商

    OpenAI正式上線了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有網(wǎng)友實測發(fā)現(xiàn)OpenAI新發(fā)布的GPT-5.1大模型的指令執(zhí)行能力更強了,可以更
    的頭像 發(fā)表于 11-13 15:49 ?709次閱讀

    OpenAI Sora 2模型上線微軟Azure AI Foundry國際版

    我們非常激動地宣布,OpenAI 的新一代多模態(tài)視頻生成模型 Sora 2 現(xiàn)已在 Azure AI Foundry(國際版)上線,進入公共預(yù)覽階段。
    的頭像 發(fā)表于 10-22 09:44 ?784次閱讀
    <b class='flag-5'>OpenAI</b> <b class='flag-5'>Sora</b> 2<b class='flag-5'>模型</b>上線微軟Azure AI Foundry國際版

    別只盯著Sora,中國AI視頻的實時交互已悄悄領(lǐng)先

    告別抽卡,國產(chǎn)圖生視頻模型已經(jīng)卷到next level
    的頭像 發(fā)表于 10-16 10:54 ?2884次閱讀
    別只盯著<b class='flag-5'>Sora</b>,中國AI<b class='flag-5'>視頻</b>的實時交互已悄悄領(lǐng)先

    Sora2五天下載量破百萬!超越ChatGPT增長速度,App Store免費榜霸榜第一

    比ChatGPT用戶增長速度還要快的APP,它來了!但……還是OpenAI它一家的,還是咱們的老熟人Sora2。五天下載量破百萬次,同時輕松拿下AppStore免費榜第一。好好好,現(xiàn)在OpenAI
    的頭像 發(fā)表于 10-13 16:39 ?1696次閱讀
    <b class='flag-5'>Sora</b>2五天下載量破百萬!超越ChatGPT增長速度,App Store免費榜霸榜第一

    OpenAI開源模型登陸IBM watsonx.ai開發(fā)平臺

    OpenAI 已向公眾發(fā)布了兩款 AI 模型,允許開發(fā)者和企業(yè)可自由下載、運行并進行定制。其中一款模型現(xiàn)已部署在 IBM watsonx.ai 開發(fā)平臺上。
    的頭像 發(fā)表于 08-26 15:36 ?1025次閱讀

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現(xiàn)已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機上的原生適配與優(yōu)化,用戶可一鍵啟用這顆“小而強悍”的新引擎,在本地享受企業(yè)級 AI 生產(chǎn)力!
    的頭像 發(fā)表于 08-14 11:34 ?1414次閱讀

    訊飛星辰MaaS平臺率先上線OpenAI最新開源模型

    8月6日凌晨,OpenAI 時隔六年再次回歸開源,發(fā)布兩款全新的大語言模型:gpt-oss-120b和gpt-oss-20b,性能與o4-mini 水平相當(dāng),并且可以在消費級硬件上運行。
    的頭像 發(fā)表于 08-13 16:43 ?1579次閱讀

    OpenAI或在周五凌晨發(fā)布GPT-5 OpenAI以低價向美國政府提供ChatGPT

    外界一直在期待的OpenAI新一代大語言模型GPT-5或?qū)l(fā)布。據(jù)外媒的報道,GPT-5很可能在周五凌晨發(fā)布。這是OpenAI在2023年的3月份推出自然語言處理模型GPT-4之后,兩
    的頭像 發(fā)表于 08-07 14:13 ?1.3w次閱讀

    亞馬遜云科技現(xiàn)已上線OpenAI開放權(quán)重模型

    客戶現(xiàn)可通過Amazon Bedrock和Amazon SageMaker AI使用OpenAI開放權(quán)重模型,實現(xiàn)將先進的開放權(quán)重模型與全球最廣泛云服務(wù)的深度集成。 亞馬遜云科技首次上線Ope
    的頭像 發(fā)表于 08-06 19:29 ?854次閱讀

    OpenAI發(fā)布2款開源模型

    OpenAI開源了兩款高性能權(quán)重語言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 發(fā)布了!我們做了一個開放模型
    的頭像 發(fā)表于 08-06 14:25 ?1033次閱讀

    模型在半導(dǎo)體行業(yè)的應(yīng)用可行性分析

    的應(yīng)用,比如使用機器學(xué)習(xí)分析數(shù)據(jù),提升良率。 這一些大模型是否真的有幫助 能夠在解決工程師的知識斷層問題 本人純小白,不知道如何涉足這方面 應(yīng)該問什么大模型比較好,或者是看什么視頻能夠
    發(fā)表于 06-24 15:10

    將Whisper大型v3 fp32模型轉(zhuǎn)換為較低精度后,推理時間增加,怎么解決?

    openai/whisper-large-v3 FP32 模型轉(zhuǎn)換為 FP16、INT8 和 INT4。 推理所花費的時間比在 FP32 上花費的時間要多
    發(fā)表于 06-24 06:23

    4K、多模態(tài)、長視頻:AI視頻生成的下一個戰(zhàn)場,誰在領(lǐng)跑?

    電子發(fā)燒友網(wǎng)報道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節(jié)跳動最新視頻模型,支持文字與圖片輸入,可生成多鏡頭無縫切換的1080
    的頭像 發(fā)表于 06-16 00:13 ?7302次閱讀

    “天才”!OpenAI o3 成全球 IQ 最高的 AI 大模型

    電子發(fā)燒友網(wǎng)報道(文 / 吳子鵬)根據(jù)門薩智商(IQ)測試中的表現(xiàn),OpenAI o3 在全球 “智商最高” 的人工智能模型 TOP 24 中位居榜首,在門薩測試中獲得了 135 的高分,躋身
    的頭像 發(fā)表于 06-15 01:56 ?5982次閱讀
    “天才”!<b class='flag-5'>OpenAI</b> o3 成全球 IQ 最高的 AI 大<b class='flag-5'>模型</b>

    如何獲取 OpenAI API Key?API 獲取與代碼調(diào)用示例 (詳解教程)

    OpenAI API Key 獲取與使用詳解:從入門到精通 OpenAI 正以其 GPT 和 DALL-E 等先進模型引領(lǐng)全球人工智能創(chuàng)新。其 API 為開發(fā)者和企業(yè)提供了強大的 AI 能力集成途徑
    的頭像 發(fā)表于 05-04 11:42 ?1.6w次閱讀
    如何獲取 <b class='flag-5'>OpenAI</b> API Key?API 獲取與代碼調(diào)用示例 (詳解教程)