黄片视频在线观看网站,免费的三级黄片电影

浙江大學(xué)和網(wǎng)易伏羲AI實驗室的研究人員開發(fā)出一個端到端的機器學(xué)習(xí)系統(tǒng)Audio2Face，可以從音頻中單獨生成實時面部動畫，同時考慮到音高和說話風(fēng)格。

我們都知道動畫里的人物說話聲音都是由后期配音演員合成的。

但即使利用CrazyTalk這樣的軟件，也很難將電腦生成的嘴唇、嘴型等與配音演員進行很好地匹配，尤其是當(dāng)對話時長在數(shù)十甚至數(shù)百小時的情況下。

但不要氣餒，動畫師的福音來了——Audio2Face問世！

Audio2Face是一款端到端的機器學(xué)習(xí)系統(tǒng)，由浙江大學(xué)與網(wǎng)易伏羲AI實驗室共同打造。

它可以從音頻中單獨生成實時的面部動畫，更厲害的是，它還能調(diào)節(jié)音調(diào)和說話風(fēng)格。該成果已經(jīng)發(fā)布至arXiv：

arXiv地址：

https://arxiv.org/pdf/1905.11142.pdf

團隊試圖構(gòu)建一個系統(tǒng)，既要逼真又要低延遲

“我們的方法完全是基于音軌設(shè)計的，沒有任何其他輔助輸入（例如圖像），這就使得當(dāng)我們試圖從聲音序列中回歸視覺空間的過程將會越來越具有挑戰(zhàn)?！闭撐墓餐髡呓忉尩?，“另一個挑戰(zhàn)是面部活動涉及臉部幾何表面上相關(guān)區(qū)域的多重激活，這使得很難產(chǎn)生逼真且一致的面部變形。”

該團隊試圖構(gòu)建一個同時滿足“逼真”（生成的動畫必須反映可見語音運動中的說話模式）和低延遲（系統(tǒng)必須能夠進行近乎實時的動畫）要求的系統(tǒng)。他們還嘗試將其推廣，以便可以將生成的動畫重新定位到其他3D角色。

他們的方法包括從原始輸入音頻中提取手工制作的高級聲學(xué)特征，特別是梅爾頻率倒譜系數(shù)（MFC），或聲音的短期功率譜的表示。然后深度相機與mocap工具Faceshift一起，捕捉配音演員的面部動作并編制訓(xùn)練集。

深度相機示意圖

之后研究人員構(gòu)建了帶有51個參數(shù)的3D卡通人臉模型，控制了臉部的不同部位（例如，眉毛，眼睛，嘴唇和下巴）。最后，他們利用上述AI系統(tǒng)將音頻上下文映射到參數(shù)，產(chǎn)生唇部和面部動作。

1470個音頻樣本加持，機器學(xué)習(xí)模型的輸出“相當(dāng)可以”

團隊使用一個訓(xùn)練語料庫，其中包含兩個60分鐘、每秒30幀的女性和男性演員逐行閱讀劇本中臺詞的視頻，以及每個相應(yīng)視頻幀的1470個音頻樣本（每幀總共2496個維度）。

團隊報告說，與ground truth相比，機器學(xué)習(xí)模型的輸出“相當(dāng)可以”。它設(shè)法在測試音頻上重現(xiàn)準確的面部形狀，并且它一直“很好地”重新定位到不同的角色。此外，AI系統(tǒng)平均只需0.68毫秒即可從給定的音頻窗口中提取特征。

該團隊指出，AI無法跟隨演員的眨眼模式，主要是因為眨眼與言語的相關(guān)性非常弱。不過從廣義上講，該框架可能為適應(yīng)性強、可擴展的音頻到面部動畫技術(shù)奠定基礎(chǔ)，這些技術(shù)幾乎適用于所有說話人和語言。

“評估結(jié)果顯示，我們的方法不僅可以從音頻中產(chǎn)生準確的唇部運動，還可以成功地消除說話人隨時間變化的面部動作，”他們寫道。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴