91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

僅憑聲音,AI 就能“腦補(bǔ)”你的臉!測(cè)試結(jié)果精度可以達(dá)到 90.25%

5RJg_mcuworld ? 來(lái)源:YXQ ? 2019-04-08 10:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)語(yǔ)】之前我們?yōu)榇蠹医榻B過(guò)一項(xiàng)非常酸爽的研究“Talking Face Generation”:給定音頻或視頻后(輸入),可以讓任意一個(gè)人的面部特征與輸入的音視頻信息保持一致,也就是說(shuō)出輸入的這段話(huà)。當(dāng)時(shí)就想到了“楊超越的聲音+高曉松的臉”這樣的神仙搭配。不過(guò),近期一項(xiàng)新研究再度抓到了筆者的眼睛!在最新的研究中,研究者僅需要音頻信息就生成了人臉... ...如此鬼畜的操作,此乃頭一次見(jiàn)??!接下來(lái)就為大家介紹一下這項(xiàng)工作!

音頻和圖像是人類(lèi)最常用的兩種信號(hào)傳輸模式,圖像傳達(dá)的信息非常直觀(guān),而語(yǔ)音包含的信息其實(shí)比我們想象的要更豐富,包括說(shuō)話(huà)人的身份,性別和情緒狀態(tài)等等。從這兩個(gè)信號(hào)中提取的特征通常是高度相關(guān)的,可以讓人僅聆聽(tīng)聲音就可以想象他的視覺(jué)外觀(guān)。WAV2PIX 的工作就是僅利用語(yǔ)音輸入,來(lái)生成說(shuō)話(huà)者的人臉圖像。其實(shí)這就是一個(gè)跨模態(tài)的視覺(jué)生成任務(wù)。

談到這項(xiàng)研究的貢獻(xiàn),主要有三點(diǎn):

提出了一個(gè)能夠直接從原始的語(yǔ)音信號(hào)生成人臉的條件GAN:WAV2PIX;

提供了一個(gè)在語(yǔ)音和人臉兩方面綜合質(zhì)量很高的一個(gè)數(shù)據(jù)集:Youtubers;

實(shí)驗(yàn)證明論文的方法可以生成真實(shí)多樣的人臉。

論文收集了大V用戶(hù)(Youtubers)上傳到 Youtube 的演講視頻,這些視頻通常具有高質(zhì)量的說(shuō)話(huà)環(huán)境、表達(dá)方式、人臉特征等。Youtubers 數(shù)據(jù)集主要由兩部分組成:一個(gè)是自動(dòng)生成的數(shù)據(jù)集和一個(gè)手動(dòng)處理后的高質(zhì)量的子集。

主要的預(yù)處理工作:

音頻最初下載的是高級(jí)音頻編碼(AAC)格式,44100 Hz,立體聲。因此轉(zhuǎn)換為 WAV 格式,并重新采樣到 16 kHz,每個(gè)樣例占 16 位并轉(zhuǎn)換為單聲道。

采用基于 Haar 特征的人臉檢測(cè)器來(lái)檢測(cè)正臉。僅采納置信度高的幀

保存檢測(cè)出來(lái)的那幀圖像及前后兩秒的語(yǔ)音幀,以及一個(gè)標(biāo)簽(identity)。

方法介紹

研究主要由三個(gè)模塊構(gòu)成:一個(gè)是語(yǔ)音編碼器,一個(gè)是圖片生成網(wǎng)絡(luò),一個(gè)是圖片判別網(wǎng)絡(luò)。

語(yǔ)音編碼器(Speech Encoder):已有的方法大多數(shù)是手工提取音頻特征,并不是針對(duì)生成網(wǎng)絡(luò)的任務(wù)進(jìn)行優(yōu)化的,而 SEGAN 提出了一種在波形上用于語(yǔ)音處理的方法。因此作者在已有的工作 SEGAN 上進(jìn)行修改。修改為具有 6 層一維網(wǎng)絡(luò),并且每層的 kernel 大小是 15x15,步長(zhǎng)為 4,然后每層卷積網(wǎng)絡(luò)后面使用 LeakyReLU 激活函數(shù),網(wǎng)絡(luò)的輸入通道是 1。輸入 16kHZ 下1 秒的語(yǔ)音片段,上述的卷積網(wǎng)絡(luò)可以得到一個(gè) 4x1024 的張量,然后采用三個(gè)全連接網(wǎng)絡(luò)將特征數(shù)量從 4x1024 降到 128。作為生成器網(wǎng)絡(luò)的輸入。

圖片生成器(Image Generator Network):輸入是語(yǔ)音編碼器的 128 向量。采用二維轉(zhuǎn)置卷積、插值、dropout 等方式將輸入轉(zhuǎn)為 64x64x3 或者 128x128x3 的張量。在 G 的損失函數(shù)中添加了一個(gè)輔助損失用于保持說(shuō)話(huà)人的標(biāo)簽(Identity)。

圖片判別器(Image Discriminator Network):判別器由幾層步長(zhǎng)為 2,kernel 大小是 4x4 的卷積網(wǎng)絡(luò)組成,并使用譜歸一化和 LeakyReLU 激活函數(shù)。當(dāng)張量為 4x4 時(shí),作者拼接了語(yǔ)音的輸入,并采用最后一層網(wǎng)絡(luò)來(lái)計(jì)算 D 網(wǎng)絡(luò)的分?jǐn)?shù)。

實(shí)驗(yàn)過(guò)程

訓(xùn)練:將手動(dòng)處理后的數(shù)據(jù)集作為訓(xùn)練集,采用數(shù)據(jù)增強(qiáng)等手動(dòng)。值得注意的是,在處理時(shí)將每張圖像復(fù)制了 5 次,并將其與 4 秒音頻里面隨機(jī)采樣的 5 個(gè)不同的1秒音頻塊進(jìn)行匹配。因此總共有 24K 左右的圖像-音頻對(duì)用于模型訓(xùn)練。其它超參數(shù)采用參考的文獻(xiàn)設(shè)置。

評(píng)估:下圖給出了可視化的結(jié)果,雖然生成的圖像都比較模糊,但基本可以觀(guān)察到人的面部特征,并且有不同的面部表情。

作者進(jìn)一步微調(diào)了一個(gè)預(yù)訓(xùn)練的 VGG-FACE Descriptor 網(wǎng)絡(luò),用于量化測(cè)試結(jié)果,在作者提供的數(shù)據(jù)集上,可以達(dá)到 76.81% 的語(yǔ)音識(shí)別準(zhǔn)確率和 50.08% 的生成圖像準(zhǔn)確率。

為了評(píng)估模型生成圖像的真實(shí)程度,作者定義了一個(gè) 68 個(gè)人臉關(guān)鍵點(diǎn)的精度檢測(cè)分?jǐn)?shù)。如下圖所示,測(cè)試結(jié)果精度可以達(dá)到 90.25%。表明在大多數(shù)情況下生成的圖像保留了基本的面部特征。

感興趣的小伙伴們可以下載閱讀研究一下~

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)音
    +關(guān)注

    關(guān)注

    3

    文章

    405

    瀏覽量

    39829
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40041

    瀏覽量

    301704

原文標(biāo)題:僅用語(yǔ)音,AI 就能“腦補(bǔ)”你的臉! | 技術(shù)頭條

文章出處:【微信號(hào):mcuworld,微信公眾號(hào):嵌入式資訊精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何查看小智是否成功進(jìn)入聲音設(shè)置?

    可以通過(guò)后臺(tái)頁(yè)面狀態(tài)、設(shè)備反饋、語(yǔ)音測(cè)試三種方式,快速確認(rèn)小智是否成功進(jìn)入聲音設(shè)置并生效。 一、后臺(tái)頁(yè)面直接查看(最準(zhǔn)) 登錄小智AI后臺(tái)
    發(fā)表于 02-16 06:39

    使用NORDIC AI的好處

    ,時(shí)延更低,系統(tǒng)在網(wǎng)絡(luò)不穩(wěn)定甚至離線(xiàn)時(shí)也能繼續(xù)工作。[Edge AI 概述] 提升隱私與可靠性 原始傳感器數(shù)據(jù)(如運(yùn)動(dòng)、生理信號(hào)等)可以留在本地,只上傳推理結(jié)果,有利于隱私與數(shù)據(jù)安全。 本地決策
    發(fā)表于 01-31 23:16

    是德科技打造機(jī)接口無(wú)線(xiàn)共存測(cè)試解決方案

    之前,我們?cè)鴮?xiě)過(guò)有關(guān)機(jī)接口的微信文章介紹過(guò)機(jī)接口技術(shù)。近一個(gè)月來(lái)機(jī)接口市場(chǎng)又熱鬧起來(lái)啦!
    的頭像 發(fā)表于 01-21 11:00 ?2342次閱讀
    是德科技打造<b class='flag-5'>腦</b>機(jī)接口無(wú)線(xiàn)共存<b class='flag-5'>測(cè)試</b>解決方案

    有哪些方法可以排除電磁干擾對(duì)測(cè)試結(jié)果的影響?

    排除電磁干擾對(duì)測(cè)試結(jié)果的影響,核心是 **“隔離干擾源→切斷耦合路徑→強(qiáng)化抗干擾能力→數(shù)據(jù)校驗(yàn)過(guò)濾”** 的全流程防護(hù),結(jié)合電能質(zhì)量監(jiān)測(cè)裝置的測(cè)試場(chǎng)景(如溫度補(bǔ)償效果驗(yàn)證、精度校準(zhǔn)),
    的頭像 發(fā)表于 11-06 15:30 ?1708次閱讀

    說(shuō)說(shuō)壓控溫補(bǔ)晶振VCTCXO

    壓控溫補(bǔ)晶振是壓控溫補(bǔ)晶體振蕩器的簡(jiǎn)稱(chēng),英文縮寫(xiě)符號(hào)為VCTCXO,VC代表壓控,TC代表溫補(bǔ)。壓控溫補(bǔ)晶振的優(yōu)點(diǎn)在于其高精度、頻率穩(wěn)定性、
    的頭像 發(fā)表于 09-18 17:23 ?905次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+神經(jīng)形態(tài)計(jì)算、類(lèi)芯片

    AI芯片不僅包括深度學(xué)細(xì)AI加速器,還有另外一個(gè)主要列別:類(lèi)芯片。類(lèi)芯片是模擬人腦神經(jīng)網(wǎng)絡(luò)架構(gòu)的芯片。它結(jié)合微電子技術(shù)和新型神經(jīng)形態(tài)器件,模仿人腦神經(jīng)系統(tǒng)機(jī)選原理進(jìn)行設(shè)計(jì),實(shí)現(xiàn)類(lèi)似
    發(fā)表于 09-17 16:43

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+內(nèi)容總覽

    、集成芯片、分子器件與分子憶阻器,以及打印類(lèi)芯片等。 第五章至第八章分別探討用化學(xué)或生物方法實(shí)現(xiàn)AIAI在科學(xué)發(fā)現(xiàn)中創(chuàng)新應(yīng)用、實(shí)現(xiàn)神經(jīng)形態(tài)計(jì)算與類(lèi)芯片的創(chuàng)新方法,以及具身智能芯片
    發(fā)表于 09-05 15:10

    壓控溫補(bǔ)晶振可以直接替代溫補(bǔ)晶振嗎

    壓控溫補(bǔ)晶振(VC-TCXO)在某些情況下可以替代溫補(bǔ)晶振(TCXO),但需根據(jù)具體應(yīng)用需求決定。以下是關(guān)鍵因素分析:
    的頭像 發(fā)表于 08-25 15:56 ?1587次閱讀
    壓控溫<b class='flag-5'>補(bǔ)</b>晶振<b class='flag-5'>可以</b>直接替代溫<b class='flag-5'>補(bǔ)</b>晶振嗎

    【Sipeed MaixCAM Pro開(kāi)發(fā)板試用體驗(yàn)】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    1. 項(xiàng)目概述 本項(xiàng)目旨在開(kāi)發(fā)并部署一個(gè)高精度的深度學(xué)習(xí)模型,用于自動(dòng)鑒別一張圖片是由AI生成(如Stable Diffusion, DALL-E, Midjourney等工具生成)還是真實(shí)的畫(huà)家
    發(fā)表于 08-21 13:59

    待機(jī)功耗測(cè)試的“隱秘陷阱”:為什么測(cè)試結(jié)果可能不準(zhǔn)確?

    本文導(dǎo)讀在家電、LED等行業(yè),待機(jī)功耗測(cè)試看似簡(jiǎn)單——選擇一臺(tái)高精度設(shè)備即可。但實(shí)際上,許多工程師都在無(wú)意中踩中測(cè)試“陷阱”:插排上的小紅燈、接線(xiàn)方式的選擇、量程檔位的設(shè)定...這些細(xì)節(jié)影響著
    的頭像 發(fā)表于 07-22 11:37 ?855次閱讀
    待機(jī)功耗<b class='flag-5'>測(cè)試</b>的“隱秘陷阱”:為什么<b class='flag-5'>你</b>的<b class='flag-5'>測(cè)試</b><b class='flag-5'>結(jié)果</b>可能不準(zhǔn)確?

    請(qǐng)問(wèn)STM32C0的adc精度可以達(dá)到多少?

    STM32C0的adc精度可以達(dá)到多少?
    發(fā)表于 06-09 06:46

    請(qǐng)問(wèn)STM32C0的adc精度可以達(dá)到多少?

    STM32C0的adc精度可以達(dá)到多少?
    發(fā)表于 06-05 07:53

    直線(xiàn)度測(cè)量?jī)x的精度如何評(píng)估?

    關(guān)鍵字:直線(xiàn)度測(cè)量?jī)x,直線(xiàn)度評(píng)估,直線(xiàn)度檢測(cè),直線(xiàn)度校準(zhǔn) 直線(xiàn)度測(cè)量?jī)x的精度的評(píng)估是一個(gè)綜合性的過(guò)程,主要可以從以下幾個(gè)方面進(jìn)行: 一、直接測(cè)量與對(duì)比驗(yàn)證 1.標(biāo)準(zhǔn)件測(cè)試:使用已知直線(xiàn)度誤差的標(biāo)準(zhǔn)件
    發(fā)表于 04-21 16:26

    鋰電池外殼氣密性檢測(cè)儀的檢測(cè)精度可以達(dá)到多少

    鋰電池外殼氣密性檢測(cè)儀的檢測(cè)精度因品牌和型號(hào)的不同而有所差異。一些先進(jìn)的檢測(cè)儀能夠達(dá)到非常高的檢測(cè)精度。例如,某些品牌的鋰電池殼體氣密性檢測(cè)儀,其傳感器精度
    的頭像 發(fā)表于 04-17 11:55 ?923次閱讀
    鋰電池外殼氣密性檢測(cè)儀的檢測(cè)<b class='flag-5'>精度</b><b class='flag-5'>可以</b><b class='flag-5'>達(dá)到</b>多少

    《DNESP32S3使用指南-IDF版_V1.6》第六十章 貓檢測(cè)實(shí)驗(yàn)

    第六十章 貓檢測(cè)實(shí)驗(yàn) 貓檢測(cè)與人臉檢測(cè)一樣,也是基于數(shù)字圖像中查找和識(shí)別貓。本章,我們使用樂(lè)鑫AI庫(kù)來(lái)實(shí)現(xiàn)貓檢測(cè)功能。本章分為如下幾
    發(fā)表于 04-01 09:28