91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用語音直接畫出人臉,AI再添新能力

hl5C_deeptechch ? 來源:YXQ ? 2019-07-17 09:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

聽聲辨人,利用聲紋進行解鎖,這種技術(shù)已廣泛應(yīng)用,人類的聲音含有該個體的一定特征,從而可以進行區(qū)分。那么僅通過聲音,能否畫出人像,并且盡可能地與講話者相似呢?

近日,卡內(nèi)基梅隆大學的Yandong Wen 等人,利用生成對抗網(wǎng)絡(luò)模型(generative adversarial networks, GANs)首次對這一問題作出研究,利用講話者的語音生成一些匹配原說話者面部特征的人臉,并用交叉模態(tài)匹配(cross-modal matching task)評估了模型表現(xiàn),可謂是語音畫像領(lǐng)域的一大突破。

模型框架

一個人的聲音和骨骼結(jié)構(gòu)、發(fā)聲部位的形狀等特征的確有關(guān),但利用語音直接畫出人臉,如何做到?

該由聲音重建人臉的模型框架主要由四個卷積網(wǎng)絡(luò):語音嵌入模型(voice embedding network)、生成器(Generator)、判別器(Discriminator)、分類器(classifier)組成。

語音嵌入模型(voice embedding network)將輸入的語音數(shù)據(jù),梅爾倒頻譜(log mel-spectrograms)轉(zhuǎn)換為含有該聲音特征的向量 e。該模型含有 5 層一維卷積神經(jīng)網(wǎng)絡(luò),每一層均是經(jīng)由卷積核為 3、步長為 2、padding 為 1 得到,并且都經(jīng)過歸一化層處理和 ReLU 單元激活,最后經(jīng)過平均池化得到一個 64 維的向量。此模型是通過一個語音識別任務(wù)預先訓練得到參數(shù),并且參數(shù)在生成人臉的訓練過程中保持不變。生成器(Generator)輸入為語音嵌入模型產(chǎn)生的向量 e,輸出是人臉 RGB 圖像 f',由 6 層二維反卷積網(wǎng)絡(luò)構(gòu)成,激活函數(shù)采用 ReLU。

判別器(Discriminator)判斷輸入的圖像 f(或 f')是生成器偽造的圖像還是真實的人臉,如果判斷為偽造圖會加大損失 Ld。由 6 層激活單元為 Leaky ReLU 的二維卷積網(wǎng)絡(luò)構(gòu)成,最后經(jīng)過全連接層得到人臉圖像數(shù)據(jù)。

分類器(classifier)用來將人臉圖像與說話者匹配,如果匹配錯誤會加大損失 Lc。該模型由 6 層二維卷積網(wǎng)絡(luò)和一個全連接層組成。具體的結(jié)構(gòu)如圖表,其中 Conv 3/2,1代表卷積核尺寸為 3,步長為 2,padding 填充為 1。

圖 | 從聲音重建人臉模型的具體結(jié)構(gòu)。(來源:Yandong Wen, et al./CMU)模型通過最小化判別器與分類器的交叉熵損失 Ld 和 Lc 來訓練,以期得到圖像逼真且符合說話者特征的人臉。值得一提的是,此模型的測試集和訓練集以及驗證集相互獨立,即測試時的聲音是未聽過的,人臉也未知。

模型表現(xiàn)

不特意挑選那些人臉和真實講話者完美一致的結(jié)果,一般來講,該模型的確能輸出具有講話者特征的人臉,即使不完全一模一樣,從種族以及一些其他典型的面部特征來看,這個模型的確學習到了一些信息,輸出結(jié)果和原講話者非常像,并且語音時間越長,匹配的特征越多,兩者越類似

圖 | 從不同時長的正常錄音生成人臉的結(jié)果圖,右側(cè)Ref為真實講話者的不同臉部照片,從上到下的 4 位 Speaker 分別是 Danica McKellar, Cindy Williams, Damian Lewis, and Eva Green. (來源:Yandong Wen, et al./CMU)當然,性別及年齡特征也可以很好地被學習到,左側(cè)輸出結(jié)果的年齡和性別與右側(cè)真實人臉的年齡性別保持一致。在整個測試集上,生成圖和真實講話者性別相同的概率可以達到 96.5%。

圖 | 從性別年齡的人臉重建,(a)是從老年聲音生成的人臉;(b)是男性聲音生成的人臉;(c)是女性聲音生成的人臉。其中左側(cè)為生成圖,右側(cè)為真實講話者。(來源:Yandong Wen, et al./CMU)如果用同一個人的不同語音片段,推測產(chǎn)生的人臉會保持相同特征嗎?模型結(jié)果告訴我們,是這樣。選用同一個講話者的 7 個不同語音片段,不特意挑選完美結(jié)果,模型所推測出的大概特征是十分一致的,這也側(cè)面說明,模型的確可以從一個人的語音抽取出一些特征,映射成其臉部的某些特征。

圖 | 利用一個人的 7 段不同語音重建人臉,左圖(a)是重建的 7 張人臉圖,右圖(b)是對應(yīng)的真實人臉在不同情況的照片(來源:Yandong Wen, et al./CMU)進一步來講,如果從語音中學到的特征真的可以映射成面部的特征,那么生成人臉圖必定和真實講話者的臉部是對應(yīng)匹配的。換句話說,聲音中的特征可以被生成人臉中蘊含的特征替代,那么由聲音重組人臉就變成了人臉識別問題,兩張臉(生成的和真實的)匹配,那么計劃可行,這個匹配率也就成了衡量模型表現(xiàn)的指標。在整個訓練集和測試集上,該模型的匹配率分別是 96.83% 和 76.07%;將訓練集和測試集按照性別分層,排除性別這一特征的助力,也就是直接比較同一性別上,生成的人臉和講話者是否相像,匹配率在訓練集和測試集上分別是 93.98%和 59.69%,這也證明了模型所學到的信息不僅僅是性別,還有其他更詳細的面部特征。該模型表現(xiàn)不僅優(yōu)于 DIMNets-G,同時,測試集表現(xiàn)不如訓練集,說明模型還有很大提升空間。

圖 | 不同模型在性別分層以及不分層的數(shù)據(jù)集上的表現(xiàn)。(來源:Yandong Wen, et al./CMU)

展望

該模型雖然表現(xiàn)尚佳,但仍有可提升的地方,比如頭發(fā)和圖像背景等與聲音無關(guān)的特征,可以進行數(shù)據(jù)清洗將其去除,而有一些明顯與發(fā)聲有關(guān)的面部特征也可以加以利用,從而模型會更加精確。

總的來說,由音生貌,語音畫像問題的一塊空白得到了填補。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39911

    瀏覽量

    301538
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    21

    文章

    2368

    瀏覽量

    82574

原文標題:僅聽聲音就畫出人臉,GAN再添新能力

文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    中軟國際在金融科技出海征程關(guān)鍵里程碑

    近日,中軟國際金融業(yè)務(wù)集團成功斬獲馬來西亞某知名數(shù)字銀行移動應(yīng)用開發(fā)項目。該項目是金融業(yè)務(wù)集團在東南亞區(qū)域突破的又一家核心數(shù)字銀行客戶,為公司金融科技出海征程關(guān)鍵里程碑。
    的頭像 發(fā)表于 02-06 18:06 ?2412次閱讀

    水晶光電在ESG與AI領(lǐng)域殊榮

    近日,水晶光電殊榮!憑借在可持續(xù)發(fā)展領(lǐng)域的扎實實踐與人工智能技術(shù)的前沿探索,公司接連榮獲三獎,這充分體現(xiàn)了其堅持雙軌發(fā)展所取得的堅實成就與強大實力。
    的頭像 發(fā)表于 02-01 10:22 ?1001次閱讀

    納芯微NSSine系列實時控制MCU/DSP新成員

    在工業(yè)和能源領(lǐng)域,效率和控制精密度是核心訴求。納芯微NSSine系列實時控制 MCU/DSP 新成員:中端算力新品 NS800RT5075,高性價比新品 NS800RT1025、NS800RT1035 正式發(fā)布。
    的頭像 發(fā)表于 11-05 09:14 ?2139次閱讀
    納芯微NSSine系列實時控制MCU/DSP<b class='flag-5'>再</b><b class='flag-5'>添</b>新成員

    【CPKCOR-RA8D1】關(guān)于AI人臉檢測移植遇到的一些問題

    + CPKEXP-EKRA8X1 擴展板(OV7725 攝像頭、4.5\" MIPI-DSI 屏)。 移植詳情【CPKCOR-RA8D1】AI人臉檢測 - 瑞薩單片機論壇 - 電子技術(shù)論壇 - 廣受歡迎的專業(yè)
    發(fā)表于 10-31 13:39

    基于級聯(lián)分類器的人臉檢測基本原理

    基于統(tǒng)計的方法。從高層的輸入輸出角度來描述,軟件輸入是一張圖像(可以表示為一個uint8_t或者uint16_t的數(shù)組),輸出是檢測的結(jié)果,如果檢測到人臉會輸出人臉的數(shù)量和對應(yīng)的位置,反之則會輸出未
    發(fā)表于 10-30 06:14

    【CPKCOR-RA8D1】AI人臉檢測

    在瑞薩 RA8D1 開發(fā)板上集成 AI 人臉檢測功能 1. 項目概述 該項目是根據(jù)官方AI人臉檢測代碼,在官方顯示屏顯示代碼的基礎(chǔ)上進行修改而得。由于本人實力有限,最后的結(jié)果并不理想,
    發(fā)表于 10-29 17:59

    如何使用語音指令控制串口輸出

    在上兩篇文章中, 我們實現(xiàn)了GPIO輸出, 和PWM輸出(組件介紹在前文中已經(jīng)介紹過 ),在本章節(jié)我們將繼續(xù)進行使用語音指令控制串口輸出。
    的頭像 發(fā)表于 09-25 15:47 ?2117次閱讀
    如何使<b class='flag-5'>用語音</b>指令控制串口輸出

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應(yīng)用

    是一種快速反應(yīng)能力,是直接的感知;靈感是一種通過思考和探索獲得的創(chuàng)造性想法,是一種創(chuàng)意。 AI怎么模擬直覺與靈感呢?四、AI代替人類的假說 這可能嗎? 用機器來生成假說: 1、
    發(fā)表于 09-17 11:45

    語音交互革命,廣和通AI解決方案加速機器人聽覺進化

    ”。面對機器人等新一代智能終端對AI語音交互的新需求,廣和通深度整合硬件SoC平臺與AI語音算法,通過端云協(xié)同方案,助力機器人聽覺突破噪聲與理解瓶頸,增強
    的頭像 發(fā)表于 08-26 17:44 ?905次閱讀

    一顆TTS語音芯給產(chǎn)品增加智能語音播報能力

    一顆TTS語音芯片給產(chǎn)品增加智能語音播報能力 傳統(tǒng)語音播報芯片可以設(shè)置一些固定的語音片段或者內(nèi)容,但是對于現(xiàn)在各種創(chuàng)新產(chǎn)品層出不窮的時代,傳
    的頭像 發(fā)表于 08-14 16:33 ?751次閱讀

    【嘉楠堪智K230開發(fā)板試用體驗】K230 AI 功能體驗

    。K230 的KPU支持INT8和INT16, 典型網(wǎng)絡(luò)下實測推理能力可達K210的13.7倍,MAC利用率超70%。 同時K230提供了大量的AI視覺例程、包含:人體識別、物體檢測、目標跟蹤等多種場合
    發(fā)表于 07-15 15:24

    最新人工智能硬件培訓AI基礎(chǔ)入門學習課程參考2025版(離線AI語音視覺識別篇)

    端側(cè)離線 AI 智能硬件作為 AI 技術(shù)的重要載體之一,憑借其無需依賴網(wǎng)絡(luò)即可實現(xiàn)智能功能的特性,在一些網(wǎng)絡(luò)條件受限或?qū)?shù)據(jù)隱私有較高要求的場景中,發(fā)揮著不可或缺的作用。本章基于CSK6大模型語音
    發(fā)表于 07-04 11:14

    OBOO鷗柏丨AI數(shù)字人觸摸屏查詢觸控人臉識別語音交互一體機上市

    OBOO鷗柏丨AI數(shù)字人觸摸屏查詢觸控人臉識別語音交互一體機上市分析OBOO鷗柏品牌推出的AI數(shù)字人觸摸屏查詢觸控人臉識別
    的頭像 發(fā)表于 05-21 20:22 ?1285次閱讀
    OBOO鷗柏丨<b class='flag-5'>AI</b>數(shù)字人觸摸屏查詢觸控<b class='flag-5'>人臉</b>識別<b class='flag-5'>語音</b>交互一體機上市

    90元打造小智AI腕表,語音交互超有趣!

    的右下方。所以,方便左手攜帶。設(shè)計這個助手的初衷,就是下班途中,可以和AI聊聊未盡事宜,問問技術(shù)、問問天氣,如果AI回答不盡滿意,直接觸摸屏幕,打斷他。 背面視圖 TYPE-C 口,可以充電、固件
    發(fā)表于 04-16 14:26

    上線!國產(chǎn)AI語音開發(fā)板,定制你的聊天伙伴助手,可直接調(diào)用DeepSeek/豆包/通義千問

    AiPi-PalChatV1 ,可直接調(diào)用三大國產(chǎn)AI模型(DeepSeek/豆包/通義千問),輕松實現(xiàn)自然語言交互。 01概述 AiPi-PalChatV1 是一款接入了 小智 AI 智能體 的微型
    的頭像 發(fā)表于 04-15 17:11 ?1190次閱讀
    上線!國產(chǎn)<b class='flag-5'>AI</b><b class='flag-5'>語音</b>開發(fā)板,定制你的聊天伙伴助手,可<b class='flag-5'>直接</b>調(diào)用DeepSeek/豆包/通義千問