91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google研究人員發(fā)現(xiàn)黑科技 只聽你想聽的聲音

454398 ? 來(lái)源:網(wǎng)絡(luò)整理 ? 作者: 工程師1 ? 2018-04-18 00:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Google 的研究人員創(chuàng)建了一個(gè)視聽模型,可以通過(guò)算法將視頻中的多個(gè)聲音分離,得到一個(gè)清晰的單個(gè)語(yǔ)音。

一位二次元朋友說(shuō)他有一種能力,就是在 B 站開彈幕看視頻時(shí),想看視頻就看視頻,想看彈幕就看彈幕,兩者可以自動(dòng)分離,不會(huì)互相干擾。類似的,人類在聽覺(jué)上也有一種選擇能力,就是人在集中注意力聽某個(gè)聲音時(shí),可以自動(dòng)忽略其他聲音或噪音,感覺(jué)像是把要聽的聲音放大了一樣,這種現(xiàn)象叫做雞尾酒會(huì)效應(yīng)。

這種能力對(duì)我們來(lái)說(shuō)好像很自然,但對(duì)于計(jì)算機(jī)可是個(gè)不小的挑戰(zhàn)。最近,Google 的研究人員創(chuàng)建了一個(gè)視聽模型,可以通過(guò)算法將視頻中的多個(gè)聲音分離,得到一個(gè)清晰的單個(gè)語(yǔ)音。簡(jiǎn)單來(lái)說(shuō),你可以選擇只聽視頻中某個(gè)人講話的聲音,而不用擔(dān)心被干擾。

結(jié)合視覺(jué)聽覺(jué)信號(hào),識(shí)別并分離音軌

利用這種技術(shù)制作的視頻可以將特定人物的聲音增強(qiáng),把其他無(wú)關(guān)的聲音去掉。在普通的單音軌視頻中,用戶可以點(diǎn)擊自己想關(guān)注的人物,或者算法會(huì)結(jié)合上下段內(nèi)容來(lái)自動(dòng)選擇突出誰(shuí)的聲音。這項(xiàng)技術(shù)可以用于增強(qiáng)視頻中的語(yǔ)音,提高視聽效果。

這項(xiàng)技術(shù)的原理是結(jié)合視頻中的聽覺(jué)和視覺(jué)信號(hào),以此來(lái)識(shí)別并分離語(yǔ)音。就像識(shí)別唇語(yǔ)的原理一樣,一個(gè)人說(shuō)話時(shí)發(fā)出的聲音和他嘴部的運(yùn)動(dòng)存在某種關(guān)聯(lián),所以可以利用這一點(diǎn),來(lái)辨別某段聲音是誰(shuí)發(fā)出的。在視覺(jué)信號(hào)的幫助下,即使是在多種聲音混雜的環(huán)境中,單個(gè)聲音的特征也變得更明顯,更重要的是,你還可以在聽到清晰聲音的同時(shí)看到人嘴部的運(yùn)動(dòng),更容易接收并理解信息。

研究人員用 10 萬(wàn)個(gè)高質(zhì)量的 YouTube 視頻為樣本,從視頻中提取清晰的演講片段,沒(méi)有背景音樂(lè)、沒(méi)有觀眾鼓掌、沒(méi)有噪音,并且視頻中只有一個(gè)說(shuō)話的人。他們共提取出 2000 個(gè)小時(shí)的訓(xùn)練數(shù)據(jù),用這些干凈的視頻來(lái)合成“雞尾酒會(huì)”的效果。這樣就可以訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型,將合成的視頻分離出多個(gè)單獨(dú)的音軌,也就是每個(gè)人單獨(dú)的聲音。將每一幀中嘴部運(yùn)動(dòng)的視覺(jué)信息提取出來(lái),然后找到聲譜圖中對(duì)應(yīng)的部分。這樣就可以訓(xùn)練神經(jīng)網(wǎng)絡(luò),從聲音混雜的視頻中,根據(jù)人的嘴部運(yùn)動(dòng)來(lái)提取對(duì)應(yīng)的聲音碎片,最后輸出成具有單獨(dú)聲音軌道的視頻,每一個(gè)人的聲音都可以進(jìn)行單獨(dú)播放。

可以提高語(yǔ)音識(shí)別能力

這個(gè)黑科技在語(yǔ)音識(shí)別中尤其有用,比如 YouTube 自己的自動(dòng)字幕,如果視頻中有多種聲音混合,字幕就很難準(zhǔn)確顯示,而如果這幾種聲音能夠單獨(dú)分離播放,對(duì)應(yīng)的字幕也就更準(zhǔn)確,用戶也更容易理解。再往遠(yuǎn)處想,這項(xiàng)技術(shù)可以運(yùn)用到 Google Glass 這樣的智能眼鏡中,即使是在紛雜世界,你也可以只關(guān)注想關(guān)注的人,只聽 Ta 的聲音。除此之外,帶視頻能力的智能音箱可能是未來(lái)的大趨勢(shì),有了語(yǔ)音分離能力,語(yǔ)音識(shí)別的能力也會(huì)更精準(zhǔn)、更強(qiáng)大。

這種強(qiáng)大的能力也可能帶來(lái)隱私問(wèn)題,比如間諜電影中經(jīng)常見到的天眼系統(tǒng),如果再搭配語(yǔ)音分離的能力,豈不是可以做到視聽上的全能?不過(guò)想達(dá)到那樣的效果,識(shí)別能力就要很精準(zhǔn)了。在此之前它的應(yīng)用可能只是 Google 自己的產(chǎn)品,比如增強(qiáng)視頻智能音箱的語(yǔ)音識(shí)別能力,還有讓 YouTube 的自動(dòng)字幕更智能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1808

    瀏覽量

    60555
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111559
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    BlueMatrix與Perplexity達(dá)成合作,為機(jī)構(gòu)研究帶來(lái)AI驅(qū)動(dòng)的發(fā)現(xiàn)能力

    機(jī)構(gòu)投資者提供AI賦能的研究發(fā)現(xiàn)服務(wù)。 此次合作將授權(quán)經(jīng)紀(jì)商研究成果帶給Perplexity Enterprise用戶,讓買方專業(yè)人士既能查詢其訂閱的研究內(nèi)容,又能利用Perplex
    的頭像 發(fā)表于 01-14 16:23 ?547次閱讀

    功率放大器使用人,速來(lái)報(bào)到!我們想聽您的心聲!

    ,獲得了國(guó)內(nèi)外一眾工程師、科研人員的青睞。在新的一年,為了讓身處各研究領(lǐng)域的您用上更好的功放產(chǎn)品,親愛的Aigtek功率放大器使用人,您的聲音,對(duì)我們至關(guān)重要!親愛的客
    的頭像 發(fā)表于 12-18 18:31 ?289次閱讀
    功率放大器使用人,速來(lái)報(bào)到!我們<b class='flag-5'>想聽</b>您的心聲!

    發(fā)現(xiàn)帶來(lái)光量子計(jì)算的進(jìn)步

    多光子干涉網(wǎng)絡(luò) 由維也納大學(xué)的菲利普-瓦爾特(Philip Walther)領(lǐng)導(dǎo)的國(guó)際研究人員合作,在量子技術(shù)領(lǐng)域取得了重大突破,利用一種新型資源節(jié)約型平臺(tái)成功演示了多個(gè)單光子之間的量子干涉。這項(xiàng)
    的頭像 發(fā)表于 12-01 07:38 ?277次閱讀
    新<b class='flag-5'>發(fā)現(xiàn)</b>帶來(lái)光量子計(jì)算的進(jìn)步

    研究人員復(fù)興針孔相機(jī)技術(shù)以推動(dòng)下一代紅外成像發(fā)展

    研究人員運(yùn)用具有數(shù)百年歷史的針孔成像原理,開發(fā)出一種無(wú)需透鏡的高性能中紅外成像系統(tǒng)。這種新型相機(jī)能夠在大范圍距離內(nèi)和弱光條件下拍攝極其清晰的照片,使其在傳統(tǒng)相機(jī)難以應(yīng)對(duì)的場(chǎng)景中發(fā)揮重要作用。 研究
    的頭像 發(fā)表于 11-17 07:40 ?264次閱讀

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保護(hù)科學(xué)

    確認(rèn)未來(lái)動(dòng)物因環(huán)境變化而發(fā)生的變化。例如,通過(guò)檢測(cè)不同棲息地中發(fā)聲物種的發(fā)聲情況,研究人員可以調(diào)查種群數(shù)量,并繪制其豐度、棲息地利用和生物多樣性的趨勢(shì)。這些數(shù)據(jù)集對(duì)于建立基線至關(guān)重要,這樣才能量化并
    發(fā)表于 10-27 09:18

    如何進(jìn)行聲音定位?

    文章主要介紹了如何利用一種簡(jiǎn)單的TDOA算法進(jìn)行聲音點(diǎn)位,并使用數(shù)據(jù)采集卡進(jìn)行聲音定位的實(shí)驗(yàn)。
    的頭像 發(fā)表于 09-23 15:47 ?1886次閱讀
    如何進(jìn)行<b class='flag-5'>聲音</b>定位?

    谷歌查找我的設(shè)備配件(Google Find My Device Accessory)詳解和應(yīng)用

    谷歌查找我的設(shè)備配件(Google Find My Device Accessory)介紹 谷歌查找我的設(shè)備配件是與谷歌 “查找我的設(shè)備” 應(yīng)用程序配合使用的配件,旨在幫助用戶更方便地追蹤和定位個(gè)人
    發(fā)表于 08-31 21:10

    聲源定位模塊-AR1105# 聲源定位# 聲音定位

    聲音降噪
    深圳市聲訊電子有限公司
    發(fā)布于 :2025年08月01日 16:01:09

    無(wú)刷直流電機(jī)雙閉環(huán)串級(jí)控制系統(tǒng)仿真研究

    以來(lái)伴隨著永磁材料技術(shù)、計(jì)算機(jī)及控制技術(shù)等支撐技術(shù)的快速發(fā)展及微電機(jī)制造工藝水平的不斷提高,永磁無(wú)刷直流電動(dòng)機(jī)在高性能中、小伺服驅(qū)動(dòng)領(lǐng)域獲得廣泛應(yīng)用并日趨占據(jù)主導(dǎo)地位嗎。一直以來(lái),研究人員都比較關(guān)注利用
    發(fā)表于 07-07 18:36

    NVIDIA助力研究人員開發(fā)用于搜救任務(wù)的無(wú)人地面車輛

    NVIDIA 和 Bridge to Türkiye Fund 通過(guò)提供學(xué)術(shù)資助,在土耳其全國(guó)推動(dòng)針對(duì)災(zāi)害響應(yīng)的創(chuàng)新研究及工程教育的發(fā)展。
    的頭像 發(fā)表于 07-04 15:01 ?1051次閱讀

    Google Fast Pair服務(wù)簡(jiǎn)介

    Google Fast Pair 是一項(xiàng)利用低功耗藍(lán)牙(Bluetooth LE)技術(shù),實(shí)現(xiàn)設(shè)備間快速安全配對(duì)及提供多種服務(wù)的協(xié)議。其主要功能包括: 設(shè)備處于配對(duì)模式時(shí),顯示半頁(yè)通知,便于用戶進(jìn)行
    發(fā)表于 06-29 19:28

    研究人員開發(fā)出基于NVIDIA技術(shù)的AI模型用于檢測(cè)瘧疾

    瘧疾曾一度在委內(nèi)瑞拉銷聲匿跡,但如今正卷土重來(lái)。研究人員已經(jīng)訓(xùn)練出一個(gè)模型來(lái)幫助檢測(cè)這種傳染病。
    的頭像 發(fā)表于 04-25 09:58 ?1067次閱讀

    正點(diǎn)原子 AI BOX0 智能伴侶,1.54寸高清屏+長(zhǎng)效續(xù)航,語(yǔ)音暢聊,情景對(duì)話,知識(shí)科普,多色可選,隨身攜帶!

    ! ③ 聲音克隆科技:錄制聲音,定制專屬家人的聲音,異地也能溫暖相伴! 全場(chǎng)景覆蓋的神器 ① 學(xué)習(xí)加速器:孩子作業(yè)輔導(dǎo)、英語(yǔ)對(duì)話練習(xí)、百科知識(shí)隨時(shí)科普! ② 育兒小能手:睡前故事、成
    發(fā)表于 04-24 16:11

    虹科直播 | 現(xiàn)場(chǎng)實(shí)測(cè)!如何準(zhǔn)確識(shí)別你想修的聲音?這份進(jìn)階秘籍別錯(cuò)過(guò)!

    直播預(yù)告如果說(shuō)車輛各系統(tǒng)正常運(yùn)行時(shí)的聲音,是一場(chǎng)精彩的交響樂(lè)。那當(dāng)其中一個(gè)系統(tǒng)或部件損壞,就將變成讓聽眾皺眉的不和諧之音。面對(duì)數(shù)量眾多的演奏“樂(lè)器”,如何從中找到異常聲音的來(lái)源?例如,在下面這臺(tái)
    的頭像 發(fā)表于 04-09 11:09 ?674次閱讀
    虹科直播 | 現(xiàn)場(chǎng)實(shí)測(cè)!如何準(zhǔn)確識(shí)別<b class='flag-5'>你想</b>修的<b class='flag-5'>聲音</b>?這份進(jìn)階秘籍別錯(cuò)過(guò)!

    PCM2912APJTR設(shè)計(jì)的USB聲卡播放聲音有噠噠的聲音的原因有哪些

    最近學(xué)習(xí)PCB設(shè)計(jì)設(shè)計(jì)了一個(gè)USB聲卡,電路圖參考了官方demo模塊的原理圖,但是設(shè)計(jì)出來(lái)的板子發(fā)現(xiàn)播放音樂(lè)會(huì)有噠噠的聲音。本人由于是初學(xué)者,所以有點(diǎn)不懂是PCB不對(duì)的問(wèn)題還是原理圖設(shè)計(jì)的問(wèn)題了。 希望有人能夠給點(diǎn)修改建議。 下面是原理圖。 布線圖如下:
    發(fā)表于 03-21 11:54