91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌和Idiap研究所的研究人員訓練了兩個獨立的神經(jīng)網(wǎng)絡(luò)

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-10-18 10:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌和Idiap研究所的研究人員訓練了兩個獨立的神經(jīng)網(wǎng)絡(luò),能夠顯著降低多說話者信號語音識別詞錯誤率。

把一個人的聲音從嘈雜的人群中分離出來是大多數(shù)人潛意識里都會做的事情——這就是所謂的雞尾酒會效應(yīng)。像谷歌Home和亞馬遜的Echo這樣的智能揚聲器實現(xiàn)分離人群中的聲音可能還要再經(jīng)歷一段時間,但多虧了AI,它們或許有一天能夠像人類一樣過濾掉聲音。

谷歌和位于Switerzland的Idiap研究所的研究人員發(fā)表在Arxiv上的一篇論文中描述了一種新的解決方案。他們訓練了兩個獨立的神經(jīng)網(wǎng)絡(luò)——說話者識別網(wǎng)絡(luò)(a speaker recognition network)和聲譜掩碼網(wǎng)絡(luò)(a spectrogram masking network)——這兩個網(wǎng)絡(luò)一起“顯著”降低了多說話者信號的語音識別詞錯誤率(WER)。

他們的工作建立在麻省理工學院計算機科學和人工智能實驗室今年早些時候發(fā)表的一篇論文的基礎(chǔ)上,該論文描述了一個名為PixelPlayer的系統(tǒng),該系統(tǒng)能夠?qū)蝹€樂器的聲音從YouTube視頻中分離出來。

論文:

VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking

論文地址:

https://arxiv.org/pdf/1810.04826.pdf

在最新的論文中,研究人員寫道:“我們的任務(wù)是將一部分感興趣的說話者的聲音與所有其他說話者和聲音的共性分離開來。例如,這樣的子集可以由一個目標揚聲器對個人移動設(shè)備發(fā)出語音查詢,或者由一個家庭成員對一個共享的家庭設(shè)備進行交談而形成?!?/p>

研究人員的語音過濾系統(tǒng)分為兩部分,包括LSTM模型和卷積神經(jīng)網(wǎng)絡(luò)(只有一個LSTM層)。第一個采用預(yù)處理的語音采樣和輸出揚聲器嵌入(即矢量形式的聲音表示)作為輸入,而后者預(yù)測來自嵌入的軟掩模或濾波器以及根據(jù)噪聲音頻計算的幅度譜圖。掩模用于生成增強幅度譜圖,當與噪聲音頻的相位(聲波)組合并變換時,產(chǎn)生增強的波形。

AI系統(tǒng)被訓練以便最大限度地減少屏蔽幅度頻譜圖與從干凈音頻計算的目標幅度頻譜圖之間的差異。

該團隊為訓練樣本提供了兩個數(shù)據(jù)集:(1)來自13.8萬名演講者的大約3400萬個匿名語音查詢?nèi)罩荆?2)開源語音庫LibriSpeech、VoxCeleb和VoxCeleb2的匯編。VoiceFilter網(wǎng)絡(luò)對來自CSTR VCTK數(shù)據(jù)集(由愛丁堡大學維護的一組語音數(shù)據(jù))和LibriSpeech的2338個貢獻者的語音樣本進行了訓練,并使用來自73名演講者的話語進行評估。

在測試中,VoiceFilter在雙揚聲器方案中將字錯誤率從55.9%降低到23.4%。

研究人員寫道:“我們已經(jīng)證明了使用經(jīng)過專門訓練的揚聲器編碼器來調(diào)整語音分離任務(wù)的有效性。這樣的系統(tǒng)更適用于真實場景,因為它不需要事先知道揚聲器的數(shù)量……我們的系統(tǒng)完全依賴于音頻信號,可以很容易地通過使用具有高度代表性的嵌入向量來推廣到未知的揚聲器?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111454
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4838

    瀏覽量

    107846
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1812

    瀏覽量

    116067

原文標題:谷歌神經(jīng)網(wǎng)絡(luò)人聲分離技術(shù)再突破!詞錯率低至23.4%

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    無刷電機小波神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)子位置檢測方法的研究

    摘要:論文通過對無刷電機數(shù)學模型的推導,得出轉(zhuǎn)角:與三相相電壓之間存在映射關(guān)系,因此構(gòu)建了一以三相相電壓為輸人,轉(zhuǎn)角為輸出的小波神經(jīng)網(wǎng)絡(luò)來實現(xiàn)轉(zhuǎn)角預(yù)測,并采用改進遺傳算法來訓練網(wǎng)絡(luò)結(jié)
    發(fā)表于 06-25 13:06

    神經(jīng)網(wǎng)絡(luò)教程(李亞非)

      第1章 概述  1.1 人工神經(jīng)網(wǎng)絡(luò)研究與發(fā)展  1.2 生物神經(jīng)元  1.3 人工神經(jīng)網(wǎng)絡(luò)的構(gòu)成  第2章人工神經(jīng)網(wǎng)絡(luò)基本模型  2.
    發(fā)表于 03-20 11:32

    人類首創(chuàng)能生成神經(jīng)細胞的“迷你大腦”,更精確模擬神經(jīng)網(wǎng)絡(luò)

    `近日,凱斯西儲大學醫(yī)學院、紐約干細胞基金會(NYSCF)研究所和喬治華盛頓大學的研究人員聯(lián)合提出了一種新方法,通過人類胚胎干細胞培育生成3D版的“迷你大腦”。這些“迷你大腦”名為“大腦類器官
    發(fā)表于 08-21 09:26

    【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

    今天學習了兩個神經(jīng)網(wǎng)絡(luò),分別是自適應(yīng)諧振(ART)神經(jīng)網(wǎng)絡(luò)與自組織映射(SOM)神經(jīng)網(wǎng)絡(luò)。整體感覺不是很難,只不過一些最基礎(chǔ)的概念容易理解不清。首先ART
    發(fā)表于 07-21 04:30

    如何移植一CNN神經(jīng)網(wǎng)絡(luò)到FPGA中?

    訓練神經(jīng)網(wǎng)絡(luò)并移植到Lattice FPGA上,通常需要開發(fā)人員既要懂軟件又要懂數(shù)字電路設(shè)計,是不容易的事。好在FPGA廠商為我們提供
    發(fā)表于 11-26 07:46

    圖像預(yù)處理和改進神經(jīng)網(wǎng)絡(luò)推理的簡要介紹

    為提升識別準確率,采用改進神經(jīng)網(wǎng)絡(luò),通過Mnist數(shù)據(jù)集進行訓練。整體處理過程分為步:圖像預(yù)處理和改進神經(jīng)網(wǎng)絡(luò)推理。圖像預(yù)處理主要根據(jù)圖像的特征,將數(shù)據(jù)處理成規(guī)范的格式,而改進
    發(fā)表于 12-23 08:07

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    network,DBN)[24], 從此拉開了深度學習大幕。隨著深度學習理論的研究和發(fā)展,研究人員提 出了一系列卷積神經(jīng)網(wǎng)絡(luò)模型。為了比較不同模型 的質(zhì)量,收集并整理了文獻中模型在分類任務(wù)上的 識別率,如圖 1
    發(fā)表于 08-02 10:39

    如何進行高效的時序圖神經(jīng)網(wǎng)絡(luò)訓練

    現(xiàn)有的圖數(shù)據(jù)規(guī)模極大,導致時序圖神經(jīng)網(wǎng)絡(luò)訓練需要格外長的時間,因此使用多GPU進行訓練變得成為尤為重要,如何有效地將多GPU用于時序圖神經(jīng)網(wǎng)絡(luò)訓練
    發(fā)表于 09-28 10:37

    谷歌最新AI算法 遞歸神經(jīng)網(wǎng)絡(luò)繪制大腦神經(jīng)圖像

    谷歌研究人員使用了一種邊緣檢測算法,該算法可以識別神經(jīng)突(神經(jīng)元本體的分支)的邊界,以及一種復發(fā)性卷積神經(jīng)網(wǎng)絡(luò)(復發(fā)性
    發(fā)表于 07-20 09:45 ?2695次閱讀

    研究人員開發(fā)解釋多義詞的神經(jīng)網(wǎng)絡(luò)

    艾倫人工智能研究所和華盛頓大學的研究人員正在使用可以根據(jù)上下文來確定英文單詞含義的神經(jīng)網(wǎng)絡(luò)。
    的頭像 發(fā)表于 09-12 15:52 ?2959次閱讀

    神經(jīng)網(wǎng)絡(luò)有什么天生的性質(zhì)

    谷歌大腦研究人員通過精簡神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在前幾代中發(fā)現(xiàn)了最小架構(gòu)的神經(jīng)網(wǎng)絡(luò)能夠控制此處所示的雙足機器人,即使它的得分不高。
    發(fā)表于 02-05 16:55 ?1614次閱讀

    AI研究人員如何應(yīng)對透明AI

    許多現(xiàn)代的AI系統(tǒng)都在神經(jīng)網(wǎng)絡(luò)上運行,而我們僅了解其基礎(chǔ)知識,因為算法本身很少提供解釋方式。缺乏解釋性通常被稱為AI系統(tǒng)的“黑匣子”。研究人員將注意力集中在神經(jīng)網(wǎng)絡(luò)如何工作的細節(jié)上
    的頭像 發(fā)表于 07-14 16:31 ?2369次閱讀

    研究人員開發(fā)“液態(tài)”神經(jīng)網(wǎng)絡(luò) 可適應(yīng)快速變化的訓練環(huán)境

    設(shè)計出了一種具有重大改進的“液態(tài)”神經(jīng)網(wǎng)絡(luò)。其特點是能夠在投入訓練階段之后,極大地擴展 AI 技術(shù)的靈活性。 通常情況下,研究人員會在訓練階段向神經(jīng)
    的頭像 發(fā)表于 01-29 10:46 ?2118次閱讀

    BP神經(jīng)網(wǎng)絡(luò)研究進展

    通過對傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)缺點的分析,從參數(shù)選取、BP算法、激活函數(shù)、網(wǎng)絡(luò)結(jié)構(gòu)4方面綜述了其改進方法。介紹了各種方法的原理、應(yīng)用背景及其在BP神經(jīng)網(wǎng)絡(luò)中的應(yīng)用,同時分析了各種方法的優(yōu)缺點
    發(fā)表于 06-01 11:28 ?5次下載

    怎么對神經(jīng)網(wǎng)絡(luò)重新訓練

    重新訓練神經(jīng)網(wǎng)絡(luò)是一復雜的過程,涉及到多個步驟和考慮因素。 引言 神經(jīng)網(wǎng)絡(luò)是一種強大的機器學習模型,廣泛應(yīng)用于圖像識別、自然語言處理、語音識別等領(lǐng)域。然而,隨著時間的推移,數(shù)據(jù)分布可
    的頭像 發(fā)表于 07-11 10:25 ?1408次閱讀