谷歌和Idiap研究所的研究人員訓練了兩個獨立的神經(jīng)網(wǎng)絡(luò),能夠顯著降低多說話者信號的語音識別詞錯誤率。
把一個人的聲音從嘈雜的人群中分離出來是大多數(shù)人潛意識里都會做的事情——這就是所謂的雞尾酒會效應(yīng)。像谷歌Home和亞馬遜的Echo這樣的智能揚聲器實現(xiàn)分離人群中的聲音可能還要再經(jīng)歷一段時間,但多虧了AI,它們或許有一天能夠像人類一樣過濾掉聲音。
谷歌和位于Switerzland的Idiap研究所的研究人員發(fā)表在Arxiv上的一篇論文中描述了一種新的解決方案。他們訓練了兩個獨立的神經(jīng)網(wǎng)絡(luò)——說話者識別網(wǎng)絡(luò)(a speaker recognition network)和聲譜掩碼網(wǎng)絡(luò)(a spectrogram masking network)——這兩個網(wǎng)絡(luò)一起“顯著”降低了多說話者信號的語音識別詞錯誤率(WER)。
他們的工作建立在麻省理工學院計算機科學和人工智能實驗室今年早些時候發(fā)表的一篇論文的基礎(chǔ)上,該論文描述了一個名為PixelPlayer的系統(tǒng),該系統(tǒng)能夠?qū)蝹€樂器的聲音從YouTube視頻中分離出來。
論文:
VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking
論文地址:
https://arxiv.org/pdf/1810.04826.pdf
在最新的論文中,研究人員寫道:“我們的任務(wù)是將一部分感興趣的說話者的聲音與所有其他說話者和聲音的共性分離開來。例如,這樣的子集可以由一個目標揚聲器對個人移動設(shè)備發(fā)出語音查詢,或者由一個家庭成員對一個共享的家庭設(shè)備進行交談而形成?!?/p>
研究人員的語音過濾系統(tǒng)分為兩部分,包括LSTM模型和卷積神經(jīng)網(wǎng)絡(luò)(只有一個LSTM層)。第一個采用預(yù)處理的語音采樣和輸出揚聲器嵌入(即矢量形式的聲音表示)作為輸入,而后者預(yù)測來自嵌入的軟掩模或濾波器以及根據(jù)噪聲音頻計算的幅度譜圖。掩模用于生成增強幅度譜圖,當與噪聲音頻的相位(聲波)組合并變換時,產(chǎn)生增強的波形。
AI系統(tǒng)被訓練以便最大限度地減少屏蔽幅度頻譜圖與從干凈音頻計算的目標幅度頻譜圖之間的差異。
該團隊為訓練樣本提供了兩個數(shù)據(jù)集:(1)來自13.8萬名演講者的大約3400萬個匿名語音查詢?nèi)罩荆?2)開源語音庫LibriSpeech、VoxCeleb和VoxCeleb2的匯編。VoiceFilter網(wǎng)絡(luò)對來自CSTR VCTK數(shù)據(jù)集(由愛丁堡大學維護的一組語音數(shù)據(jù))和LibriSpeech的2338個貢獻者的語音樣本進行了訓練,并使用來自73名演講者的話語進行評估。
在測試中,VoiceFilter在雙揚聲器方案中將字錯誤率從55.9%降低到23.4%。
研究人員寫道:“我們已經(jīng)證明了使用經(jīng)過專門訓練的揚聲器編碼器來調(diào)整語音分離任務(wù)的有效性。這樣的系統(tǒng)更適用于真實場景,因為它不需要事先知道揚聲器的數(shù)量……我們的系統(tǒng)完全依賴于音頻信號,可以很容易地通過使用具有高度代表性的嵌入向量來推廣到未知的揚聲器?!?/p>
-
谷歌
+關(guān)注
關(guān)注
27文章
6254瀏覽量
111454 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4838瀏覽量
107846 -
語音識別
+關(guān)注
關(guān)注
39文章
1812瀏覽量
116067
原文標題:谷歌神經(jīng)網(wǎng)絡(luò)人聲分離技術(shù)再突破!詞錯率低至23.4%
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
谷歌和Idiap研究所的研究人員訓練了兩個獨立的神經(jīng)網(wǎng)絡(luò)
評論