四月婷婷精品视频在线,精品视频二区三区三州,国产99热播免费

目前，人類使用的語言種類有近7000種，然而由于缺乏足夠的語音-文本監(jiān)督數(shù)據(jù)，絕大多數(shù)語言并沒有對應(yīng)的語音合成與識(shí)別功能。為此，微軟亞洲研究院機(jī)器學(xué)習(xí)組聯(lián)合微軟（亞洲）互聯(lián)網(wǎng)工程院語音團(tuán)隊(duì)在ICML 2019上提出了極低資源下的語音合成與識(shí)別新方法，幫助所有人都可以享受到最新語音技術(shù)帶來的便捷。

基于文本的語音合成（Text-to-Speech, TTS）和自動(dòng)語音識(shí)別（Automatic Speech Recognition, ASR）是語音處理中的兩個(gè)典型任務(wù)。得益于深度學(xué)習(xí)的發(fā)展和大量配對的語音-文本監(jiān)督數(shù)據(jù)，TTS和ASR在特定的語言上都達(dá)到了非常優(yōu)秀的性能，甚至超越了人類的表現(xiàn)。然而，由于世界上大部分語言都缺乏大量配對的語音-文本數(shù)據(jù)，并且收集這樣的監(jiān)督數(shù)據(jù)需要耗費(fèi)大量的資源，這使得在這些語言上開發(fā)TTS和ASR系統(tǒng)變得非常困難。為了解決這個(gè)問題，微軟亞洲研究院機(jī)器學(xué)習(xí)組聯(lián)合微軟（亞洲）互聯(lián)網(wǎng)工程院語音團(tuán)隊(duì)提出了一種極低資源下的語音合成和識(shí)別的新模型方法，僅利用20分鐘語音-文本監(jiān)督數(shù)據(jù)以及額外的無監(jiān)督數(shù)據(jù)，就能生成高可懂度的語音。

模型框架

TTS將文本轉(zhuǎn)成語音，而ASR將語音轉(zhuǎn)成文字，這兩個(gè)任務(wù)具有對偶性質(zhì)。受到這個(gè)啟發(fā)，我們借鑒無監(jiān)督機(jī)器翻譯的相關(guān)思路，利用少量的配對語音-文本數(shù)據(jù)以及額外的不配對數(shù)據(jù)，提出了一種接近無監(jiān)督的TTS和ASR方法。

首先，我們利用自我監(jiān)督學(xué)習(xí)的概念，讓模型分別建立對語言以及語音的理解建模能力。具體來說，我們基于不成對的語音和文本數(shù)據(jù)，利用去噪自動(dòng)編碼器（Denoising Auto-Encoder, DAE）在編碼器-解碼器框架中重建人為加有噪聲的語音和文本。

其次，我們使用對偶轉(zhuǎn)換（Dual Transformation, DT），來分別訓(xùn)練模型將文本轉(zhuǎn)為語音和將語音轉(zhuǎn)為文本的能力：（a）TTS模型將文本X轉(zhuǎn)換為語音Y，然后ASR模型利用轉(zhuǎn)換得到語音-文本數(shù)據(jù)（Y，X）進(jìn)行訓(xùn)練; （b）ASR模型將語音Y轉(zhuǎn)換為文本X，然后TTS模型利用文本-語音數(shù)據(jù)（X，Y）進(jìn)行訓(xùn)練。對偶轉(zhuǎn)換在TTS和ASR之間不斷迭代，逐步提高兩個(gè)任務(wù)的準(zhǔn)確性。

考慮到語音序列通常比其它序列學(xué)習(xí)任務(wù)（如機(jī)器翻譯）的序列更長，它們將更多地受到錯(cuò)誤傳播的影響（在自回歸模型生成序列時(shí)，序列中上一個(gè)錯(cuò)誤生成的元素將會(huì)對下一個(gè)元素的生成產(chǎn)生影響）。因此，生成序列的右側(cè)部分通常比左側(cè)部分差，然后通過訓(xùn)練迭代導(dǎo)致模型生成的序列始終表現(xiàn)為右側(cè)差。在低資源的場景下，這種現(xiàn)象更為嚴(yán)重。因此，我們進(jìn)一步利用文本和語音的雙向序列建模（Bidirectional Sequence Modeling, BSM）來緩解錯(cuò)誤傳播問題。這樣，一個(gè)文本或語音序列可以從左到右生成，也可以從右到左生成，能防止模型始終生成某一側(cè)較差的序列。

最后，我們設(shè)計(jì)了一個(gè)基于Transformer的統(tǒng)一模型架構(gòu)，可以將語音或文本作為輸入或輸出，以便將上述DAE、DT、BSM模塊整合在一起以實(shí)現(xiàn)TTS和ASR的功能。

如上圖所示，圖（a）描述了DAE和DT的轉(zhuǎn)換流程，圖（b）展示了我們采用的Transformer模型結(jié)構(gòu)，圖（c）顯示了語音和文本的輸入輸出處理模塊。

實(shí)驗(yàn)結(jié)果

為了驗(yàn)證這一方法的有效性，我們在英語上模擬低資源的場景，選用LJSpeech數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，LJSpeech包含13100個(gè)英語音頻片段和相應(yīng)的文本，音頻的總長度約為24小時(shí)。我們將數(shù)據(jù)集分成3組：300個(gè)樣本作為驗(yàn)證集，300個(gè)樣本作為測試集，剩下的12500個(gè)樣本用來訓(xùn)練。在這12500個(gè)樣本中，我們隨機(jī)選擇200個(gè)配對的語音和文本數(shù)據(jù)，剩下的數(shù)據(jù)當(dāng)作不配對的語音文本數(shù)據(jù)。

我們邀請了30個(gè)專業(yè)評估員對生成的聲音進(jìn)行可懂度（Intelligibility Rate）以及MOS（Mean Opinion Score，平均主觀意見分）評測。MOS指標(biāo)用來衡量聲音接近人聲的自然度，在極低資源場景下，我們一般用可懂度來評估是否能產(chǎn)生可理解的聲音。

經(jīng)過實(shí)驗(yàn)，我們提出的方法可以產(chǎn)生可理解的語音，其單詞級的可懂度高達(dá)99.84％，而如果僅對200個(gè)配對數(shù)據(jù)進(jìn)行訓(xùn)練，則幾乎無法產(chǎn)生可以被聽懂的語音，這顯示出我們方法在極低資源場景下的實(shí)用性。

下面展示了我們方法合成的聲音Demo:

文字：“The forms of printed letters should be beautiful and that their arrangement on the page should be reasonable and a help to the shapeliness of the letters themselves.”

更多Demo聲音，請?jiān)L問：

https://speechresearch.github.io/unsuper/

語音合成上的MOS得分以及語音識(shí)別的PER（Phoneme Error Rate，音素錯(cuò)誤率）如下表所示。我們的方法在TTS上達(dá)到2.68的MOS，在ASR上達(dá)到11.7%的PER，遠(yuǎn)優(yōu)于僅在200個(gè)配對數(shù)據(jù)上訓(xùn)練的基線模型（Pair-200），并且接近使用所有訓(xùn)練樣本的監(jiān)督模型（Supervised）。由于我們的語音合成僅使用了效果較差的Griffin-Lim作為聲碼器合成聲音，作為對比，我們也列出了真實(shí)樣本（Ground Truth, GT）以及真實(shí)樣本的梅爾頻譜圖通過Griffin-Lim轉(zhuǎn)換得到的聲音（GT（Griffin-Lim））的MOS得分作參考。

為了研究我們方法中每個(gè)模塊的有效性，我們通過逐步將每個(gè)模塊添加到基線（Pair-200）系統(tǒng)進(jìn)行對比研究。實(shí)驗(yàn)中先后添加了以下模塊：去噪自編碼器（DAE）、對偶變換（DT）和雙向序列建模（BSM），結(jié)果如下表所示?？梢钥吹?，隨著更多模塊的加入，TTS的MOS得分以及ASR的PER都穩(wěn)定地提高，顯示出各個(gè)模塊的重要性。

我們還可視化了測試集中由不同系統(tǒng)生成的梅爾頻譜圖，如下圖所示。由于Pair-200和Pair-200 + DAE不能產(chǎn)生能被理解的語音，因此紅色邊界框中的梅爾頻譜圖的細(xì)節(jié)也與真實(shí)頻譜大不相同。當(dāng)添加DT時(shí)，整個(gè)頻譜圖更接近真實(shí)頻譜圖，然而受到誤差傳播的影響，位于頻譜圖序列末尾的紅色邊界框細(xì)節(jié)仍然與真實(shí)數(shù)據(jù)不同。當(dāng)進(jìn)一步添加BSM時(shí)，邊界框中的細(xì)節(jié)比較接近真實(shí)數(shù)據(jù)，這也證明了BSM在我們的方法中的有效性。當(dāng)然如果使用LJSpeech的全部配對數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練，模型可以重建更接近真實(shí)情況的細(xì)節(jié)。

我們的方法僅利用約20分鐘的語音-文本配對數(shù)據(jù)，以及額外的不配對數(shù)據(jù)，在英語上取得了很好的效果，產(chǎn)生了高可懂度的語音。當(dāng)前，我們正在持續(xù)提高這一方法的性能，直接支持文本字符的輸入而不是先將字符轉(zhuǎn)化為音素作為輸入，同時(shí)支持多個(gè)說話人的無監(jiān)督語音數(shù)據(jù)。我們還在嘗試?yán)酶俚恼Z音-文本數(shù)據(jù)（甚至完全不用配對數(shù)據(jù)）以實(shí)現(xiàn)高質(zhì)量的語音合成與語音識(shí)別。未來，我們將利用這項(xiàng)技術(shù)支持其它低資源語言，讓更多的語言擁有語音合成與識(shí)別功能。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

微軟

微軟

+關(guān)注

關(guān)注
4

文章
6745

瀏覽量
107974
語音識(shí)別

語音識(shí)別

+關(guān)注

關(guān)注
39

文章
1812

瀏覽量
116142

原文標(biāo)題：微軟提出極低資源下語音合成與識(shí)別新方法，小語種不怕沒數(shù)據(jù)！| ICML 2019

文章出處：【微信號(hào)：rgznai100，微信公眾號(hào)：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

微軟提出極低資源下語音合成與識(shí)別新方法,小語種不怕沒數(shù)據(jù)

評論