日本无码成人视频,全国各地成人毛片视频

識(shí)別延遲一直是設(shè)備端語(yǔ)音識(shí)別技術(shù)需要解決的重大問(wèn)題，谷歌手機(jī)今天更新了手機(jī)端的語(yǔ)音識(shí)別技術(shù)——Gboard，重磅推出了一款端到端、全神經(jīng)、基于設(shè)備的語(yǔ)音識(shí)別器，支持Gboard中的語(yǔ)音輸入。通過(guò)谷歌最新的（RNN-T）技術(shù)訓(xùn)練的模型，該模型精度超過(guò)CTC，并且只有80M，可直接在設(shè)備上運(yùn)行。

2012年，語(yǔ)音識(shí)別研究獲得新突破——深度學(xué)習(xí)可以提高識(shí)別的準(zhǔn)確性，最早探索這項(xiàng)技術(shù)的產(chǎn)品便是谷歌語(yǔ)音搜索了。這標(biāo)志這語(yǔ)音識(shí)別革命的開(kāi)始，從深層神經(jīng)網(wǎng)絡(luò)（DNNs）到遞歸神經(jīng)網(wǎng)絡(luò)（RNNs），長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTMs），卷積網(wǎng)絡(luò)（CNNs）等等，新的架構(gòu)和開(kāi)發(fā)質(zhì)量每年都在快速提升。在發(fā)展過(guò)程中，識(shí)別延遲仍然是攻關(guān)難點(diǎn)。

今天，谷歌官方宣布，推出一款端到端、全神經(jīng)、基于設(shè)備的語(yǔ)音識(shí)別器，支持Gboard中的語(yǔ)音輸入。

在谷歌最近的論文“移動(dòng)設(shè)備的流媒體端到端語(yǔ)音識(shí)別”中，提出了一種使用RNN傳感器（RNN-T）技術(shù)訓(xùn)練的模型，并且可以在手機(jī)上實(shí)現(xiàn)。這意味著即使你的手機(jī)網(wǎng)絡(luò)延遲，甚至處于離線狀態(tài)，新的識(shí)別器也始終可用。

谷歌論文下載鏈接：

https://arxiv.org/abs/1811.06621

該模型以單詞級(jí)別運(yùn)行，也就是說(shuō)，當(dāng)你說(shuō)話時(shí)，它會(huì)逐個(gè)字符地輸出單詞，就像是你自己在敲鍵盤(pán)一樣。

語(yǔ)音識(shí)別的歷史

最初，語(yǔ)音識(shí)別系統(tǒng)由這樣幾個(gè)部分組成，將音頻片段（通常為10毫秒幀）映射到音素的聲學(xué)模型，將音素連接在一起形成單詞的發(fā)音模型，語(yǔ)言模型給出相應(yīng)的短語(yǔ)。這些組件在早期系統(tǒng)中都是相互獨(dú)立的。

大約在2014年，研究人員開(kāi)始專注于訓(xùn)練單個(gè)神經(jīng)網(wǎng)絡(luò)，將輸入音頻波形直接映射到輸出句子。

也就是說(shuō)，通過(guò)給定一系列音頻特征，生成一系列單詞或字形來(lái)建立學(xué)習(xí)模型，這種seq2seq模型的出現(xiàn)促進(jìn)了“attention-based ”和“l(fā)isten-attend-spell” 模型的進(jìn)展。

這些模型期望在識(shí)別準(zhǔn)確度上做出突破，但其需要通檢查整個(gè)輸入序列來(lái)工作，并且在輸入時(shí)不允許輸出，這就很難實(shí)現(xiàn)實(shí)時(shí)語(yǔ)音轉(zhuǎn)錄了。

幾乎同一時(shí)間，一個(gè)被稱為CTC的獨(dú)立技術(shù)出現(xiàn)了，成功解決了識(shí)別延時(shí)的問(wèn)題，采用CTC技術(shù)也就成為邁向RNN-T架構(gòu)最重要一步。

遞歸神經(jīng)網(wǎng)絡(luò)傳感器

RNN-Ts是一種非注意機(jī)制的seq2seq模型。與大多數(shù)seq2seq模型（通常需要處理整個(gè)輸入序列（在我們的例子中是波形）以產(chǎn)生輸出（句子））不同，RNN-T可以連續(xù)處理輸入樣本和流輸出符號(hào)，這種屬性對(duì)于語(yǔ)音識(shí)別尤其友好。在實(shí)現(xiàn)過(guò)程中，輸出符號(hào)是字母表的字符。RNN-T識(shí)別器會(huì)逐個(gè)輸出字符，并在適當(dāng)?shù)奈恢幂斎肟崭?。它通過(guò)反饋循環(huán)執(zhí)行此操作，該循環(huán)將模型預(yù)測(cè)的符號(hào)反饋到其中，以預(yù)測(cè)下一個(gè)符號(hào)，如下圖所示。

訓(xùn)練這樣一只有效運(yùn)行的模型已經(jīng)很困難，并且隨著我們開(kāi)發(fā)的進(jìn)展——進(jìn)一步將單詞錯(cuò)誤率降低了5％，模型變得更加計(jì)算密集。為了解決這個(gè)問(wèn)題，我們開(kāi)發(fā)了并行實(shí)現(xiàn)，使得RNN-T損失功能可以在Google的高性能CloudTPU v2硬件上大批量運(yùn)行。這在訓(xùn)練中實(shí)現(xiàn)了約3倍的加速。

離線識(shí)別

在傳統(tǒng)的語(yǔ)音識(shí)別引擎中，我們上面描述的聲學(xué)、發(fā)音和語(yǔ)言模型會(huì)被“組合”成一個(gè)大的圖搜索算法。當(dāng)語(yǔ)音波形被呈現(xiàn)給識(shí)別器時(shí)，“解碼器”在給定輸入信號(hào)的情況下，會(huì)在該圖中搜索相似度最高的路徑，并讀出該路徑所采用的字序列。

通常，解碼器采用基礎(chǔ)模型的有限狀態(tài)傳感器（FST）表示。然而，盡管有復(fù)雜的解碼技術(shù)，圖搜索算法仍然非常之大，以我們的模型為例，可以達(dá)到了2GB。如此大的模型根本無(wú)法在移動(dòng)設(shè)備上運(yùn)行，因此這種方法需要在連線時(shí)才能正常工作。

為了提高語(yǔ)音識(shí)別的有效性，我們?cè)噲D通過(guò)直接在設(shè)備上運(yùn)行新模型，來(lái)避免通信網(wǎng)絡(luò)的延遲和不可靠性。因此，我們的端到端方法不需要在大型解碼器圖上進(jìn)行搜索。

相反，只通過(guò)單個(gè)神經(jīng)網(wǎng)絡(luò)的波束搜索進(jìn)行。我們訓(xùn)練的RNN-T提供與傳統(tǒng)的基于服務(wù)器的模型相同的精度，但只有450MB，可以更加智能地使用參數(shù)和打包信息。然而，即使在今天的智能手機(jī)上，450MB也不小了，并且，通過(guò)如此龐大的網(wǎng)絡(luò)傳輸信號(hào)依然很慢。

進(jìn)一步的，我們通過(guò)使用參數(shù)量化和混合內(nèi)核技術(shù)來(lái)縮小模型，我們?cè)?016年開(kāi)發(fā)了這一技術(shù)并在TensorFlow精簡(jiǎn)版庫(kù)上公開(kāi)提供了模型優(yōu)化工具包。

模型量化相對(duì)于訓(xùn)練的浮點(diǎn)模型提供4倍壓縮，在運(yùn)行時(shí)提供4倍加速，使我們的RNN-T比單核上的實(shí)時(shí)語(yǔ)音運(yùn)行得更快。壓縮后，我們模型的最終大小達(dá)到了80MB。

終于，當(dāng)當(dāng)當(dāng)，我們的新型設(shè)備端神經(jīng)網(wǎng)絡(luò)Gboard語(yǔ)音識(shí)別器上線了。最初的版本，我們僅提供英語(yǔ)語(yǔ)言，適配所有Pixel手機(jī)。鑒于行業(yè)趨勢(shì)，隨著專業(yè)硬件和算法改進(jìn)的融合，我們希望這里介紹的技術(shù)可以很快用于更多語(yǔ)言和更廣泛的應(yīng)用領(lǐng)域。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴