中文字幕三区免费永久,欧美国产日韩一区二区三区四区,免费无码不卡一区二区三区四区

在語音識別領域先進的神經網絡一般使用rnn來構建聲學或者語言模型，并基于特征抽取的方式來進行抽取梅爾濾波器特征或者倒譜系數(shù)。但在最近的研究工作中，F(xiàn)acebook的研究人員提出了完全基于卷積神經網絡的全卷積語音識別模型，充分利用了在聲學模型和語言模型方面的最新進展。這一全卷積神經網絡通過端到端的訓練可以直接從原始波形預測出語言字符，移除了特征抽取的過程。同時利用一個外部的卷積語言模型來進行單詞解碼。這一模型在多個數(shù)據(jù)集上都取得了優(yōu)異的表現(xiàn)。

模型

整個模型由四部分組成，分別是卷積前端、聲學模型、語言模型和集束搜索的解碼器（Beam-search）組成，如下圖所示。

在可學習的前端中，原始音頻首先輸入到一個寬度為2的卷積中，用于模仿梅爾濾波器特征中的前處理步驟。隨后應用了寬度為25ms的k復卷積濾波器。隨后利用平方取絕對值并通過低通濾波器，其寬度為25ms步長為10ms。最后利用對數(shù)壓縮，并對每個通道進行了均方歸一化。緊隨其后的是聲學模型，包含了線性門的卷積神經網絡，同時使用了dropout來實現(xiàn)正則化。這一模型的目的在于直接預測出字母。在隨后的語言模型中，研究人員利用了GCNN-14B，其中包含了14個卷積殘差模塊和逐漸增長的通道數(shù)，并利用了線性門控單元作為激活函數(shù)。語言模型的主要目的在于為備選的句子輸出打分，這一模型允許更大的上下文。最后，基于集束搜索的解碼器用于生成最合適的句子輸出。

其工作的過程在于最大化上面的表達式。

工具

這一模型的實現(xiàn)使用了Facebook最新開源的兩個工具：其中使用了wav2letter建立聲學模型，fairseq建立了語言模型。

fairseq 原理圖

同時推出的升級版深度學習自動語音識別工具框架wav2letter++，在之前wav2letter的基礎上進行和很多的改進和優(yōu)化。