91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Facebook發(fā)布全卷積神經網絡語音識別模型,開源語音處理深度學習工具包

nlfO_thejiangme ? 來源:lq ? 2018-12-26 09:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語音識別領域先進的神經網絡一般使用rnn來構建聲學或者語言模型,并基于特征抽取的方式來進行抽取梅爾濾波器特征或者倒譜系數(shù)。但在最近的研究工作中,F(xiàn)acebook的研究人員提出了完全基于卷積神經網絡的全卷積語音識別模型,充分利用了在聲學模型和語言模型方面的最新進展。這一全卷積神經網絡通過端到端的訓練可以直接從原始波形預測出語言字符,移除了特征抽取的過程。同時利用一個外部的卷積語言模型來進行單詞解碼。這一模型在多個數(shù)據(jù)集上都取得了優(yōu)異的表現(xiàn)。

模型

整個模型由四部分組成,分別是卷積前端、聲學模型、語言模型和集束搜索的解碼器(Beam-search)組成,如下圖所示。

在可學習的前端中,原始音頻首先輸入到一個寬度為2的卷積中,用于模仿梅爾濾波器特征中的前處理步驟。隨后應用了寬度為25ms的k復卷積濾波器。隨后利用平方取絕對值并通過低通濾波器,其寬度為25ms步長為10ms。最后利用對數(shù)壓縮,并對每個通道進行了均方歸一化。緊隨其后的是聲學模型,包含了線性門的卷積神經網絡,同時使用了dropout來實現(xiàn)正則化。這一模型的目的在于直接預測出字母。在隨后的語言模型中,研究人員利用了GCNN-14B,其中包含了14個卷積殘差模塊和逐漸增長的通道數(shù),并利用了線性門控單元作為激活函數(shù)。語言模型的主要目的在于為備選的句子輸出打分,這一模型允許更大的上下文。最后,基于集束搜索的解碼器用于生成最合適的句子輸出。

其工作的過程在于最大化上面的表達式。

工具

這一模型的實現(xiàn)使用了Facebook最新開源的兩個工具:其中使用了wav2letter建立聲學模型,fairseq建立了語言模型。

fairseq 原理圖

同時推出的升級版深度學習自動語音識別工具框架wav2letter++,在之前wav2letter的基礎上進行和很多的改進和優(yōu)化。

wav2letter++ 工具包架構

這一版的工具箱由C++實現(xiàn),并利用了ArrayFire張量庫來提高了運算效率。研究團隊表示,在某些情況下wav2letter++在訓練端到端的語音識別神經網絡時將提速2倍。

wav2letter++ 與其他語言工具的性能比較

端到端的語音識別使得其在多語言上的大規(guī)模應用變得可行。同時直接從原始音頻上進行學習可以充分發(fā)揮高質量音頻的效果。端到端的算法加上高效的工具框架,將有效促進這一領域的研究,希望全卷積神經網絡的語音識別和wav2letter工具為小伙伴們的研究帶來新的幫助。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4839

    瀏覽量

    107932
  • Facebook
    +關注

    關注

    3

    文章

    1432

    瀏覽量

    59013
  • 深度學習
    +關注

    關注

    73

    文章

    5600

    瀏覽量

    124460

原文標題:新模型、新工具,F(xiàn)acebook在語音識別領域的新動作!

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    面向嵌入式部署的神經網絡優(yōu)化:模型壓縮深度解析

    1.為什么需要神經網絡模型壓縮? 神經網絡已經成為解決復雜機器學習問題的強大工具。然而,這種能力往往伴隨著
    的頭像 發(fā)表于 02-24 15:37 ?5126次閱讀
    面向嵌入式部署的<b class='flag-5'>神經網絡</b>優(yōu)化:<b class='flag-5'>模型</b>壓縮<b class='flag-5'>深度</b>解析

    【新品發(fā)布】艾為重磅發(fā)布端側AI高性能NPU語音芯片,打造智能語音體驗新標桿

    數(shù)模龍頭艾為電子全新推出高性能NPU神經網絡智能語音處理芯片:AWA89601,集成音頻專用NPU(神經網絡處理器),通過聲音
    的頭像 發(fā)表于 01-07 18:33 ?426次閱讀
    【新品<b class='flag-5'>發(fā)布</b>】艾為重磅<b class='flag-5'>發(fā)布</b>端側AI高性能NPU<b class='flag-5'>語音</b>芯片,打造智能<b class='flag-5'>語音</b>體驗新標桿

    神經網絡的初步認識

    日常生活中的智能應用都離不開深度學習,而深度學習則依賴于神經網絡的實現(xiàn)。什么是神經網絡?
    的頭像 發(fā)表于 12-17 15:05 ?363次閱讀
    <b class='flag-5'>神經網絡</b>的初步認識

    自動駕駛中常提的卷積神經網絡是個啥?

    在自動駕駛領域,經常會聽到卷積神經網絡技術。卷積神經網絡,簡稱為CNN,是一種專門用來處理網格狀數(shù)據(jù)(比如圖像)的
    的頭像 發(fā)表于 11-19 18:15 ?2109次閱讀
    自動駕駛中常提的<b class='flag-5'>卷積</b><b class='flag-5'>神經網絡</b>是個啥?

    CNN卷積神經網絡設計原理及在MCU200T上仿真測試

    CNN算法簡介 我們硬件加速器的模型為Lenet-5的變型,網絡粗略分共有7層,細分共有13層。包括卷積,最大池化層,激活層,扁平層,連接層。下面是各層作用介紹:
    發(fā)表于 10-29 07:49

    NMSIS神經網絡庫使用介紹

    :   神經網絡卷積函數(shù)   神經網絡激活函數(shù)   連接層函數(shù)   神經網絡池化函數(shù)   Softmax 函數(shù)   
    發(fā)表于 10-29 06:08

    構建CNN網絡模型并優(yōu)化的一般化建議

    :Dropout層隨機跳過神經網絡模型中某些神經元之間的連接,通過隨機制造缺陷進行訓練提升整個神經網絡的魯棒性。 6)指定合理的學習率策
    發(fā)表于 10-28 08:02

    在Ubuntu20.04系統(tǒng)中訓練神經網絡模型的一些經驗

    模型。 我們使用MNIST數(shù)據(jù)集,訓練一個卷積神經網絡(CNN)模型,用于手寫數(shù)字識別。一旦模型
    發(fā)表于 10-22 07:03

    CICC2033神經網絡部署相關操作

    讀取。接下來需要使用擴展指令,完成神經網絡的部署,此處僅對第一層卷積+池化的部署進行說明,其余層與之類似。 1.使用 Custom_Dtrans 指令,將權重數(shù)據(jù)、輸入數(shù)據(jù)導入硬件加速器內。對于權重
    發(fā)表于 10-20 08:00

    如何在機器視覺中部署深度學習神經網絡

    圖 1:基于深度學習的目標檢測可定位已訓練的目標類別,并通過矩形框(邊界框)對其進行標識。 在討論人工智能(AI)或深度學習時,經常會出現(xiàn)“神經網絡
    的頭像 發(fā)表于 09-10 17:38 ?935次閱讀
    如何在機器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>神經網絡</b>

    基于開源鴻蒙的語音識別語音合成應用開發(fā)樣例

    本期內容由AI Model SIG提供,介紹了在開源鴻蒙中,利用sherpa_onnx開源三方庫進行ASR語音識別與TTS語音合成應用開發(fā)的
    的頭像 發(fā)表于 08-25 14:26 ?4172次閱讀
    基于<b class='flag-5'>開源</b>鴻蒙的<b class='flag-5'>語音</b><b class='flag-5'>識別</b>及<b class='flag-5'>語音</b>合成應用開發(fā)樣例

    廣和通發(fā)布自研端側語音識別模型FiboASR

    7月,全球領先的無線通信模組及AI解決方案提供商廣和通,發(fā)布其自主研發(fā)的語音識別模型FiboASR。該模型專為端側設備上面臨的面對面實時對
    的頭像 發(fā)表于 08-04 11:43 ?1645次閱讀

    明遠智睿SSD2351開發(fā)板:語音機器人領域的變革力量

    。 開發(fā)板支持浮點運算,這對于語音信號處理中的精確計算至關重要。在語音識別過程中,需要對語音信號的頻率、幅度等參數(shù)進行精確計算和分析,浮點運
    發(fā)表于 05-28 11:36

    AI神經網絡降噪算法在語音通話產品中的應用優(yōu)勢與前景分析

    隨著人工智能技術的快速發(fā)展,AI神經網絡降噪算法在語音通話產品中的應用正逐步取代傳統(tǒng)降噪技術,成為提升語音質量的關鍵解決方案。相比傳統(tǒng)DSP(數(shù)字信號處理)降噪,AI降噪具有更強的環(huán)境
    的頭像 發(fā)表于 05-16 17:07 ?1573次閱讀
    AI<b class='flag-5'>神經網絡</b>降噪算法在<b class='flag-5'>語音</b>通話產品中的應用優(yōu)勢與前景分析

    自動駕駛感知系統(tǒng)中卷積神經網絡原理的疑點分析

    語音識別等領域取得了顯著成就,并廣泛用于車輛自動駕駛的圖像目標識別中。 1.局部連接:CNN通過局部連接的方式減少了網絡自由參數(shù)的個數(shù),從而降低了計算復雜度,并使
    的頭像 發(fā)表于 04-07 09:15 ?876次閱讀
    自動駕駛感知系統(tǒng)中<b class='flag-5'>卷積</b><b class='flag-5'>神經網絡</b>原理的疑點分析