91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

簡單粗暴而有效的改圖:自動語音識別數(shù)據(jù)擴增的“一條野路”

電子工程師 ? 來源:工程師李察 ? 2019-05-05 11:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

神經(jīng)網(wǎng)絡的調(diào)參無疑是一個巨大的工程。

如何在調(diào)參之前擁有更佳的表現(xiàn)?千辛萬苦調(diào)好了但卻過擬合,如何擁有更好的泛化能力?這無疑是人肉調(diào)參的必經(jīng)之痛。一個通用的認知是,訓練數(shù)據(jù)會限制模型表現(xiàn)的上限,能擁有更好的訓練數(shù)據(jù),無疑成功了一大截兒。

近日,Daniel S. Park 等人在自動語音識別(Automatic Speech Recognition,ASR)模型訓練上,找到了一種簡單卻強大的數(shù)據(jù)增強方法——SpecAugment。該操作另辟蹊徑,將原始語音數(shù)據(jù)生成的梅爾倒譜圖直接進行圖像變換,擴增訓練數(shù)據(jù),化腐朽為神奇,結(jié)果很棒。

啥是自動語音識別

自動語音識別,即依托深度神經(jīng)網(wǎng)絡模型將語音自動識別為文本輸入,無論是 Siri 助手還是微軟小冰,抑或占據(jù)生活一部分的微信,都有它的身影,相信這個時代的你也早已習慣用語音轉(zhuǎn)輸入解放雙手。

傳統(tǒng) ASR 模型的原始輸入數(shù)據(jù)一般先經(jīng)過預處理,將收集的音波轉(zhuǎn)化為頻譜圖如梅爾倒頻譜,也即梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC,一定程度上模擬了人耳對聲音的處理特點)的譜圖。

簡單粗暴而有效的改圖:自動語音識別數(shù)據(jù)擴增的“一條野路”

圖 | 音波轉(zhuǎn)化為梅爾倒頻譜圖結(jié)果示意圖(來源:Daniel S. Park,et al./ Google Brain)

梅爾倒譜的一般流程是將聲音信號進行傅立葉轉(zhuǎn)換得到頻譜,再進行取對數(shù)以及取逆傅立葉變換。

傳統(tǒng) ASR 模型擴增數(shù)據(jù)一般是將收集到的音波進行改變加速、減速、加背景噪音等變換來進行數(shù)據(jù)集的豐富,最后,這種擴增后的音頻也要轉(zhuǎn)化為頻譜圖。

然而,直接改變頻譜圖進行數(shù)據(jù)擴增,能否提升模型表現(xiàn)?畢竟,圖像領域的擴增手段十分豐富,直接將頻譜作為圖像用一定手段進行變換結(jié)果如何?

Daniel S. Park 等人的 SpecAugment 方法證明,這是一個簡單易行的好路子,可以實現(xiàn)在線訓練,計算成本低廉無需額外數(shù)據(jù),還能使 ASR 任務 LibriSpeech 960h(語音識別技術(shù)的最權(quán)威主流的開源數(shù)據(jù)集,包括近 1000 小時的英文發(fā)音和對應文字)和 Switchboard 300h(交換機電話語音語料庫)比目前最佳模型的表現(xiàn)更好。

SpecAugment 的“出彩”之處

首先,在模型訓練之前將輸入數(shù)據(jù)——音頻數(shù)據(jù)的梅爾倒譜,進行圖像處理,這也是 SpecAugment 這條野路出彩的基礎。即對梅爾倒頻譜的橫軸一段時間步長的頻譜進行左或右扭轉(zhuǎn)翹曲、或者掩蔽一段時長的譜圖(時間屏蔽,對縱向進行掩蔽)、或是某些梅爾頻率的信號(頻率屏蔽,對橫向進行掩蔽),得到了一系列的擴增樣本。

這樣的處理使得模型能夠?qū)W習到時間軸上發(fā)生損失變形的音頻、部分頻率缺失的音頻,以及丟失部分語音片段的音頻的特點,增加了訓練模型對這些信息的處理能力,也增強模型的泛化能力。

簡單粗暴而有效的改圖:自動語音識別數(shù)據(jù)擴增的“一條野路”

圖 | 梅爾倒頻譜的擴增變換手段:從上到下依次為沒有應用增強、一定時間步長的扭曲,頻率屏蔽和時間屏蔽。(來源:Daniel S. Park,et al/ Google Brain)

模型訓練

輸入數(shù)據(jù)處理完畢后,訓練語音識別模型,這里采用 LAS(Listen Attend and Spell networks)模型。LAS 模型主要是由 Listener 和 Speller 兩個子模型組成,其中 Listener 是一個聲學編碼器(Encoder,收集數(shù)據(jù),相當于“聽”),Speller 是一個基于注意力機制的解碼器(Decoder,將收集的特征翻譯成字符,相當于“說”)

訓練 SpecAugment 的 Listener 子模型:輸入的梅爾倒譜首先經(jīng)兩層卷積神經(jīng)網(wǎng)絡(CNN),經(jīng)最大池化且步幅為 2,得到的結(jié)果輸入到 BLSTM(雙向長短期交替記憶模型)中,產(chǎn)生尺寸為 d x w 的基于注意力機制的特征。

訓練 SpecAugment 的 Speller 子模型:將上一步驟中基于注意力機制產(chǎn)生的特征向量輸入到一個二層 RNN(Recurrent Neural Network)模型中,訓練集中的文本已用 WPM(Word Piece Model)進行了 token 處理,利用集束搜索(Beam Search),集束寬為 8,得到 token 表示的預測文本(token 處理即分詞處理,之后進行詞嵌入,自然語言處理利用詞嵌入來將詞向量化表示)。至此,實現(xiàn)語音轉(zhuǎn)文本過程。

提升表現(xiàn)

比較訓練集擴增前后訓練出的 LAS 模型在測試集上的詞錯誤率(Word Error Rate,WER),不改變?nèi)魏纬瑓?shù),測試結(jié)果錯詞率顯著降低,可見無需調(diào)參,擴增訓練集效果明顯。

簡單粗暴而有效的改圖:自動語音識別數(shù)據(jù)擴增的“一條野路”

圖 | 擴增訓練集與否的兩個模型在數(shù)據(jù)集 LibriSpeech 上有噪音測試集和無噪音測試集的表現(xiàn)。(來源:Daniel S. Park,et al/ Google Brain)

對于過擬合問題,雖然訓練集上利用擴增的模型表現(xiàn)與無擴增相差并不是很多,但在開發(fā)集上,WER 有明顯的降低,說明模型泛化能力提升,可以預測未訓練過的數(shù)據(jù),過擬合得到解決。

簡單粗暴而有效的改圖:自動語音識別數(shù)據(jù)擴增的“一條野路”

圖 | 擴增訓練集與否的兩個模型在訓練集、有噪音開發(fā)集和無噪音開發(fā)集集上的表現(xiàn)(來源:Daniel S. Park,et al/ Google Brain)

這個模型啥水平?

1)優(yōu)于現(xiàn)有最佳 ASR 模型

擴增訓練集后調(diào)整模型參數(shù)以及適當訓練迭代,使得模型表現(xiàn)達到最佳,在數(shù)據(jù)集 LibriSpeech 960h 和 Switchboard 300h 有無噪音的測試集上,擴增模型表現(xiàn)與現(xiàn)有最佳模型的錯詞率結(jié)果對比發(fā)現(xiàn),擴增方法明顯取勝。無論是傳統(tǒng) ASR 模型(如 HMM)還是端到端的神經(jīng)網(wǎng)絡模型(如 CTC/ASG),采用 SpecAugment 方法訓練后的 LAS 模型表現(xiàn)都明顯更好。

簡單粗暴而有效的改圖:自動語音識別數(shù)據(jù)擴增的“一條野路”

圖 | LibriSpeech 960h 和 Switchboard 300h 數(shù)據(jù)集上不同模型的表現(xiàn)(來源:Daniel S. Park,et al/ Google Brain)

2)優(yōu)于利用語言模型的 ASR 模型

引入利用大量純文本語料庫訓練的語言模型(Language Models,LMs)能夠使 ASR 模型效果大大提升,因為可以用語料庫中的大量信息使模型功能更強,這也是 ASR 任務的一個通用做法。語言模型一般是獨立訓練的,使用 ASR 模型時需要占據(jù)一定內(nèi)存進行存儲,這使其難以在小型設備上應用。而 SpecAugment 模型的優(yōu)勢是,即使不利用語言模型也優(yōu)于現(xiàn)有引入語言模型的 ASR 模型。這意味著語言模型的大內(nèi)存問題,有了解決之路。

簡單粗暴而有效的改圖:自動語音識別數(shù)據(jù)擴增的“一條野路”

圖 | LibriSpeech 960h 和 Switchboard 300h 數(shù)據(jù)集上不同 ASR 模型引入語言模型有否的表現(xiàn)(來源:Daniel S. Park,et al/ Google Brain)

總結(jié),利用改變頻譜圖的方式擴增音頻數(shù)據(jù)樣本,訓練出的 ASR 模型表現(xiàn)極佳,優(yōu)于現(xiàn)有最好模型,甚至超過引入語言模型,很好用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡

    關(guān)注

    42

    文章

    4839

    瀏覽量

    107948
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1812

    瀏覽量

    116129
  • 圖像變換
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    1623

原文標題:簡單粗暴而有效的改圖:自動語音識別數(shù)據(jù)擴增的“一條野路”

文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    文了解語音AI的運作方式

    語音 AI 是對話式 AI 的個子集,包括可將人類語音轉(zhuǎn)換為文本的自動語音識別 (ASR) 和
    的頭像 發(fā)表于 02-27 16:10 ?412次閱讀
    <b class='flag-5'>一</b>文了解<b class='flag-5'>語音</b>AI的運作方式

    管理型工業(yè)交換機中,個被低估的重要功能

    很多網(wǎng)絡工程師會遇到同個問題:一條網(wǎng)線夠不夠用?一條斷了怎么辦?尤其是在工業(yè)場景中,網(wǎng)絡旦不穩(wěn)定,輕則
    的頭像 發(fā)表于 02-04 09:41 ?189次閱讀
    管理型工業(yè)交換機中,<b class='flag-5'>一</b>個被低估的重要功能

    瑞芯微(EASY EAI)RV1126B 語音識別

    1.語音識別簡介語音識別技術(shù),也被稱為自動語音識別
    的頭像 發(fā)表于 01-21 10:43 ?897次閱讀
    瑞芯微(EASY EAI)RV1126B <b class='flag-5'>語音</b><b class='flag-5'>識別</b>

    語音識別IC分類,語音識別芯片的工作原理

    語音識別芯片,也叫語音識別集成電路,是種集聲音存儲、播放、錄音及語音
    的頭像 發(fā)表于 01-14 15:22 ?286次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>IC分類,<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片的工作原理

    AIDC:自動識別數(shù)據(jù)的未來趨勢與算力基石的雙重演進

    在數(shù)字化轉(zhuǎn)型浪潮席卷全球的背景下,自動識別數(shù)據(jù)采集(AIDC)技術(shù)不僅是連接物理世界與數(shù)字系統(tǒng)的“眼睛”,更是各行業(yè)提升效率的核心引擎。與此同時,隨著人工智能的爆發(fā),AI數(shù)據(jù)中心(同樣縮寫為AIDC)作為承載這些海量
    的頭像 發(fā)表于 12-30 16:56 ?1923次閱讀

    語音識別芯片有哪些(語音識別芯片AT680系列)

    在人工智能技術(shù)飛速發(fā)展的今天,語音識別芯片作為人機交互的重要橋梁,正逐漸成為各類智能設備不可或缺的核心部件。與傳統(tǒng)的語音芯片不同,語音識別
    的頭像 發(fā)表于 11-14 17:11 ?1424次閱讀

    什么是離線語音識別芯片(離線語音識別芯片有哪些優(yōu)點)

    離線語音識別芯片,是種集成了語音信號采集、前端處理和本地識別功能的專用集成電路,無須聯(lián)網(wǎng)也可以進行語音
    的頭像 發(fā)表于 10-31 15:27 ?549次閱讀

    如何選擇合適的語音識別芯片型號

    語音識別芯片(又稱語音識別IC)是現(xiàn)代智能設備的核心組件,與傳統(tǒng)語音芯片相比,其最大特點是能夠主動識別
    的頭像 發(fā)表于 10-30 16:32 ?649次閱讀

    端到端語音交互數(shù)據(jù) 精準賦能語音大模型進階

    語音大模型從“能識別”向“懂語境”跨越的關(guān)鍵階段,高質(zhì)量場景化語音數(shù)據(jù)已成為制約技術(shù)突破的核心瓶頸。傳統(tǒng)語音
    的頭像 發(fā)表于 09-11 17:17 ?780次閱讀

    瑞芯微RK3576語音識別算法

    1.語音識別簡介語音識別技術(shù),也被稱為自動語音識別
    的頭像 發(fā)表于 08-15 15:13 ?2248次閱讀
    瑞芯微RK3576<b class='flag-5'>語音</b><b class='flag-5'>識別</b>算法

    使用aicube進行目標檢測識別數(shù)字項目的時候,在評估環(huán)節(jié)卡住了,怎么解決?

    使用aicube進行目標檢測識別數(shù)字項目的時候,前面切正常 但是在評估環(huán)節(jié)卡住了,直顯示正在測試,但是完全沒有測試結(jié)果, 在部署完模型后在k230上運行也沒有任何識別結(jié)果 期
    發(fā)表于 08-13 06:45

    語音識別---大家怎么看呢?

    語音識別門交叉學科。近二十年來,語音識別技術(shù)取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內(nèi),
    發(fā)表于 08-09 10:54

    EASY EAl Orin Nano(RK3576) whisper語音識別訓練部署教程

    1Whisper簡介Whisper是OpenAI開源的,識別語音識別能力已達到人類水準自動語音識別
    的頭像 發(fā)表于 07-25 15:21 ?891次閱讀
    EASY EAl Orin Nano(RK3576) whisper<b class='flag-5'>語音</b><b class='flag-5'>識別</b>訓練部署教程

    EASY EAl Orin Nano(RK3576) whisper語音識別訓練部署教程

    Whisper是OpenAI開源的,識別語音識別能力已達到人類水準自動語音識別系統(tǒng)。Whispe
    的頭像 發(fā)表于 07-17 14:55 ?1819次閱讀
    EASY EAl Orin Nano(RK3576) whisper<b class='flag-5'>語音</b><b class='flag-5'>識別</b>訓練部署教程

    CYUSB3014采用5根地址線通信,但其中一條地址線懸空,對數(shù)據(jù)通信有影響嗎?

    CYUSB3014采用5根地址線通信,但其中一條地址線懸空,對數(shù)據(jù)通信有影響嗎??是否還能進行正常的多個端點通信,只要跳過那個地址線對應的socket即可?
    發(fā)表于 05-21 07:59