91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在語音處理中,通過使用大數(shù)據(jù)可以輕松解決很多任務

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2020-09-23 17:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在語音處理中,通過使用大量數(shù)據(jù)可以輕松解決很多任務。例如,將語音轉(zhuǎn)換為文本的 自動語音識別 (Automatic Speech Recognition,ASR)。相比之下,“非語義”任務側(cè)重于語音中含義以外的其他方面,如“副語言(Paralinguistic)”任務中包含了語音情感識別等其他類型的任務,例如發(fā)言者識別、語言識別和某些基于語音的醫(yī)療診斷。完成這些任務的訓練系統(tǒng)通常利用盡可能大的數(shù)據(jù)集來確保良好結(jié)果。然而,直接依賴海量數(shù)據(jù)集的機器學習技術(shù)在小數(shù)據(jù)集上進行訓練時往往不太成功。

為了縮小大數(shù)據(jù)集和小數(shù)據(jù)集之間的性能差距,可以在大數(shù)據(jù)集上訓練 表征模型 (Representation Model),然后將其轉(zhuǎn)移到小數(shù)據(jù)集的環(huán)境中。表征模型能夠通過兩種方式提高性能:將高維數(shù)據(jù)(如圖像和音頻)轉(zhuǎn)換到較低維度進而訓練小模型,而且表征模型還可以用作預訓練。此外,如果表征模型小到可以在設(shè)備端運行或訓練,就能讓原始數(shù)據(jù)始終保留在設(shè)備中,在為用戶提供個性化模型好處的同時,以保護隱私的方式提高性能。雖然表征學習已普遍用于文本領(lǐng)域(如 BERT和 ALBERT)和圖像領(lǐng)域(如 Inception 層 和 SimCLR),但這種方法在語音領(lǐng)域尚未得到充分利用。

下:使用大型語音數(shù)據(jù)集訓練模型,然后將其推廣到其他環(huán)境;左上:設(shè)備端個性化 - 個性化的設(shè)備端模型將安全和隱私相結(jié)合;中上:嵌入向量的小模型 - 通用表征將高維度、少示例的數(shù)據(jù)集轉(zhuǎn)換到低維度,同時不降低準確率;較小的模型訓練速度更快,并且經(jīng)過正則化。右上:全模型微調(diào) - 大數(shù)據(jù)集可以使用嵌入向量模型作為預訓練以提高性能

如果沒有一個衡量“語音表征有用性”的標準基準,就很難顯著地改進通用表征,尤其是對于非語義語音任務。盡管 T5框架系統(tǒng)地評估了文本嵌入向量,并且視覺領(lǐng)域任務自適應基準 (VTAB) 對圖像嵌入向量評估進行了標準化,兩者均促進了相應領(lǐng)域表征學習的進展,但對于非語義語音嵌入向量卻沒有類似基準。

在“Towards Learning a Universal Non-Semantic Representation of Speech”中,我們對語音相關(guān)應用的表征學習做出了三項努力:

提出一個比較語音表征的非語義語音 (NOn-Semantic Speech,NOSS) 基準,其中包括多樣化的數(shù)據(jù)集和基準任務,例如語音情感識別、語言識別和發(fā)言者識別。這些數(shù)據(jù)集可在TensorFlow Datasets 的“音頻”部分中找到。

創(chuàng)建并開源了 TRIpLet Loss 網(wǎng)絡 (TRILL),此全新模型小到可以在設(shè)備端執(zhí)行和微調(diào),同時仍然優(yōu)于其他表征模型。

進行了大規(guī)模研究來比較不同的表征,并開源了用于計算新表征性能的代碼。

Towards Learning a Universal Non-Semantic Representation of Speech
https://arxiv.org/abs/2002.12764

這些數(shù)據(jù)集
https://tensorflow.google.cn/datasets/catalog/overview#audio

TensorFlow Datasets
https://tensorflow.google.cn/datasets/

TRIpLet Loss 網(wǎng)絡
https://aihub.cloud.google.com/s?q=nonsemantic-speech-benchmark

開源
https://github.com/google-research/google-research/tree/master/non_semantic_speech_benchmark

語音嵌入向量的新基準

為了能夠有效指導模型開發(fā),基準必須包含具有類似解決方案的任務,并排除存在顯著差異的任務。既往工作或為獨立處理各種潛在語音任務,或為將語義任務和非語義任務歸納在一起。我們的工作在一定程度上通過關(guān)注在語音任務子集上表現(xiàn)良好的神經(jīng)網(wǎng)絡架構(gòu),提高了非語義語音任務的性能。

NOSS 基準的任務選擇依據(jù):

多樣性 - 需要覆蓋一系列使用案例;

復雜性 - 應該具有挑戰(zhàn)性;

可用性,特別強調(diào)開源任務。

我們結(jié)合了具有不同規(guī)模和任務的六個數(shù)據(jù)集。

下游基準任務的數(shù)據(jù)集

*我們的研究使用根據(jù)內(nèi)部政策篩選的數(shù)據(jù)集子集計算 VoxCeleb 結(jié)果

我們還引入了三個額外的演講者內(nèi)部任務,并測試個性化場景下的性能。在具有 k 個演講者的某些數(shù)據(jù)集中,我們可以創(chuàng)建 k 個不同的任務,只針對單一演講者進行訓練和測試。整體性能是各演講者的平均值。三個額外的演講者內(nèi)部任務衡量了嵌入向量適應特定演講者的能力,這是個性化設(shè)備端模型的必要能力。隨著 ML 向智能手機物聯(lián)網(wǎng)延伸,這些模型變得越來越重要。

為了幫助研究人員比較語音嵌入向量,我們已經(jīng)將基準中的六個數(shù)據(jù)集添加到 TensorFlow Datasets 中(在“音頻”部分),并開源了評估框架。

將基準中的六個數(shù)據(jù)集添加到 TensorFlow Datasets 中
https://tensorflow.google.cn/datasets/catalog/overview#audio

開源了評估框架
https://github.com/google-research/google-research/tree/master/non_semantic_speech_benchmark

TRILL:非語義語音分類的新技術(shù)

在語音領(lǐng)域中,從一個數(shù)據(jù)集學習嵌入向量并將其應用到其他任務不如其他模式中那樣普遍。然而,使用一項任務的數(shù)據(jù)幫助另一項任務(不一定是嵌入向量)的遷移學習,作為一種更為通用的技術(shù),具有一些引人注目的應用,例如個性化語音識別器和少量樣本的語音模仿:文本到語音的轉(zhuǎn)換。過去已經(jīng)有多種語音表征,但其中大多是在較小規(guī)模和較低多樣性的數(shù)據(jù)上進行訓練,或主要在語音識別上進行測試,或兩者皆有。

我們基于約 2500 小時語音的大型多樣化數(shù)據(jù)集 AudioSet 為起點,創(chuàng)建跨環(huán)境和任務的實用數(shù)據(jù)衍生語音表征。我們通過先前的度量學習工作得出簡單的自監(jiān)督標準,在此標準上訓練嵌入向量模型 - 來自相同音頻的嵌入向量在嵌入向量空間中應該比來自不同音頻的嵌入向量更為接近。與 BERT 和其他文本嵌入向量類似,自監(jiān)督損失函數(shù)不需要標簽,只依賴于數(shù)據(jù)本身的結(jié)構(gòu)。這種自監(jiān)督形式最適合非語義語音,因為非語義現(xiàn)象在時間上比 ASR 和其他亞秒級語音特征更穩(wěn)定。這種簡單的自監(jiān)督標準捕獲了下游任務所用的大量聲學特性。

AudioSet
https://research.google.com/audioset/

TRILL 損失:來自相同音頻的嵌入向量在嵌入空間中比來自不同音頻的嵌入向量更為接近

TRILL 架構(gòu)基于 MobileNet,其速度適合在移動設(shè)備上運行。為了在這種小架構(gòu)上實現(xiàn)高準確率,我們在不降低性能的同時從更大的 ResNet50 模型中提取出嵌入向量。

基準結(jié)果

我們首先比較了 TRILL 與其他深度學習表征的性能。這些表征并不局限于語音識別,并在類似的不同數(shù)據(jù)集上進行訓練。此外,我們還將 TRILL 與熱門的 OpenSMILE 特征提取器進行比較。OpenSMILE 使用預深度學習技術(shù)(如:傅里葉變換系數(shù)、使用基音測量的時間序列的“基音跟蹤”等)以及隨機初始化網(wǎng)絡,這些技術(shù)已被證明是強大的基線。

為了對不同性能特征的任務進行性能匯總,我們首先針對給定的任務和嵌入向量訓練少量的簡單模型,選擇最佳結(jié)果。然后,為了了解特定嵌入向量對所有任務的影響,我們以模型和任務為解釋變量,對觀察到的精度進行了線性回歸計算。模型對準確率的影響即為回歸模型中的相關(guān)系數(shù)。對于給定任務,從一種模型切換到另一種模型時,產(chǎn)生的準確率變化的差異預計為下圖中 y 值。

對模型準確率的影響

在我們的研究中,TRILL 性能優(yōu)于其他表征。TRILL 的成功在于訓練數(shù)據(jù)集的多樣性、網(wǎng)絡的上下文大窗口以及 TRILL 訓練損失的通用性,最后一項因素保留了大量聲學特征,而不是過早地關(guān)注特定方面。需要注意的是,來自網(wǎng)絡層的中間表征往往更具有通用性。中間表征更大,時間粒度更細,在分類網(wǎng)絡的情況下,它們保留了更通用的信息,而不像訓練它們的類那樣具體。

通用模型的另一個優(yōu)勢是可以在新任務上初始化模型。當新任務的樣本量較小時,相較于從頭訓練模型,對現(xiàn)有模型進行微調(diào)可能會獲得更好的結(jié)果。盡管沒有針對特定數(shù)據(jù)集進行超參數(shù)調(diào)整,但使用此技術(shù),我們?nèi)匀辉诹鶄€基準任務的三個任務上取得了新的 SOTA 結(jié)果。

為了更新的表征,我們還在Interspeech 2020 Computational Paralinguistics Challenge (ComParE) 的口罩賽道中進行了測試。在挑戰(zhàn)中,模型必須預測發(fā)言者是否佩戴口罩,因為口罩會影響語音。口罩的影響有時微乎其微,并且音頻片段只有一秒。TRILL 線性模型表現(xiàn)比基線模型更好的性能,該模型融合了許多不同模型的特征,如傳統(tǒng)的光譜和深度學習特征。

Interspeech 2020 Computational Paralinguistics Challenge (ComParE)
http://www.compare.openaudio.eu/compare2020/

基線模型
http://compare.openaudio.eu/wp-content/uploads/2020/05/INTERSPEECH_2020_ComParE.pdf

總結(jié)

評估 NOSS 的代碼位于 GitHub,數(shù)據(jù)集位于 TensorFlow Datasets,TRILL 模型位于 AI Hub。

GitHub
https://github.com/google-research/google-research/tree/master/non_semantic_speech_benchmark

TensorFlow Datasets
https://tensorflow.google.cn/datasets/catalog/overview#audio

AI Hub
https://aihub.cloud.google.com/s?q=nonsemantic-speech-benchmark

非語義語音基準可幫助研究人員創(chuàng)建語音嵌入向量,適用于包括個性化和小數(shù)據(jù)集問題的各種環(huán)境。我們將 TRILL 模型提供給研究界,作為等待超越的基線嵌入向量。

致謝

這項工作的核心團隊包括 Joel Shor、Aren Jansen、Ronnie Maor、Oran Lang、Omry Tuval、Felix de Chaumont Quitry、Marco Tagliasacchi、Ira Shavitt、Dotan Emanuel 和 Yinnon Haviv。我們還要感謝 Avinatan Hassidim 和 Yossi Matias 的技術(shù)指導。

原文標題:通過自監(jiān)督學習對語音表征與個性化模型進行改善

文章出處:【微信公眾號:TensorFlow】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    9065

    瀏覽量

    143784
  • 語言識別
    +關(guān)注

    關(guān)注

    0

    文章

    15

    瀏覽量

    4995

原文標題:通過自監(jiān)督學習對語音表征與個性化模型進行改善

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    STM32開發(fā)的五大嵌入式系統(tǒng)

    ,具有良好的可移植性,可以輕松移植到不同的硬件平臺上。 2.多任務處理能力:μC/OS-!支持多任務并發(fā)執(zhí)行,
    發(fā)表于 01-21 10:48

    一文說透了如何實現(xiàn)單片機的多任務并發(fā)!

    嵌入式系統(tǒng)開發(fā),多任務并發(fā)是非常常見的,對于處理復雜的應用場景、提升系統(tǒng)的并發(fā)能力、提高系統(tǒng)的實時性等方面都有很大好處。單片機
    發(fā)表于 01-06 06:46

    大數(shù)據(jù)解決方案如何實施

    大數(shù)據(jù)解決方案實施的難點在于以下幾點: ?1.很少有優(yōu)質(zhì)可用的數(shù)據(jù) ?在數(shù)聚股份看來,這幾年數(shù)據(jù)交易機構(gòu)如雨后春筍,“數(shù)據(jù)變現(xiàn)”成為很多擁有
    的頭像 發(fā)表于 12-25 18:22 ?1061次閱讀

    多任務系統(tǒng),如何平衡任務調(diào)度以防止因高負載導致的再次進入低功耗模式的延遲?

    多任務系統(tǒng),如何平衡任務調(diào)度以防止因高負載導致的再次進入低功耗模式的延遲?
    發(fā)表于 12-04 06:37

    一句話,多個命令同時執(zhí)行,AI語音模組也能多任務處理

    、 Ai-WV02-32S ? 將語音識別、喚醒、語義理解等核心功能, 濃縮在一顆小小的模組。 安信可AI語音模組支持 MCP 協(xié)議(Multi Command Processing,多命令并行
    的頭像 發(fā)表于 10-31 14:45 ?533次閱讀
    一句話,多個命令同時執(zhí)行,AI<b class='flag-5'>語音</b>模組也能<b class='flag-5'>多任務</b><b class='flag-5'>處理</b>?

    愛普科技PSRAM加速wisun無線模塊多任務處理

    愛普科技256Mb PSRAM(如APS256XXN-OBR-BG)為WiSUN無線模塊提供高速數(shù)據(jù)緩存與臨時存儲解決方案,其166MHz速率、1.8V低功耗及小尺寸封裝顯著提升模塊智能電網(wǎng)、工業(yè)自動化
    的頭像 發(fā)表于 10-14 09:25 ?392次閱讀
    愛普科技PSRAM加速wisun無線模塊<b class='flag-5'>多任務</b><b class='flag-5'>處理</b>

    輕松配置小智AI語音開發(fā)板,安信可IOT小程序功能更新

    安信可科技:安信可發(fā)布的 AI 語音開發(fā)板,可以通過配套的小程序,完成網(wǎng)絡配置、音色選擇等多項配置,無需復雜代碼,輕松實現(xiàn)AI語音體驗。 用
    的頭像 發(fā)表于 08-19 17:46 ?1320次閱讀
    <b class='flag-5'>輕松</b>配置小智AI<b class='flag-5'>語音</b>開發(fā)板,安信可IOT小程序功能更新

    增加語音控制功能關(guān)注這幾顆芯片輕松搞定

    呢?因為可以增加賣點,并且確實能夠提升用戶體驗。 ? 其實很多產(chǎn)品已經(jīng)集成了語音控制功能了,當然還有更多的產(chǎn)品需要去升級語音控制功能,像現(xiàn)在的消費級家電洗地機、智能門鎖、風扇、空調(diào)、油
    的頭像 發(fā)表于 08-19 16:46 ?936次閱讀

    EASY EAl Orin Nano(RK3576) whisper語音識別訓練部署教程

    Whisper是OpenAI開源的,識別語音識別能力已達到人類水準自動語音識別系統(tǒng)。Whisper作為一個通用的語音識別模型,它使用了大量的多語言和多任務的監(jiān)督
    的頭像 發(fā)表于 07-17 14:55 ?1784次閱讀
    EASY EAl Orin Nano(RK3576) whisper<b class='flag-5'>語音</b>識別訓練部署教程

    多任務處理卡頓頻發(fā),無風扇工控機如何優(yōu)化性能?聚徽廠家一文讀懂

    工業(yè)自動化、物聯(lián)網(wǎng)等領(lǐng)域的深度應用,無風扇工控機常常需要同時運行數(shù)據(jù)采集、實時監(jiān)控、程序控制等多個任務。然而,頻繁出現(xiàn)的多任務
    的頭像 發(fā)表于 06-03 15:25 ?826次閱讀

    快速入門——LuatOS:sys庫多任務管理實戰(zhàn)攻略!

    嵌入式開發(fā),多任務管理是提升系統(tǒng)效率的關(guān)鍵。本教程專為快速入門設(shè)計,聚焦LuatOS的sys庫,通過實戰(zhàn)案例帶你快速掌握多任務創(chuàng)建、調(diào)度
    的頭像 發(fā)表于 05-29 14:36 ?865次閱讀
    快速入門——LuatOS:sys庫<b class='flag-5'>多任務</b>管理實戰(zhàn)攻略!

    明遠智睿SSD2351開發(fā)板:語音機器人領(lǐng)域的變革力量

    的四核1.4GHz處理器具備強勁的運算性能,能夠高效處理語音機器人運行過程的復雜任務。語音識別
    發(fā)表于 05-28 11:36

    藍牙語音遙控國產(chǎn)適用芯片HS6621

    智能家居的時代,科技正在改變我們的生活方式。藍牙語音遙控器,作為智能家居的關(guān)鍵組成部分,正在重新定義用戶與設(shè)備之間的互動方式。用戶對著藍牙語音遙控器,只要輕說一句話就可以搞定
    發(fā)表于 04-30 16:21

    明遠智睿SSD2351核心板語音對講與HMI領(lǐng)域的創(chuàng)新應用

    語音數(shù)據(jù)快速、穩(wěn)定地傳輸至接收端。SSD2351核心板通過以太網(wǎng)接口,能夠?qū)⒕幋a后的語音數(shù)據(jù)以高速率傳輸,延遲控制
    發(fā)表于 04-16 10:46

    iMX8DXL有什么方法可以使所有與SPI相關(guān)的任務單核工作?

    我們使用的是 iMX8DXL 處理器。有什么方法可以使所有與 SPI 相關(guān)的任務單核工作?請告訴我們是否有任何程序或示例
    發(fā)表于 03-31 06:47