91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

思必馳人工智能:10篇論文被收錄在INTERSPEECH 2020

深圳市汽車電子行業(yè)協(xié)會(huì) ? 來(lái)源:深圳市汽車電子行業(yè)協(xié)會(huì) ? 作者:深圳市汽車電子行 ? 2020-11-10 09:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

國(guó)際頂級(jí)的語(yǔ)音技術(shù)圈會(huì)議INTERSPEECH 2020于10月25-30日在中國(guó)上海舉辦,本次會(huì)議主題為“Cognitive Intelligence for Speech Processing”。思必馳作為國(guó)內(nèi)領(lǐng)先的對(duì)話式人工智能平臺(tái)公司參加該國(guó)際頂會(huì),支持大會(huì)在這不平凡的2020年順利舉行,致力推進(jìn)產(chǎn)學(xué)研用的一體化進(jìn)程。

思必馳-上海交通大學(xué)智能人機(jī)交互聯(lián)合實(shí)驗(yàn)室

10篇論文被INTERSPEECH 2020收錄

INTERSPEECH 2020共接收有效論文總數(shù)2100余篇,實(shí)際收錄數(shù)量為1022篇。其中,思必馳-上海交通大學(xué)智能人機(jī)交互聯(lián)合實(shí)驗(yàn)室10篇論文被正式收錄,涉及說(shuō)話人識(shí)別、語(yǔ)音識(shí)別及合成、多模態(tài)語(yǔ)音分離、口語(yǔ)語(yǔ)義理解等多方面的技術(shù)創(chuàng)新研究。

10篇論文簡(jiǎn)要介紹如下:

《用于單通道多說(shuō)話人語(yǔ)音識(shí)別的上下文嵌入表示學(xué)習(xí)方法》

Learning Contextual Language Embeddings for Monaural Multi-talker Speech Recognition

端到端多說(shuō)話人語(yǔ)音識(shí)別是近年來(lái)的熱門話題。本文探討了利用上下文信息來(lái)提升多說(shuō)話人語(yǔ)音識(shí)別的性能。我們?cè)O(shè)計(jì)了嵌入表示學(xué)習(xí)模型來(lái)直接從多說(shuō)話人混合語(yǔ)音中準(zhǔn)確地提取上下文嵌入表示,同時(shí)進(jìn)一步提出了兩種高級(jí)的訓(xùn)練策略來(lái)改進(jìn)該新模型,即嵌入表示采樣和兩階段訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,我們的方法在多說(shuō)話人語(yǔ)音識(shí)別上取得了顯著改進(jìn),與端到端多說(shuō)話人語(yǔ)音識(shí)別的基線模型相比,本文提出的方法減少了相對(duì)25%的詞錯(cuò)誤率。

圖:基于上下文嵌入表示的多說(shuō)話人語(yǔ)音識(shí)別模型結(jié)構(gòu)

《在雞尾酒會(huì)中聆聽、觀察、理解:音頻-視頻-上下文的多模態(tài)語(yǔ)音分離》

Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation

多個(gè)說(shuō)話人同時(shí)說(shuō)話時(shí),人類可以通過聽混合語(yǔ)音,觀看說(shuō)話者并理解上下文信息,將注意力集中在感興趣的語(yǔ)音上。我們嘗試使用三種模態(tài)(視覺模態(tài)、語(yǔ)音模態(tài)以及上下文信息模態(tài))來(lái)解決與說(shuō)話者無(wú)關(guān)的語(yǔ)音分離問題。與以前的應(yīng)用純音頻/音視頻模態(tài)的方法相比,我們?cè)O(shè)計(jì)了特定模型來(lái)直接從語(yǔ)音混合中提取所有目標(biāo)說(shuō)話人的上下文語(yǔ)言信息,然后將這些提取的上下文知識(shí)通過適當(dāng)?shù)淖⒁饬C(jī)制進(jìn)一步合并到基于多模態(tài)信息的語(yǔ)音分離體系結(jié)構(gòu)中。實(shí)驗(yàn)表明,在新提出的基于上下文信息的語(yǔ)音分離模型上可以觀察到性能顯著改善。

圖:基于音頻-視頻-上下文的多模態(tài)語(yǔ)音分離示意圖

《多模態(tài)作用很大: Voxceleb數(shù)據(jù)集上的性能飛躍》

Multi-modality Matters: A Performance Leap on VoxCeleb

來(lái)自不同模態(tài)的信息通常相互補(bǔ)償。我們?cè)谡f(shuō)話人嵌入特征級(jí)別探索了視聽人員驗(yàn)證系統(tǒng)的不同信息融合策略和損失函數(shù)。我們?cè)谡f(shuō)話人嵌入特征級(jí)別上使用視聽知識(shí)的最佳系統(tǒng)在VoxCeleb1的三個(gè)公開測(cè)試列表上達(dá)到了0.585%,0.427%和0.735%的EER,這是該數(shù)據(jù)集上報(bào)告的最好的結(jié)果。此外,我們基于VoxCeleb1數(shù)據(jù)集構(gòu)建了一個(gè)嘈雜的測(cè)試集。我們?cè)谡f(shuō)話人嵌入特征級(jí)別使用數(shù)據(jù)增廣策略來(lái)幫助視聽系統(tǒng)區(qū)分噪聲和干凈的嵌入。通過這種數(shù)據(jù)增廣策略,所提出的視聽人員驗(yàn)證系統(tǒng)在嘈雜的測(cè)試集上取得了更好的效果。

圖:在帶噪測(cè)試集上的性能比較

《BERT聯(lián)合編碼詞混淆網(wǎng)絡(luò)和對(duì)話上下文的口語(yǔ)語(yǔ)義理解方法》

Jointly Encoding Word Confusion Network and Dialogue Context with BERT for Spoken Language Understanding

口語(yǔ)理解可以將自動(dòng)語(yǔ)音識(shí)別得到的假設(shè)轉(zhuǎn)換為結(jié)構(gòu)化的語(yǔ)義表示,語(yǔ)音識(shí)別錯(cuò)誤會(huì)使后續(xù)口語(yǔ)理解模塊的性能嚴(yán)重下降。為了緩解口語(yǔ)理解不確定性的問題,本文提出一種新穎的基于詞混淆網(wǎng)絡(luò)(WCN)和BERT預(yù)訓(xùn)練模型的口語(yǔ)語(yǔ)義理解模型(WCN-BERT SLU),對(duì)話上下文中的上一輪系統(tǒng)行為也被用作附加輸入。該模型對(duì)WCN和對(duì)話上下文進(jìn)行聯(lián)合編碼,在BERT架構(gòu)中集成了詞混淆網(wǎng)絡(luò)的結(jié)構(gòu)信息和語(yǔ)音識(shí)別的后驗(yàn)概率。在口語(yǔ)理解的基準(zhǔn)數(shù)據(jù)集DSTC2上進(jìn)行的實(shí)驗(yàn)表明,該方法大大優(yōu)于以前的最佳模型。

圖:與已發(fā)表結(jié)果在 DSTC2 數(shù)據(jù)集上的比較

《將部分共享神經(jīng)網(wǎng)絡(luò)應(yīng)用于基于對(duì)抗訓(xùn)練的說(shuō)話人驗(yàn)證領(lǐng)域自適應(yīng)》

Adversarial Domain Adaptation for Speaker Verification using PartiallyShared Network

我們使用領(lǐng)域?qū)褂?xùn)練來(lái)研究具有不同語(yǔ)言的數(shù)據(jù)集之間的領(lǐng)域自適應(yīng)策略。這種架構(gòu)可以幫助嵌入特征提取器學(xué)習(xí)域不變特征,同時(shí)不會(huì)犧牲說(shuō)話者辨別能力。在SRE16粵語(yǔ)和菲律賓語(yǔ)評(píng)估測(cè)試集上實(shí)現(xiàn)了約25.0%的相對(duì)平均等錯(cuò)誤率(EER)的改進(jìn)。

《基于雙重對(duì)抗領(lǐng)域自適應(yīng)的泛化重放攻擊檢測(cè)》

Dual-Adversarial Domain Adaptation for Generalized Replay Attack Detection

我們提出了對(duì)偶對(duì)抗領(lǐng)域自適應(yīng)的框架,通過使用兩個(gè)領(lǐng)域鑒別器分別對(duì)欺騙數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行細(xì)粒度的對(duì)齊,從而提高欺騙檢測(cè)的性能。實(shí)驗(yàn)表明:該框架對(duì)于通用的重放攻擊檢測(cè)更加地魯棒和有效。

《噪聲環(huán)境下通過半監(jiān)督音頻事件檢測(cè)模型訓(xùn)練的語(yǔ)音端點(diǎn)檢測(cè)器》

Voice activity detection in the wild via weakly supervised sound event detection

我們提出了兩種弱監(jiān)督訓(xùn)練的通用VAD模型,GPV-F和GPV-B。在真實(shí)場(chǎng)景的測(cè)試中,GPV-F模型比標(biāo)準(zhǔn)VAD模型提升很多,GPV-B模型也獲得和標(biāo)準(zhǔn)VAD模型可比的性能。

《神經(jīng)同態(tài)聲碼器》

Neural Homomorphic Vocoder

本文提出了神經(jīng)同態(tài)聲碼器(NHV),一種基于源-濾波器模型的神經(jīng)網(wǎng)絡(luò)聲碼器框架,能夠通過多分辨率 STFT 損失和對(duì)抗損失函數(shù)聯(lián)合進(jìn)行優(yōu)化,計(jì)算效率高,可控性和可解釋性好。

《基于雙編碼器多專家模型結(jié)構(gòu)的中英文語(yǔ)種混雜語(yǔ)音識(shí)別》

Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts

我們研究使用一種嶄新的端到端模型來(lái)進(jìn)行中英文語(yǔ)種混雜語(yǔ)音識(shí)別。實(shí)驗(yàn)結(jié)果表明,相比于基線的Transformer模型,我們的結(jié)構(gòu)可以取得大幅度的性能提升。

思必馳擁有全鏈路的軟硬一體化端到端語(yǔ)音交互系統(tǒng)能力,近年來(lái)不斷加碼源頭技術(shù)的持續(xù)創(chuàng)新,通過思必馳-上海交通大學(xué)智能人機(jī)交互聯(lián)合實(shí)驗(yàn)室、上交大蘇州智研院合作的共同努力,在模型泛化及快速定制能力、變幀率語(yǔ)音識(shí)別解碼技術(shù)、說(shuō)話人識(shí)別技術(shù)、超高壓縮比神經(jīng)網(wǎng)絡(luò)模型壓縮技術(shù)、多模態(tài)感知及理解和表達(dá)技術(shù)等方面,均有顯著突破。圍繞對(duì)話式AI能力,思必馳會(huì)不斷夯實(shí)“全鏈路智能對(duì)話”技術(shù)以及“高自由度定制”方案能力。未來(lái)也會(huì)持續(xù)加大對(duì)基礎(chǔ)源頭技術(shù)創(chuàng)新與核心產(chǎn)品能力升級(jí)的核心投入,持續(xù)提升AI+智能終端、AI+智慧服務(wù)的快速規(guī)?;芰Γ铀傧蚋嘈袠I(yè)場(chǎng)景縱深賦能。

思必馳xiaochi獲2020 AESR

“口音種類識(shí)別“冠軍和“口音英語(yǔ)語(yǔ)音識(shí)別”亞軍

2020 AESR,即“INTERSPEECH 2020口音英語(yǔ)語(yǔ)音識(shí)別挑戰(zhàn)賽(Interspeech2020 Accented English Speech Recognition)”,向參賽者開放八種口音英文數(shù)據(jù),設(shè)置了“Track1-口音種類識(shí)別”和“Track2-口音英語(yǔ)語(yǔ)音識(shí)別”兩個(gè)賽道。由思必馳組建的“xiaochi”隊(duì)伍表現(xiàn)優(yōu)異,分別獲得“口音種類識(shí)別”第一名(全球共30個(gè)隊(duì)伍參賽),和“口音英語(yǔ)語(yǔ)音識(shí)別”第二名(全球42個(gè)隊(duì)伍參賽)。

在“Track1-口音種類識(shí)別”技術(shù)挑戰(zhàn)賽中,參賽隊(duì)伍需要使用官方提供的各種口音英文的訓(xùn)練數(shù)據(jù),訓(xùn)練語(yǔ)種分類模型。xiaochi隊(duì)伍的準(zhǔn)確率高出第二名11個(gè)百分點(diǎn),最終摘得冠軍。

數(shù)據(jù)策略上,xiaochi對(duì)8種口音訓(xùn)練音頻進(jìn)行變語(yǔ)速數(shù)據(jù)增強(qiáng),利用kaldi工具模擬噪聲和遠(yuǎn)場(chǎng),使用8種口音訓(xùn)練數(shù)據(jù)+librispeech數(shù)據(jù)訓(xùn)練TTS合成器,并生成8種口音訓(xùn)練音頻,最后對(duì)測(cè)試音頻采用sox變語(yǔ)速后與原始音頻拼接。模型訓(xùn)練時(shí),采用了多機(jī)多卡的并行訓(xùn)練策略,有效降低了模型迭代和實(shí)驗(yàn)速度。最終我們采用深層的TDNN模型,結(jié)合AAM loss等進(jìn)行優(yōu)化,來(lái)訓(xùn)練8種口音的8分類模型。

經(jīng)過多個(gè)不同策略組合的實(shí)驗(yàn)測(cè)試,最終發(fā)現(xiàn),“利用PPG等特征,結(jié)合基于tts的數(shù)據(jù)生成,多嵌入多層聯(lián)合優(yōu)化”等方法,能夠最高效快速識(shí)別不同口音種類。這也為未來(lái)業(yè)界進(jìn)行多語(yǔ)種混合識(shí)別提供了很好的參考策略。

思必馳語(yǔ)音應(yīng)用負(fù)責(zé)人薛少飛

參與INTERSPEECH工業(yè)論壇并在線分享

今年INTERSPEECH 2020首次推出虛擬展會(huì),以直播的方式舉辦在線論壇。思必馳高級(jí)技術(shù)總監(jiān)、語(yǔ)音應(yīng)用技術(shù)負(fù)責(zé)人薛少飛,10月29日(今晚)將在線分享思必馳在語(yǔ)音識(shí)別、語(yǔ)音喚醒、音頻檢測(cè)等語(yǔ)音交互關(guān)鍵技術(shù)方面的新進(jìn)展。

責(zé)任編輯:xj

原文標(biāo)題:【會(huì)員風(fēng)采】亮劍INTERSPEECH 2020,思必馳10篇論文被收錄

文章出處:【微信公眾號(hào):深圳市汽車電子行業(yè)協(xié)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人機(jī)交互
    +關(guān)注

    關(guān)注

    12

    文章

    1288

    瀏覽量

    57956
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    39

    文章

    1812

    瀏覽量

    116074
  • 思必馳
    +關(guān)注

    關(guān)注

    4

    文章

    400

    瀏覽量

    15994

原文標(biāo)題:【會(huì)員風(fēng)采】亮劍INTERSPEECH 2020,思必馳10篇論文被收錄

文章出處:【微信號(hào):qidianxiehui,微信公眾號(hào):深圳市汽車電子行業(yè)協(xié)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    昆山數(shù)科集團(tuán)與達(dá)成戰(zhàn)略合作

    3月9日,昆山數(shù)科集團(tuán)與科技股份有限公司正式簽署戰(zhàn)略合作協(xié)議,并為雙方聯(lián)合組建的人工智能大模型運(yùn)營(yíng)及場(chǎng)景應(yīng)用聯(lián)合實(shí)驗(yàn)室揭牌。昆山數(shù)科集團(tuán)董事長(zhǎng)、總經(jīng)理曾誠(chéng),
    的頭像 發(fā)表于 03-11 11:46 ?396次閱讀

    斬獲Interspeech 2026音頻推理挑戰(zhàn)賽智能體賽道亞軍

    近日,國(guó)際語(yǔ)音與語(yǔ)言處理領(lǐng)域頂級(jí)賽事Interspeech 2026音頻推理挑戰(zhàn)賽結(jié)果正式揭曉。在這場(chǎng)首次將評(píng)估焦點(diǎn)從“答案正確性”轉(zhuǎn)向“推理過程質(zhì)量”的變革性賽事中,-上海交通
    的頭像 發(fā)表于 02-28 14:13 ?616次閱讀

    江蘇省人民政府領(lǐng)導(dǎo)蒞臨考察調(diào)研

    1月24日,江蘇省人民政府辦公廳人工智能學(xué)習(xí)培訓(xùn)班在省政府辦公廳副主任俞金紅的帶領(lǐng)下,來(lái)到開展實(shí)地教學(xué)與調(diào)研。
    的頭像 發(fā)表于 01-28 17:31 ?1753次閱讀

    蘇州市委書記范波一行蒞臨調(diào)研

    調(diào)研期間,范波一行來(lái)到,了解人工智能大模型場(chǎng)景研發(fā)應(yīng)用情況。
    的頭像 發(fā)表于 01-10 09:32 ?951次閱讀

    任務(wù)型對(duì)話算法通過國(guó)家備案

    近日,國(guó)家網(wǎng)信辦公開發(fā)布第十四批境內(nèi)深度合成服務(wù)算法備案信息,任務(wù)型對(duì)話算法正式通過備案。這是
    的頭像 發(fā)表于 11-20 10:33 ?912次閱讀

    與上海交大聯(lián)合實(shí)驗(yàn)室五論文入選NeurIPS 2025

    近日,機(jī)器學(xué)習(xí)與計(jì)算神經(jīng)科學(xué)領(lǐng)域全球頂級(jí)學(xué)術(shù)頂級(jí)會(huì)議NeurIPS 2025公布論文錄用結(jié)果,-上海交大聯(lián)合實(shí)驗(yàn)室共有5
    的頭像 發(fā)表于 10-23 15:24 ?886次閱讀
    <b class='flag-5'>思</b><b class='flag-5'>必</b><b class='flag-5'>馳</b>與上海交大聯(lián)合實(shí)驗(yàn)室五<b class='flag-5'>篇</b><b class='flag-5'>論文</b>入選NeurIPS 2025

    聲音轉(zhuǎn)換算法通過國(guó)家備案

    近日,國(guó)家互聯(lián)網(wǎng)信息辦公室公告第十三批深度合成服務(wù)算法備案信息,聲音轉(zhuǎn)換算法通過備案,這也是
    的頭像 發(fā)表于 09-18 14:05 ?958次閱讀

    一鳴智能客服大模型通過生成式人工智能服務(wù)備案

    近日,江蘇網(wǎng)信發(fā)布新一批生成式人工智能服務(wù)備案信息,其中,由控股子公司準(zhǔn)自主研發(fā)的一鳴
    的頭像 發(fā)表于 09-16 18:08 ?1225次閱讀

    空調(diào)大模型解決方案

    這不是幻想,是基于思空調(diào)大模型解決方案發(fā)生的真實(shí)體驗(yàn),該方案深度融合了自研的全鏈路智能
    的頭像 發(fā)表于 07-31 17:46 ?960次閱讀

    亮相2025世界人工智能大會(huì)

    近日,2025世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議(WAIC2025)在上海盛大開幕。本屆大會(huì)以“智能時(shí)代 同球共濟(jì)”為主題,全方位呈現(xiàn)了全球AI技術(shù)突破、產(chǎn)業(yè)變革與治理實(shí)踐的最新成果。作為中國(guó)對(duì)話式AI企業(yè),
    的頭像 發(fā)表于 07-31 17:41 ?915次閱讀

    與上海交大聯(lián)合實(shí)驗(yàn)室研究成果入選兩大頂級(jí)會(huì)議

    近日,計(jì)算語(yǔ)言學(xué)與自然語(yǔ)言處理領(lǐng)域全球頂級(jí)會(huì)議ACL 2025及語(yǔ)音研究領(lǐng)域旗艦會(huì)議INTERSPEECH 2025相繼公布論文錄用結(jié)果。
    的頭像 發(fā)表于 07-11 16:24 ?943次閱讀
    <b class='flag-5'>思</b><b class='flag-5'>必</b><b class='flag-5'>馳</b>與上海交大聯(lián)合實(shí)驗(yàn)室研究成果入選兩大頂級(jí)會(huì)議

    宣布,再獲新一輪融資

    自主品牌在辦公會(huì)議場(chǎng)景的深度創(chuàng)新、推動(dòng)產(chǎn)品迭代與升級(jí)。 ? 成立于2007年,是國(guó)內(nèi)領(lǐng)先的對(duì)話式人工智能平臺(tái)公司。自創(chuàng)立以來(lái),
    的頭像 發(fā)表于 06-26 01:09 ?4048次閱讀

    AI辦公本亮相京東直播間

    近日,董事長(zhǎng)、CEO高始興與IOT事業(yè)部首席產(chǎn)品官馬斌斌現(xiàn)身「京東3C數(shù)碼采銷」直播
    的頭像 發(fā)表于 06-09 11:10 ?1074次閱讀

    何維率一行蒞臨調(diào)研

    現(xiàn)場(chǎng),董事長(zhǎng)、CEO高始興介紹了的業(yè)務(wù)布局與落地應(yīng)用情況。
    的頭像 發(fā)表于 04-24 15:36 ?832次閱讀

    柳州市領(lǐng)導(dǎo)蒞臨調(diào)研考察

    近日,柳州市政府副市長(zhǎng)湯振國(guó)、市政府副秘書長(zhǎng)李榮軍、市工業(yè)和信息化局副局長(zhǎng)莫春燕、市大數(shù)據(jù)局局長(zhǎng)李玉輝、柳東新區(qū)管委會(huì)副主任吳佑松等一行蒞臨廣西,圍繞企業(yè)人工智能產(chǎn)品研發(fā)、應(yīng)用場(chǎng)
    的頭像 發(fā)表于 03-24 16:37 ?1263次閱讀