91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

探析智能語音交互應用和技術

MEMS ? 來源:未知 ? 作者:胡薇 ? 2018-11-23 09:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

上個月,一年一度的中國聲學領域技術交流盛會 “聲學樓13周年年會暨中國音響行業(yè)白皮書發(fā)布會”在深圳市南山區(qū)金百合大酒店隆重召開。本次大會以“砥礪奮進,行穩(wěn)致遠”為主題,邀請了中科院聲學所、萬魔聲學、科大訊飛、小米科技、貓王收音機、樓氏電子等院所和企業(yè)的60余位行業(yè)大咖,與來自全國各地的知名專家學者、行業(yè)著名企業(yè)家、資深工程技術人員、年輕一線工程師等1500余人分享了31場深度技術垂直的議題報告。

座無虛席的大會現(xiàn)場其中,在10月27日下午的特邀專題報告里,北京聲加科技CEO邱鋒海受邀以《聲加萬物、聆聽未來:智能語音交互應用和技術》為題,分享了目前正在爆發(fā)的智能語音交互市場中的各項明星產品和其技術鏈條。并在演講中詳細分析了聲學前端技術所面臨的挑戰(zhàn)與機遇:如在百花齊放的新生市場里,智能音箱的“去插電化”、減少MEMS麥克風組成的陣列、更靈活的喚醒詞訓練及生成和智能耳機的尺寸更小、各類型傳感器數(shù)據(jù)融合以及更低功耗的喚醒等。

聲加科技CEO邱鋒海主題分享《聲加萬物、聆聽未來:智能語音交互應用和技術》

邱鋒海表示,10萬年前,語言的出現(xiàn)大大加速了人類社會進化和發(fā)展的進程。時至今日,聽和說依然是人類最基本、最常用和最靈活的交流方式,同時也是最好的人機交互方式。在經歷了計算機命令式交互到圖形界面觸摸交互,再到信息時代/高級信息時代的自然交互、和情感交互……毫無疑問,語音交互將會成為泛在的人機交互方式。

事實上,語音識別技術的研究可追溯到上世紀50年代,從單一模式匹配到70年代的模式和特征分析,再到90年的統(tǒng)計方法(HMM+GMM),直到2010年后,深度神經網絡(DNN)取得了巨大的成功,基于DNN技術的應用也呈爆炸式增長。同時,語音識別、自然語言理解、語音合成性能等技術大幅提升,互聯(lián)網、移動互聯(lián)網的高速發(fā)展也為算法引擎提供了大量的數(shù)據(jù)“糧食”。在海量的數(shù)據(jù)紅利下,云端計算軟硬件系統(tǒng)的算力增長使其能夠快速處理海量數(shù)據(jù),再加上邊緣計算的能力增強、功耗降低等因素,語音交互的“基礎設施”已逐漸成熟。因此,智能語音交互應用的興起也就順理成章。

然而,盡管語音識別在這幾年里得到迅速發(fā)展,但是目前業(yè)界聲稱的“語音識別準確度達到了90%以上”(Google在2017年6月聲稱已達到95%的準確率)其實是實驗室數(shù)據(jù)?!胺羌儍魲l件下”的現(xiàn)實生活里,這個準確率則降至50-70%,甚至更低。

智能語音產品從人到機器完成一次語音交互,需要經過四個主要的技術環(huán)節(jié):語音前端處理、語音識別(ASR)、自然語言理解(NLP)以及語音合成(TTS),即從聲音的拾取到轉換成文字,到理解其含義并作出反饋,再到將反饋說出。其中語音前端處理屬于客戶端,后三者則為云端。經過多年的技術積累,語音識別和語音合成已經獲得突破,基本可以滿足商用。而語音前端處理和自然語言理解依然是語音交互的核心瓶頸。

語音交互的技術鏈條

作為人機交互的最底層環(huán)節(jié),語音前端處理包括回聲消除、聲源定向、語音降噪、語音打斷、語音喚醒的MEMS麥克風陣列,再通過MEMS麥克風陣列實現(xiàn)復雜噪聲環(huán)境下的拾音。目前仍然處于商業(yè)初級應用階段,距離比較理想的體驗還有相當大的距離。比如以Siri為代表的近場語音識別要求必須是低噪聲、無混響、距離聲源很近的場景,用戶一定要對著智能手機講話才能獲得符合近場語音識別要求的聲音信號,環(huán)境稍微嘈雜一點語音識別引擎就失靈了; 而以智能音箱為代表的遠場語音識別場景下,依然存在誤喚醒,方言、童音識別不準以及聲源移動中的識別率低下等問題。

邱鋒海認為,目前智能音箱、智能耳機等產品的技術攻關主要還是在回聲消除、立體回聲消除、去混響、自適應波束形成(抗干擾)、前端信號處理+KWS等;而語音前端信號處理的算法同樣面臨許多挑戰(zhàn),如單通道DNN語音增強、自噪聲抑制、多通道DNN語音增強等。同時,他也在演講最后留下了幾個開放性的問題:關于智能音箱的更少的麥克風組成的陣列(2個麥克風仿生人耳),更低的計算功耗,更長的不插電待機時間,更靈活的喚醒詞訓練、生成等,藍牙音箱的智能化(需要本地命令識別),人機交互是以智能音箱為核心的星型網絡結構還是各設備的分布式交互;關于智能耳機的尺寸更小,引入其他傳感器后各類型傳感器數(shù)據(jù)融合,更低功耗的喚醒、體驗更好的語音交互功能等。

據(jù)悉,目前在智能語音交互市場中,國內玩家主要分為傳統(tǒng)語音技術廠商、互聯(lián)網廠商,和新興的創(chuàng)業(yè)公司。其中大部分集中在語音識別(ASR)、自然語言理解(NLP)以及語音合成(TTS)等云端業(yè)務,這也是歸結于語音前端處理技術的人才稀缺與實戰(zhàn)項目較少、缺乏經驗累積等。與這些玩家相比,聲加科技更多著力于解決全場景下的語音前端處理,其強大的研發(fā)實力依托于中科院聲學所雄厚的人才和科研資源,研發(fā)人員均來自于中科院聲學所、清華大學、南京大學和中國科學技術大學等國內一流科研院所,核心團隊成員亦大多師出于中科院聲學所,平均在業(yè)界擁有超過十五年工作經驗。團隊此前已為國內多個巨頭企業(yè)的智能音箱、智能耳機等明星產品提供遠場麥陣模組設計方案、智能耳機麥陣算法、智能耳機模組等技術支持。

適用于多場景的多元化智能設備

“聲學樓”作為國內最為專業(yè)和盛大的電聲技術研討會之一,本次大會不僅再一次掀起了中國音頻技術交流的高潮,還在開幕當天上午由中國電子音響行業(yè)協(xié)會秘書長陳立新發(fā)布了《2018中國電子音響行業(yè)發(fā)展情況》(白皮書),并邀請中科院聲學所李曉東教授、魅族聲學總監(jiān)陳愛民、哈曼汽車電子全球研發(fā)中心揚聲器系統(tǒng)工程總監(jiān)楊春洪、四川湖山電子高級工程師張康等業(yè)內專家分別對智能音箱行業(yè)、耳機行業(yè)、汽車車載音響行業(yè)、專業(yè)音響行業(yè)的白皮書進行介紹。值得一提的是,參與《中國智能音箱行業(yè)發(fā)展情況》主筆的李曉東教授不僅是邱鋒海和聲加科技數(shù)位成員在聲學所深造的導師,也是鼓勵其創(chuàng)業(yè)的前輩。

中科院聲學所李曉東教授、博導主題介紹《中國智能音箱行業(yè)發(fā)展情況》(2018版)編寫情況

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音識別
    +關注

    關注

    39

    文章

    1812

    瀏覽量

    116059
  • 智能語音
    +關注

    關注

    11

    文章

    826

    瀏覽量

    50273

原文標題:聲加萬物、聆聽未來:智能語音交互應用和技術

文章出處:【微信號:MEMSensor,微信公眾號:MEMS】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    新品 | Echo Pyramid,智能語音交互底座

    EchoPyramid是一款面向智能語音交互應用的功能底座。專為M5Stack的Atom/AtomS3/AtomS3R系列主控設計,即插即用,快速構建具備高性能音頻交互能力的
    的頭像 發(fā)表于 03-06 16:51 ?1987次閱讀
    新品 | Echo Pyramid,<b class='flag-5'>智能</b><b class='flag-5'>語音</b><b class='flag-5'>交互</b>底座

    WT588F02KD-32N語音芯片:智能電飯煲的語音交互革新方案

    一、智能電飯煲的語音交互新時代1.1電飯煲產品的智能化轉型隨著智能家居技術的快速發(fā)展,現(xiàn)代電飯煲
    的頭像 發(fā)表于 11-20 09:19 ?754次閱讀
    WT588F02KD-32N<b class='flag-5'>語音</b>芯片:<b class='flag-5'>智能</b>電飯煲的<b class='flag-5'>語音</b><b class='flag-5'>交互</b>革新方案

    “芯”聲代,智未來—VS680本地語音交互系統(tǒng) #語音交互 #芯片

    語音交互
    深蕾半導體
    發(fā)布于 :2025年09月17日 10:59:30

    語音機器人交互系統(tǒng):核心技術與應用挑戰(zhàn)

    ? ? ? 語音機器人交互系統(tǒng)是融合多學科技術的復雜工程,其核心目標是實現(xiàn)人與機器間的自然、流暢語音對話。該系統(tǒng)已廣泛應用于智能客服、
    的頭像 發(fā)表于 09-02 11:08 ?834次閱讀

    七牛云發(fā)布靈矽 AI:600ms超低延遲,重塑智能硬件語音交互新范式

    8 月 15 日,七牛云正式發(fā)布靈矽 AI —為新一代智能硬件而生的語音交互新范式,讓智能硬件不僅會“說話”,更能聽懂情緒、自然交流。這不僅是語音
    的頭像 發(fā)表于 08-15 15:33 ?880次閱讀
    七牛云發(fā)布靈矽 AI:600ms超低延遲,重塑<b class='flag-5'>智能</b>硬件<b class='flag-5'>語音</b><b class='flag-5'>交互</b>新范式

    智能語音交互升級,九芯語音識別芯片來助力

    在科技飛速發(fā)展的當下,智能語音交互已經深度融入我們的生活,從智能家居的便捷操控,到車載電子的安全駕駛輔助,再到智能玩具的趣味互動,
    的頭像 發(fā)表于 08-11 14:08 ?968次閱讀
    <b class='flag-5'>智能</b><b class='flag-5'>語音</b><b class='flag-5'>交互</b>升級,九芯<b class='flag-5'>語音</b>識別芯片來助力

    WTK6900HC-24SS語音識別芯片:重塑眼部/頸部按摩儀的智能語音交互體驗

    智能語音技術席卷消費電子領域的浪潮中,廣州唯創(chuàng)電子推出的WTK6900HC-24SS語音識別芯片正為眼部/頸部按摩儀注入革命性的交互變革。
    的頭像 發(fā)表于 07-14 09:07 ?732次閱讀
    WTK6900HC-24SS<b class='flag-5'>語音</b>識別芯片:重塑眼部/頸部按摩儀的<b class='flag-5'>智能</b><b class='flag-5'>語音</b><b class='flag-5'>交互</b>體驗

    普強智能語音技術重新定義車載交互邊界

    普強憑借自主研發(fā)的智能語音技術,為某國內頭部車企提供的語音前處理、喚醒詞、ASR、TTS等技術模塊,構建覆蓋泰語、俄語、韓語、日語等多語種的
    的頭像 發(fā)表于 07-11 14:00 ?1178次閱讀

    智能語音交互別再瞎選語音芯片了!NRK3502 才是你的最優(yōu)解!

    在科技飛速發(fā)展的當下,智能產品如潮水般涌入我們的生活,從智能家居到智能醫(yī)療,從智能玩具到工業(yè)控制,語音
    的頭像 發(fā)表于 07-10 07:03 ?654次閱讀
    <b class='flag-5'>智能</b><b class='flag-5'>語音</b><b class='flag-5'>交互</b>別再瞎選<b class='flag-5'>語音</b>芯片了!NRK3502 才是你的最優(yōu)解!

    藍牙語音遙控器:智能家居的智慧控制核心

    和低功耗特性,成為理想選擇。 藍牙語音遙控器不僅是智能家居控制的樞紐,更是技術進步的縮影。其便捷的操作、智能語音
    發(fā)表于 06-01 20:24

    芯資訊|廣州唯創(chuàng)電子WTV系列語音芯片:以技術創(chuàng)新賦能智能語音交互

    在萬物互聯(lián)的智能化時代,語音交互技術已成為人機交互的重要橋梁。廣州唯創(chuàng)電子深耕語音芯片領域多年,
    的頭像 發(fā)表于 05-21 08:45 ?710次閱讀
    芯資訊|廣州唯創(chuàng)電子WTV系列<b class='flag-5'>語音</b>芯片:以<b class='flag-5'>技術</b>創(chuàng)新賦能<b class='flag-5'>智能</b><b class='flag-5'>語音</b><b class='flag-5'>交互</b>

    智能座艙:車載語音交互測試內容

    隨著汽車智能化的飛速發(fā)展,車載語音交互系統(tǒng)已從早期的輔助功能逐漸演變?yōu)?b class='flag-5'>智能座艙的核心交互方式之一。駕駛者通過
    的頭像 發(fā)表于 04-24 15:29 ?2180次閱讀
    <b class='flag-5'>智能</b>座艙:車載<b class='flag-5'>語音</b><b class='flag-5'>交互</b>測試內容

    智能收銀語音交互新標桿—WT3000T8語音合成芯片TTS技術應用解析

    一、行業(yè)應用背景在零售業(yè)態(tài)智能化轉型的浪潮中,收銀設備正經歷從功能型向服務型轉變的關鍵階段。WT3000T8語音合成芯片應運而生,專為滿足新零售場景下智能收銀終端的語音
    的頭像 發(fā)表于 04-24 08:45 ?1012次閱讀
    <b class='flag-5'>智能</b>收銀<b class='flag-5'>語音</b><b class='flag-5'>交互</b>新標桿—WT3000T8<b class='flag-5'>語音</b>合成芯片TTS<b class='flag-5'>技術</b>應用解析

    智能語音交互方案在客服領域的應用

    著客服行業(yè)的面貌,為企業(yè)和用戶帶來了全新的體驗。 語音識別模型優(yōu)化私部署 方案:精準高效,定制專屬服務 語音識別技術作為智能語音
    的頭像 發(fā)表于 04-11 14:35 ?803次閱讀

    WT3000T8-32N語音合成TTS芯片:小體積、強性能,重塑智能語音交互體驗

    在萬物互聯(lián)的智能化浪潮中,語音交互已成為人機交互的核心入口。廣州唯創(chuàng)電子推出的WT3000T8-32N語音合成芯片,憑借其4×4mm超小封裝
    的頭像 發(fā)表于 03-21 09:20 ?1042次閱讀
    WT3000T8-32N<b class='flag-5'>語音</b>合成TTS芯片:小體積、強性能,重塑<b class='flag-5'>智能</b><b class='flag-5'>語音</b><b class='flag-5'>交互</b>體驗