91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CEVA輔助算法讓語音活動檢測、麥克風(fēng)獲得最大價(jià)值

CEVA ? 來源:CEVA ? 作者:CEVA ? 2021-12-09 17:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

基于語音的控制系統(tǒng)正在經(jīng)歷穩(wěn)健的增長,2020 年達(dá)到 107 億美元,預(yù)計(jì)到 2026 年將達(dá)到超過 270 億美元。其優(yōu)點(diǎn)不言而喻:無手操作,界面大大簡化。您可以直接說出所需的內(nèi)容,而無需使用導(dǎo)航菜單。但是,正如我們所有人所經(jīng)歷的那樣,聲音可能有其自身的弊端。當(dāng)您靠近麥克風(fēng)正對著它講話時,它在安靜的房間里工作正常。但在您的手機(jī)上、通過無線耳塞以及在繁忙的超市中,這些情形的語音識別如何呢?識別效果并不總是那么好。基于人工智能的命令識別至關(guān)重要,但更重要的是,這種識別首先要有可以正常工作的清晰語音信號。如果沒有清晰的音頻輸入,您的識別程序通常會錯誤識別語音命令。用戶會感到沮喪,并很快就停止使用該功能。

是什么讓語音識別變得困難重重

在一個相似的問題(視覺識別)中,常規(guī)圖像中沒有太多的模糊之處,至少在光照合理的情況下是如此。但是,聲音檢測必須應(yīng)付更多的干擾。穩(wěn)定的背景噪音包括風(fēng)扇、空調(diào)、道路噪音。還有其他不太可預(yù)測的背景噪音–音樂、談話、狗吠、汽車?yán)?、警笛。從這些雜亂紛呈的背景噪音中拾取語音并不簡單。但通過采用正確的技術(shù),這是非常有可能做到的。

這種噪聲過濾技術(shù)的優(yōu)勢不僅僅體現(xiàn)在語音控制方面,它還提高了手機(jī)通話或會議通話的清晰度。通話另一端的聽眾將在背景噪音中更清楚地聽到您和其他講話人。

使這一目標(biāo)成為可能的是音頻前端 (AFE),這是在語音識別或通信之前的一組信號處理階段。此音頻前端可清理原始音頻信號,加強(qiáng)最突出的講話人(相對于其他輸入源),并減少該信號周圍的雜音。

語音活動和到達(dá)方向檢測

許多基于語音識別的設(shè)備都是電池供電的(手機(jī)、手表和遙控器),必須最大限度降低功耗。語音活動檢測 (VAD) 是一個功耗極低的階段,專門用于檢測講話人。在觸發(fā)此檢測之前,所有其它設(shè)備都可以保持?jǐn)嚯姞顟B(tài)。如何將人類語音與狗吠或其他非人類噪音區(qū)別開來?這需要通過一些巧妙但明確的濾波技術(shù)。

到達(dá)方向 (DOA) 檢測要求設(shè)備(手機(jī)、遙控器等)配有多個麥克風(fēng),通常為若干個麥克風(fēng)。然后,通過比較在每個麥克風(fēng)處聲音脈沖到達(dá)時間的微小差異,可以推斷到達(dá)方向(在應(yīng)用人類語音濾波后)。正如我將在下面所闡釋的,DOA 檢測對于使音頻前端能夠放大講話人(聲音)至關(guān)重要。

降噪

降噪有多種方法,有些是空間敏感的,有些是基于單通道濾波??臻g方法提供了一種通過波束成型技術(shù)放大講話人聲音的方法。這與無線技術(shù)在優(yōu)先選擇特定的蜂窩塔時所使用的技巧相同,但在此處,這種技巧應(yīng)用于聲波,而不是無線電波。在此處,信號處理使用來自多個麥克風(fēng)的輸入信號優(yōu)先優(yōu)化來自特定方向的接收信號。這當(dāng)然由 DOA 檢測進(jìn)行導(dǎo)向。

單通道濾波看起來更像頻域中的傳統(tǒng)濾波。最一般的情況下,這可能是一個帶通濾波器,但也可能是更復(fù)雜的選件。此方法的問題是,它通常會影響觸發(fā)詞檢測和自動語音識別。正是出于此原因,一些云平臺要求在使用語音識別服務(wù)之前禁用此類濾波器。單通道濾波器在語音通信(而不是語音識別)中仍有價(jià)值,可減少線路另一端的聽者噪音。

回聲消除示例 - 在 AEC 激活前后 2 個信號的聲譜圖。

回聲消除

在任何封閉空間(房間、駕駛室)中,聲音會朝多個方向傳播,并且會從墻壁、窗戶和家具發(fā)出回聲,比直接信號略遲一點(diǎn)到達(dá)麥克風(fēng)?;蛘?,聽眾可能會聽到從講話人到麥克風(fēng)的難聽回聲。消除這些討厭的回聲(起碼會增強(qiáng)噪音)是回聲消除 (AEC) 技術(shù)的任務(wù)?;芈曄夹g(shù)將參考信號(麥克風(fēng)從直接路徑接收到的第一個最強(qiáng)信號)與隨后接收到的回波進(jìn)行比較。它們波形相似,但是已衰減,因此容易識別并從信號中除去。

高精度語音識別只能通過高質(zhì)量音頻前端實(shí)現(xiàn)。這需要一些相當(dāng)復(fù)雜的音頻前端處理,比如人聲活動檢測、DOA 檢測、波束成型、回聲消除和濾波(如果適用)。這些技術(shù)全部基于復(fù)雜的信號處理算法。有多種技術(shù)組合可以為您提供,您可根據(jù)在高端技術(shù)和大眾市場之間的不同定位進(jìn)行選擇。

要實(shí)現(xiàn)可靠的基于語音的控制,乃至于在嘈雜環(huán)境中實(shí)現(xiàn)高音質(zhì)的溝通,必須滿足這一基本的要求。頗具矛盾的是,如果您可以將大量技術(shù)應(yīng)用于清晰語音拾取問題,該問題便可迎刃而解。只要采用高端語音活動檢測技術(shù)、多麥克風(fēng)波束成型技術(shù)和回聲消除技術(shù),您便可以擁有一款面向高端市場的高檔產(chǎn)品。一個更為有趣的挑戰(zhàn)是能夠以更具吸引力的價(jià)格為您的中端市場提供幾乎同樣出色的拾音質(zhì)量。我將在此處探討同時面向這兩類市場的技術(shù)。

語音活動檢測 (VAD)

此步驟是語音拾取路徑的起點(diǎn) – 是否有人在聲音背景中講話?第一步只是查看一下信號,將具有清晰活動的幀與背景分離開來。

圖 1:針對示例信號的 VAD 功能

僅查看原始檢測信號,會發(fā)現(xiàn)一些檢測將是真實(shí)的,一些檢測將是錯誤的。為 SnR 設(shè)置一個合適的閾值有助于找到一個好的平衡點(diǎn)。在一款物有所值的產(chǎn)品中,純粹基于能量的檢測(窗口集成)可能就足夠了。高檔產(chǎn)品可能會增加使用神經(jīng)網(wǎng)絡(luò)的自適應(yīng)檢測。這兩種特性在可穿戴設(shè)備和耳塞中都很常見。這些技術(shù)的常見分析是在接收器工作特性 (RoC) 曲線上繪制真陽性和假陽性的對比。假陽性和真陽性檢測之間的這種權(quán)衡有助于您決定如何調(diào)整產(chǎn)品。

1a713b06-5595-11ec-b2e9-dac502259ad0.png

圖 2:若干 VAD 解決方案的 RoC 圖表

到達(dá)方向檢測 (DOA)

此算法會比較不同麥克風(fēng)上檢測到的信號在到達(dá)時間上的輕微延遲。自然地,每個麥克風(fēng)對人類語音特性的拾取應(yīng)具有選擇性。然后,檢測的準(zhǔn)確性取決于所用麥克風(fēng)的數(shù)量和這些麥克風(fēng)的分布情況。

智能揚(yáng)聲器或智能電視等高端設(shè)備通常會假定講話人距離較遠(yuǎn),因此 DOA 將會相當(dāng)準(zhǔn)確。中端市場產(chǎn)品通常會離講話人更近,并且?guī)缀蹩隙〞褂酶俚柠溈孙L(fēng),因此必須相應(yīng)調(diào)整。這一因素對于波束成型技術(shù)尤其應(yīng)予以考慮,而且對下一節(jié)中的降噪至關(guān)重要。

降噪

可以說,最好的降噪方式是空間降噪 - 使用波束成型技術(shù)放大講話人聲音。這再次需要多個麥克風(fēng),并使用 DOA 作為起點(diǎn)來選擇應(yīng)放大的位置。您可以使用的麥克風(fēng)越多,放大講話人聲音的準(zhǔn)確度就越高,從而有效抑制所有其他噪音源。但即使使用兩個麥克風(fēng),您也可以在一個麥克風(fēng)上提高甄別水平。

1aa46bca-5595-11ec-b2e9-dac502259ad0.png

1adfe330-5595-11ec-b2e9-dac502259ad0.png

圖 3:使用 3 個麥克風(fēng)和 7 個麥克風(fēng)的波束形成器濾波模式

對于單個麥克風(fēng),不能進(jìn)行波束成型。如果講話人自然靠近麥克風(fēng),這可能不成問題。例如,耳塞通過骨傳導(dǎo)進(jìn)行語音拾取時,可能已充分達(dá)到無噪音的程度。還請記住,對于語音識別,云提供商建議不要使用濾波器來消除噪音,因?yàn)檫@些濾波器可能同時會降低識別精度。

回聲消除

回聲(主要來自房間周圍的固定表面)會產(chǎn)生與講話人信號有關(guān)的背景噪音波尾。在低端設(shè)備上,設(shè)備的揚(yáng)聲器和塑料盒往往會增加噪音甚至產(chǎn)生非線性影響。這意味著 AEC 算法不僅必須可根據(jù)環(huán)境回波調(diào)整,還必須針對來自設(shè)備外殼的任何可能噪音進(jìn)行調(diào)整。

1b0ee180-5595-11ec-b2e9-dac502259ad0.png

圖 4:AEC 使用的標(biāo)準(zhǔn)拾音路徑

1b2fb3ce-5595-11ec-b2e9-dac502259ad0.png

圖 5:3 個不同房間的回波波尾隨時間而變化的振幅比

跨界的 CEVA ClearVox

正如您看到的,當(dāng)涉及到準(zhǔn)確的語音拾取時,一種規(guī)格并非處處適用。必須設(shè)計(jì)不同的解決方案以滿足不同的市場需求,即分別制定高端市場和大眾市場目標(biāo)。CEVA 可以幫助您同時滿足這兩個目標(biāo),讓您從具有 NN 輔助算法和用于音頻縮放的許多麥克風(fēng)的高端技術(shù)中獲得最大價(jià)值,或者從具有基于能量的語音活動檢測和僅有兩個甚至一個麥克風(fēng)的實(shí)惠技術(shù)中獲得最大價(jià)值。CEVA 在這一領(lǐng)域擁有多年的豐富經(jīng)驗(yàn)。在用于耳塞、耳機(jī)和空間音頻的應(yīng)用中,所有這些經(jīng)驗(yàn)都整合在我們的 CEVA ClearVox 產(chǎn)品中,該產(chǎn)品支持 CEVA DSPARM 平臺。

原文標(biāo)題:如何通過調(diào)節(jié)以獲得高精度與高質(zhì)量的語音識別

文章出處:【微信公眾號:CEVA】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯:彭菁
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 麥克風(fēng)
    +關(guān)注

    關(guān)注

    16

    文章

    696

    瀏覽量

    57697
  • CEVA
    +關(guān)注

    關(guān)注

    1

    文章

    198

    瀏覽量

    77206
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1812

    瀏覽量

    116073

原文標(biāo)題:如何通過調(diào)節(jié)以獲得高精度與高質(zhì)量的語音識別

文章出處:【微信號:CEVA-IP,微信公眾號:CEVA】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    麥克風(fēng)的靜電保護(hù)

    麥克風(fēng),英文:Microphone 話筒,是將聲音信號轉(zhuǎn)換為電信號的能量轉(zhuǎn)換器件,作為與人體接觸的設(shè)備,存在ESD 電氣危害。 麥克風(fēng)線路的標(biāo)準(zhǔn)信號最大值通常為 5.5 Vp-p,最大
    的頭像 發(fā)表于 02-05 13:42 ?81次閱讀
    <b class='flag-5'>麥克風(fēng)</b>的靜電保護(hù)

    探索MAX9814:帶AGC和低噪聲麥克風(fēng)偏置的麥克風(fēng)放大器

    探索MAX9814:帶AGC和低噪聲麥克風(fēng)偏置的麥克風(fēng)放大器 在音頻處理領(lǐng)域,一款高性能的麥克風(fēng)放大器對于確保清晰、高質(zhì)量的聲音捕獲至關(guān)重要。今天,我們就來深入了解一下Analog Devices
    的頭像 發(fā)表于 01-19 11:00 ?335次閱讀

    給設(shè)備裝個 “麥克風(fēng)”:沉默的機(jī)器開口說話,數(shù)據(jù)全采集

    工業(yè)數(shù)字化轉(zhuǎn)型的核心,從來不是追求復(fù)雜技術(shù),而是數(shù)據(jù)產(chǎn)生價(jià)值。給設(shè)備裝“麥克風(fēng)”,本質(zhì)是打通設(shè)備與運(yùn)維人員的溝通通道,沉默的機(jī)器主動傳遞運(yùn)行信號,用精準(zhǔn)數(shù)據(jù)替代經(jīng)驗(yàn)判斷。
    的頭像 發(fā)表于 01-16 10:50 ?203次閱讀
    給設(shè)備裝個 “<b class='flag-5'>麥克風(fēng)</b>”:<b class='flag-5'>讓</b>沉默的機(jī)器開口說話,數(shù)據(jù)全采集

    為什么你的藍(lán)牙耳機(jī)通話清晰?MEMS麥克風(fēng)是關(guān)鍵

    絕大多數(shù)用戶不知道,藍(lán)牙耳機(jī)和小音箱的清晰通話、主動降噪都依賴MEMS麥克風(fēng)。本文詳解MEMS麥克風(fēng)原理、優(yōu)勢及其在音頻設(shè)備中的核心應(yīng)用,帶您了解這項(xiàng)關(guān)鍵科技。
    的頭像 發(fā)表于 01-05 17:04 ?697次閱讀

    探究 InvenSense ICS - 40214 模擬 MEMS 麥克風(fēng):性能與應(yīng)用全解析

    探究 InvenSense ICS - 40214 模擬 MEMS 麥克風(fēng):性能與應(yīng)用全解析 在當(dāng)今的電子設(shè)備領(lǐng)域,從智能手機(jī)到可穿戴設(shè)備,麥克風(fēng)作為音頻輸入的關(guān)鍵組件,其性能的優(yōu)劣直接影響著音頻
    的頭像 發(fā)表于 12-26 11:15 ?391次閱讀

    TDK InvenSense ICS - 40800麥克風(fēng):性能、設(shè)計(jì)與應(yīng)用全解析

    TDK InvenSense ICS - 40800麥克風(fēng):性能、設(shè)計(jì)與應(yīng)用全解析 在當(dāng)今的電子設(shè)備中,麥克風(fēng)作為音頻輸入的關(guān)鍵組件,其性能和可靠性直接影響著設(shè)備的音頻質(zhì)量。TDK
    的頭像 發(fā)表于 12-26 11:15 ?641次閱讀

    AI玩具麥克風(fēng)技術(shù)演進(jìn),從拾音到智能交互的跨越

    直接決定了交互的流暢度與準(zhǔn)確性。從硬件器件升級到算法優(yōu)化迭代,一系列技術(shù)突破正重塑AI玩具的語音交互體驗(yàn)。 ? 硬件層面,MEMS 麥克風(fēng)已成為AI玩具的主流選擇,其微型化、低功耗特性完美適配玩具的小型化設(shè)計(jì)需求。樓氏電子推出的
    的頭像 發(fā)表于 12-24 09:26 ?4734次閱讀

    探索英飛凌XENSIV? MEMS麥克風(fēng)柔性評估套件

    探索英飛凌XENSIV? MEMS麥克風(fēng)柔性評估套件 引言 在當(dāng)今的電子設(shè)備設(shè)計(jì)中,麥克風(fēng)的性能和易用性至關(guān)重要。英飛凌的XENSIV? MEMS麥克風(fēng)柔性評估套件為工程師們提供了一種便捷的方式來
    的頭像 發(fā)表于 12-21 10:55 ?853次閱讀

    探索英飛凌XENSIV? MEMS麥克風(fēng)柔性評估套件

    探索英飛凌XENSIV? MEMS麥克風(fēng)柔性評估套件 在如今的電子設(shè)備設(shè)計(jì)中,麥克風(fēng)作為重要的音頻輸入組件,其性能評估至關(guān)重要。英飛凌推出的XENSIV? MEMS麥克風(fēng)柔性評估套件,為工程師們提供
    的頭像 發(fā)表于 12-18 15:40 ?437次閱讀

    測量麥克風(fēng)接口指南類型、區(qū)別與應(yīng)用解析你都知道嗎?

    測量麥克風(fēng)常見接口指南——類型、區(qū)別與應(yīng)用解析 測量麥克風(fēng)結(jié)構(gòu)簡單但接口形式卻相當(dāng)多樣Lemo、BNC、Microdot、10-32 UNF、M5、SMB…… 不少剛?cè)胄械墓こ處煻紩?/div>
    發(fā)表于 12-15 19:07

    MEMS麥克風(fēng)設(shè)計(jì)注意事項(xiàng)和應(yīng)用指南

    MEMS麥克風(fēng)以其極致的小巧、卓越的性能、強(qiáng)大的穩(wěn)定性和極具競爭力的成本,席卷了從消費(fèi)電子到工業(yè)物聯(lián)網(wǎng)的各個角落。無論是打造清晰通話的TWS耳機(jī),賦予智能設(shè)備“聽”的能力,還是在嘈雜環(huán)境中精準(zhǔn)拾音,MEMS麥克風(fēng)都扮演著至關(guān)重要的角色。
    的頭像 發(fā)表于 08-29 13:48 ?8205次閱讀
    MEMS<b class='flag-5'>麥克風(fēng)</b>設(shè)計(jì)注意事項(xiàng)和應(yīng)用指南

    請問NUC505 支持?jǐn)?shù)字麥克風(fēng)嗎?

    NUC505 支持?jǐn)?shù)字麥克風(fēng)嗎?
    發(fā)表于 08-28 07:03

    麥克風(fēng)CE認(rèn)證要求

    一、麥克風(fēng)屬于CE強(qiáng)制認(rèn)證產(chǎn)品麥克風(fēng)作為電子音頻設(shè)備,出口歐盟必須完成CE認(rèn)證,并加貼CE標(biāo)志。CE認(rèn)證是強(qiáng)制性的,用于確保產(chǎn)品符合歐盟關(guān)于安全、電磁兼容和環(huán)保的法規(guī)。二、適用的CE指令有
    的頭像 發(fā)表于 07-28 17:25 ?970次閱讀
    <b class='flag-5'>麥克風(fēng)</b>CE認(rèn)證要求

    數(shù)字麥克風(fēng)的0dBFS對應(yīng)的信號電平峰值是多少?

    數(shù)字麥克風(fēng)的0dBFS對應(yīng)的信號電平峰值是多少?所有麥克風(fēng)都是一樣的,還是不同廠家的會有差異?
    發(fā)表于 07-14 08:26

    芯知識|語音識別芯片麥克風(fēng)配置指南:單麥與雙麥方案的技術(shù)選擇

    在智能語音產(chǎn)品的開發(fā)過程中,麥克風(fēng)陣列的選型直接決定了用戶體驗(yàn)的優(yōu)劣。廣州唯創(chuàng)電子提供的單麥克風(fēng)與雙麥克風(fēng)解決方案,為不同場景下的語音交互需
    的頭像 發(fā)表于 03-27 09:20 ?1980次閱讀
    芯知識|<b class='flag-5'>語音</b>識別芯片<b class='flag-5'>麥克風(fēng)</b>配置指南:單麥與雙麥方案的技術(shù)選擇