91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語(yǔ)音識(shí)別下一步發(fā)展如何?哪些技術(shù)可以使用?哪些價(jià)值可以發(fā)掘?

工程師鄧生 ? 來(lái)源:中關(guān)村在線 ? 作者:張彬 ? 2020-10-23 16:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2020科大訊飛全球1024開(kāi)發(fā)者節(jié)今天正式拉開(kāi)帷幕,伴隨著AI的發(fā)展,我們得以更全面和細(xì)致地洞察人們的生活習(xí)慣,并為人們提供更加智能和便捷的服務(wù)。在人工智能的應(yīng)用場(chǎng)景中,最重要的一個(gè)就是語(yǔ)音交互。針對(duì)這一點(diǎn),科大訊飛AI研究院常務(wù)副院長(zhǎng)劉聰做了細(xì)致的講解,讓我們對(duì)當(dāng)前語(yǔ)音交互技術(shù)有了更清晰和深入的了解。

我們知道語(yǔ)音識(shí)別是訊飛的傳統(tǒng)強(qiáng)項(xiàng),從早期的呼叫、導(dǎo)航到2010年發(fā)布的訊飛超腦語(yǔ)音云和輸入法,從而開(kāi)啟了中文語(yǔ)音輸入的新時(shí)代。通過(guò)深度學(xué)習(xí)等框架持續(xù)的迭代效果,我們又陸續(xù)推出了方言識(shí)別、遠(yuǎn)場(chǎng)交互、多麥克風(fēng)陣列等相關(guān)的功能。2015年,我們又將人機(jī)交互的場(chǎng)景拓展到人人對(duì)話的場(chǎng)景。為此我們總結(jié)出三點(diǎn),我們將語(yǔ)音聽(tīng)寫從簡(jiǎn)單場(chǎng)景的可用做到了通用。這種場(chǎng)景的好用,語(yǔ)音轉(zhuǎn)寫從原來(lái)的不好用,做到了像演講、會(huì)議、庭審等很多復(fù)雜場(chǎng)景的好用。像語(yǔ)音控制、命令喚醒,我們也是從簡(jiǎn)單場(chǎng)景的可用,做到了復(fù)雜場(chǎng)景的好用。

隨著現(xiàn)在語(yǔ)音識(shí)別在更多場(chǎng)景的應(yīng)用,語(yǔ)音識(shí)別的下一步發(fā)展方向是什么?又有哪些技術(shù)可以從實(shí)驗(yàn)室場(chǎng)景走向成熟,還有哪些價(jià)值得我們發(fā)掘?

首先,我們認(rèn)為語(yǔ)音識(shí)別需要持續(xù)的去挑戰(zhàn)更加復(fù)雜的場(chǎng)景,去實(shí)現(xiàn)從語(yǔ)音到聲音,從單純的文字內(nèi)容識(shí)別到音頻的全場(chǎng)景解析。例如現(xiàn)在我們?cè)诜簥蕵?lè)當(dāng)中,直播、短視頻,我們可以看到這里面有很多的更加復(fù)雜的聲音場(chǎng)景需要我們?nèi)ソ鉀Q。例如在直播的過(guò)程中,背景可能是復(fù)雜多樣的,可能有視頻聲、游戲聲或者音樂(lè)聲。此外直播連麥的時(shí)候還會(huì)經(jīng)常出現(xiàn)多人混疊的對(duì)話,這些對(duì)我們的語(yǔ)音識(shí)別都會(huì)有很大的影響。除此之外,這些視頻當(dāng)中還會(huì)包含像笑聲、掌聲、各種音效等聲音,所以我們需要提出一些新的方案。當(dāng)前的框架已經(jīng)難以去解決這樣一個(gè)復(fù)雜的問(wèn)題。

針對(duì)這樣一個(gè)場(chǎng)景,我們一方面需要降低各種背景的噪聲對(duì)識(shí)別精度的影響。另外一方面,要有針對(duì)性的將我們感興趣的聲音提取出來(lái)。這里我們也是展示了全場(chǎng)景音頻解析的整體方案。首先我們是通過(guò)多分辨率特征提取的聲音檢測(cè)方案,再結(jié)合我們的序列訓(xùn)練,對(duì)一些相似聲音進(jìn)行精細(xì)建模,可以實(shí)現(xiàn)將笑聲、音效等非語(yǔ)音的聲音和語(yǔ)音內(nèi)容分離。針對(duì)包含語(yǔ)音的有效內(nèi)容,我們也使用了語(yǔ)音降噪和分離的方案,綜合利用我們的聲音、文本、說(shuō)話等信息,以及在有條件的情況下,還可以使用多模態(tài)的唇形、視線以及麥克風(fēng)陣列的空間位置等信息來(lái)進(jìn)行聯(lián)合建模。以上這些才能保證我們能夠持續(xù)保持語(yǔ)音合成以及語(yǔ)音識(shí)別技術(shù)的領(lǐng)先。

與此同時(shí),我們也和合作伙伴一起,不斷提升在直播等復(fù)雜場(chǎng)景上的語(yǔ)音識(shí)別效果,并且準(zhǔn)確率從60%提到了85%。未來(lái)我們相關(guān)的技術(shù)也會(huì)在我們的開(kāi)放平臺(tái)——訊飛聽(tīng)見(jiàn)等上線。未來(lái),我們會(huì)做得更好,請(qǐng)大家繼續(xù)期待。
責(zé)任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 智能
    +關(guān)注

    關(guān)注

    8

    文章

    1752

    瀏覽量

    122144
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39979

    瀏覽量

    301607
  • 語(yǔ)音識(shí)別技術(shù)

    關(guān)注

    0

    文章

    55

    瀏覽量

    13297
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    語(yǔ)音識(shí)別IC分類,語(yǔ)音識(shí)別芯片的工作原理

    語(yǔ)音識(shí)別芯片,也叫語(yǔ)音識(shí)別集成電路,是種集聲音存儲(chǔ)、播放、錄音及語(yǔ)音
    的頭像 發(fā)表于 01-14 15:22 ?261次閱讀
    <b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>IC分類,<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>芯片的工作原理

    語(yǔ)音識(shí)別芯片有哪些(語(yǔ)音識(shí)別芯片AT680系列)

    在人工智能技術(shù)飛速發(fā)展的今天,語(yǔ)音識(shí)別芯片作為人機(jī)交互的重要橋梁,正逐漸成為各類智能設(shè)備不可或缺的核心部件。與傳統(tǒng)的語(yǔ)音芯片不同,
    的頭像 發(fā)表于 11-14 17:11 ?1397次閱讀

    廣州唯創(chuàng)電子WTK6900H-32N語(yǔ)音識(shí)別芯片:智能語(yǔ)音控制賦能LED燈帶創(chuàng)新應(yīng)用 | 語(yǔ)音IC廠家

    芯片,憑借其卓越的性能和精準(zhǔn)的識(shí)別能力,在LED燈帶控制領(lǐng)域展現(xiàn)出強(qiáng)大的應(yīng)用價(jià)值,為智能照明系統(tǒng)帶來(lái)了革命性的創(chuàng)新突破。、核心技術(shù)優(yōu)勢(shì)1.1高性能
    的頭像 發(fā)表于 11-04 08:53 ?693次閱讀
    廣州唯創(chuàng)電子WTK6900H-32N<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>芯片:智能<b class='flag-5'>語(yǔ)音</b>控制賦能LED燈帶創(chuàng)新應(yīng)用 | <b class='flag-5'>語(yǔ)音</b>IC廠家

    什么是離線語(yǔ)音識(shí)別芯片(離線語(yǔ)音識(shí)別芯片有哪些優(yōu)點(diǎn))

    離線語(yǔ)音識(shí)別芯片,是種集成了語(yǔ)音信號(hào)采集、前端處理和本地識(shí)別功能的專用集成電路,無(wú)須聯(lián)網(wǎng)也可以
    的頭像 發(fā)表于 10-31 15:27 ?529次閱讀

    如何選擇合適的語(yǔ)音識(shí)別芯片型號(hào)

    語(yǔ)音識(shí)別芯片(又稱語(yǔ)音識(shí)別IC)是現(xiàn)代智能設(shè)備的核心組件,與傳統(tǒng)語(yǔ)音芯片相比,其最大特點(diǎn)是能夠主動(dòng)識(shí)別
    的頭像 發(fā)表于 10-30 16:32 ?635次閱讀

    搭建自己的ubuntu系統(tǒng)之創(chuàng)建ubuntu虛擬機(jī)

    打開(kāi)VMware軟件,點(diǎn)擊創(chuàng)建新的虛擬機(jī)。進(jìn)入以下界面:選擇自定義,點(diǎn)擊“下一步”。選擇對(duì)應(yīng)VMware版本的兼容性,版本可在幫助-&gt;關(guān)于VMware Workstation中
    發(fā)表于 09-25 09:39

    ubuntu系統(tǒng)安裝之Vmware虛擬機(jī)安裝

    ,裝到自己電腦安裝軟件的分區(qū),點(diǎn)擊“下一步”。 勾選,點(diǎn)擊“下一步”。 勾選添加快捷方式,點(diǎn)擊“下一步”。 點(diǎn)擊“安裝”。 等待安裝完成。 點(diǎn)擊完成安裝。雙擊桌面上的VMware圖標(biāo)“” 學(xué)習(xí)
    發(fā)表于 09-22 16:27

    語(yǔ)音識(shí)別---大家怎么看呢?

    語(yǔ)音識(shí)別門交叉學(xué)科。近二十年來(lái),語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未
    發(fā)表于 08-09 10:54

    晶圓級(jí)封裝:連接密度提升的關(guān)鍵一步

    了解晶圓級(jí)封裝如何進(jìn)一步提高芯片的連接密度,為后續(xù)技術(shù)發(fā)展奠定基礎(chǔ)。
    的頭像 發(fā)表于 06-27 16:51 ?771次閱讀

    各位大佬,想問(wèn)下為什么這個(gè)程序一步一步運(yùn)行就可以讀出正確的讀數(shù),正常運(yùn)行卻讀不出正確讀數(shù)

    各位大佬,想問(wèn)下為什么這個(gè)程序一步一步運(yùn)行就可以讀出正確的讀數(shù),正常運(yùn)行卻讀不出正確讀數(shù)
    發(fā)表于 06-23 09:57

    智駕安全,發(fā)展到哪一步了?

    智駕安全,發(fā)展到哪一步了?
    的頭像 發(fā)表于 06-10 11:28 ?752次閱讀

    門鈴語(yǔ)音芯片有哪幾種型號(hào)可以選擇?

    門鈴語(yǔ)音芯片的選擇可以很廣泛!因?yàn)楹?jiǎn)單的OTP語(yǔ)音芯片也可以用,高級(jí)點(diǎn)的FLASH語(yǔ)音芯片,或
    的頭像 發(fā)表于 06-09 15:58 ?724次閱讀

    明遠(yuǎn)智睿SSD2351開(kāi)發(fā)板:語(yǔ)音機(jī)器人領(lǐng)域的變革力量

    源的開(kāi)發(fā)資料為開(kāi)發(fā)者提供了深入研究和定制語(yǔ)音機(jī)器人功能的基礎(chǔ),開(kāi)發(fā)者可以根據(jù)不同的應(yīng)用需求,對(duì)語(yǔ)音識(shí)別算法、語(yǔ)音合成引擎等進(jìn)行優(yōu)化和改進(jìn)。
    發(fā)表于 05-28 11:36

    CoT 數(shù)據(jù)集如何讓大模型學(xué)會(huì)一步一步思考?

    目前,大模型的回答路徑基本遵循 input-output 的方式,在面對(duì)復(fù)雜任務(wù)時(shí)表現(xiàn)不佳。反之,人類會(huì)遵循套有條理的思維流程,逐步推理得出正確答案。這種差異促使人們深入思考:如何才能讓大模型“智能涌現(xiàn)”,學(xué)會(huì)像人類樣“一步
    的頭像 發(fā)表于 04-24 16:51 ?1401次閱讀
    CoT 數(shù)據(jù)集如何讓大模型學(xué)會(huì)<b class='flag-5'>一步</b><b class='flag-5'>一步</b>思考?

    【貝啟科技BQ3568HM開(kāi)源鴻蒙開(kāi)發(fā)板深度試用報(bào)告】3-ubuntu18.04虛擬機(jī)開(kāi)發(fā)環(huán)境搭建

    :ctrl+N, 選擇下一步 選擇下一步 選擇下一步 我的配置如下,選擇下一步 我的配置: 下一步,我的設(shè)置 繼續(xù)
    發(fā)表于 03-18 11:28