91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌手機(jī)重磅推出了一款端到端、全神經(jīng)、基于設(shè)備的語(yǔ)音識(shí)別器

電子工程師 ? 來(lái)源:lp ? 2019-03-28 14:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

識(shí)別延遲一直是設(shè)備端語(yǔ)音識(shí)別技術(shù)需要解決的重大問(wèn)題,谷歌手機(jī)今天更新了手機(jī)端的語(yǔ)音識(shí)別技術(shù)——Gboard,重磅推出了一款端到端、全神經(jīng)、基于設(shè)備的語(yǔ)音識(shí)別器,支持Gboard中的語(yǔ)音輸入。通過(guò)谷歌最新的(RNN-T)技術(shù)訓(xùn)練的模型,該模型精度超過(guò)CTC,并且只有80M,可直接在設(shè)備上運(yùn)行。

2012年,語(yǔ)音識(shí)別研究獲得新突破——深度學(xué)習(xí)可以提高識(shí)別的準(zhǔn)確性,最早探索這項(xiàng)技術(shù)的產(chǎn)品便是谷歌語(yǔ)音搜索了。這標(biāo)志這語(yǔ)音識(shí)別革命的開(kāi)始,從深層神經(jīng)網(wǎng)絡(luò)(DNNs)到遞歸神經(jīng)網(wǎng)絡(luò)(RNNs),長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTMs),卷積網(wǎng)絡(luò)(CNNs)等等,新的架構(gòu)和開(kāi)發(fā)質(zhì)量每年都在快速提升。在發(fā)展過(guò)程中,識(shí)別延遲仍然是攻關(guān)難點(diǎn)。

今天,谷歌官方宣布,推出一款端到端、全神經(jīng)、基于設(shè)備的語(yǔ)音識(shí)別器,支持Gboard中的語(yǔ)音輸入。

在谷歌最近的論文“移動(dòng)設(shè)備的流媒體端到端語(yǔ)音識(shí)別”中,提出了一種使用RNN傳感器(RNN-T)技術(shù)訓(xùn)練的模型,并且可以在手機(jī)上實(shí)現(xiàn)。這意味著即使你的手機(jī)網(wǎng)絡(luò)延遲,甚至處于離線狀態(tài),新的識(shí)別器也始終可用。

谷歌論文下載鏈接:

https://arxiv.org/abs/1811.06621

該模型以單詞級(jí)別運(yùn)行,也就是說(shuō),當(dāng)你說(shuō)話時(shí),它會(huì)逐個(gè)字符地輸出單詞,就像是你自己在敲鍵盤(pán)一樣。

語(yǔ)音識(shí)別的歷史

最初,語(yǔ)音識(shí)別系統(tǒng)由這樣幾個(gè)部分組成,將音頻片段(通常為10毫秒幀)映射到音素的聲學(xué)模型,將音素連接在一起形成單詞的發(fā)音模型,語(yǔ)言模型給出相應(yīng)的短語(yǔ)。這些組件在早期系統(tǒng)中都是相互獨(dú)立的。

大約在2014年,研究人員開(kāi)始專注于訓(xùn)練單個(gè)神經(jīng)網(wǎng)絡(luò),將輸入音頻波形直接映射到輸出句子。

也就是說(shuō),通過(guò)給定一系列音頻特征,生成一系列單詞或字形來(lái)建立學(xué)習(xí)模型,這種seq2seq模型的出現(xiàn)促進(jìn)了“attention-based ”和“l(fā)isten-attend-spell” 模型的進(jìn)展。

這些模型期望在識(shí)別準(zhǔn)確度上做出突破,但其需要通檢查整個(gè)輸入序列來(lái)工作,并且在輸入時(shí)不允許輸出,這就很難實(shí)現(xiàn)實(shí)時(shí)語(yǔ)音轉(zhuǎn)錄了。

幾乎同一時(shí)間,一個(gè)被稱為CTC的獨(dú)立技術(shù)出現(xiàn)了,成功解決了識(shí)別延時(shí)的問(wèn)題,采用CTC技術(shù)也就成為邁向RNN-T架構(gòu)最重要一步。

遞歸神經(jīng)網(wǎng)絡(luò)傳感器

RNN-Ts是一種非注意機(jī)制的seq2seq模型。與大多數(shù)seq2seq模型(通常需要處理整個(gè)輸入序列(在我們的例子中是波形)以產(chǎn)生輸出(句子))不同,RNN-T可以連續(xù)處理輸入樣本和流輸出符號(hào),這種屬性對(duì)于語(yǔ)音識(shí)別尤其友好。在實(shí)現(xiàn)過(guò)程中,輸出符號(hào)是字母表的字符。RNN-T識(shí)別器會(huì)逐個(gè)輸出字符,并在適當(dāng)?shù)奈恢幂斎肟崭?。它通過(guò)反饋循環(huán)執(zhí)行此操作,該循環(huán)將模型預(yù)測(cè)的符號(hào)反饋到其中,以預(yù)測(cè)下一個(gè)符號(hào),如下圖所示。

訓(xùn)練這樣一只有效運(yùn)行的模型已經(jīng)很困難,并且隨著我們開(kāi)發(fā)的進(jìn)展——進(jìn)一步將單詞錯(cuò)誤率降低了5%,模型變得更加計(jì)算密集。為了解決這個(gè)問(wèn)題,我們開(kāi)發(fā)了并行實(shí)現(xiàn),使得RNN-T損失功能可以在Google的高性能CloudTPU v2硬件上大批量運(yùn)行。這在訓(xùn)練中實(shí)現(xiàn)了約3倍的加速。

離線識(shí)別

在傳統(tǒng)的語(yǔ)音識(shí)別引擎中,我們上面描述的聲學(xué)、發(fā)音和語(yǔ)言模型會(huì)被“組合”成一個(gè)大的圖搜索算法。當(dāng)語(yǔ)音波形被呈現(xiàn)給識(shí)別器時(shí),“解碼器”在給定輸入信號(hào)的情況下,會(huì)在該圖中搜索相似度最高的路徑,并讀出該路徑所采用的字序列。

通常,解碼器采用基礎(chǔ)模型的有限狀態(tài)傳感器(FST)表示。然而,盡管有復(fù)雜的解碼技術(shù),圖搜索算法仍然非常之大,以我們的模型為例,可以達(dá)到了2GB。如此大的模型根本無(wú)法在移動(dòng)設(shè)備上運(yùn)行,因此這種方法需要在連線時(shí)才能正常工作。

為了提高語(yǔ)音識(shí)別的有效性,我們?cè)噲D通過(guò)直接在設(shè)備上運(yùn)行新模型,來(lái)避免通信網(wǎng)絡(luò)的延遲和不可靠性。因此,我們的端到端方法不需要在大型解碼器圖上進(jìn)行搜索。

相反,只通過(guò)單個(gè)神經(jīng)網(wǎng)絡(luò)的波束搜索進(jìn)行。我們訓(xùn)練的RNN-T提供與傳統(tǒng)的基于服務(wù)器的模型相同的精度,但只有450MB,可以更加智能地使用參數(shù)和打包信息。然而,即使在今天的智能手機(jī)上,450MB也不小了,并且,通過(guò)如此龐大的網(wǎng)絡(luò)傳輸信號(hào)依然很慢。

進(jìn)一步的,我們通過(guò)使用參數(shù)量化和混合內(nèi)核技術(shù)來(lái)縮小模型,我們?cè)?016年開(kāi)發(fā)了這一技術(shù)并在TensorFlow精簡(jiǎn)版庫(kù)上公開(kāi)提供了模型優(yōu)化工具包。

模型量化相對(duì)于訓(xùn)練的浮點(diǎn)模型提供4倍壓縮,在運(yùn)行時(shí)提供4倍加速,使我們的RNN-T比單核上的實(shí)時(shí)語(yǔ)音運(yùn)行得更快。壓縮后,我們模型的最終大小達(dá)到了80MB。

終于,當(dāng)當(dāng)當(dāng),我們的新型設(shè)備端神經(jīng)網(wǎng)絡(luò)Gboard語(yǔ)音識(shí)別器上線了。最初的版本,我們僅提供英語(yǔ)語(yǔ)言,適配所有Pixel手機(jī)。鑒于行業(yè)趨勢(shì),隨著專業(yè)硬件和算法改進(jìn)的融合,我們希望這里介紹的技術(shù)可以很快用于更多語(yǔ)言和更廣泛的應(yīng)用領(lǐng)域。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111655
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    39

    文章

    1812

    瀏覽量

    116142
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5600

    瀏覽量

    124497

原文標(biāo)題:全離線,無(wú)延遲!谷歌手機(jī)更新語(yǔ)音識(shí)別系統(tǒng),模型大小僅80M

文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    為什么段式自動(dòng)駕駛很難落地?

    ,將感知、預(yù)測(cè)、規(guī)控等任務(wù)拆分為相互獨(dú)立的子系統(tǒng)。然而,隨著深度學(xué)習(xí)技術(shù)的突破,的新興技術(shù)架構(gòu)開(kāi)始占據(jù)討論的中心。 在這架構(gòu)中,
    的頭像 發(fā)表于 03-08 09:44 ?1711次閱讀
    為什么<b class='flag-5'>一</b>段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動(dòng)駕駛很難落地?

    解鎖仿真新可能 :全新 aiSim 6 即將發(fā)布

    前言隨著自動(dòng)駕駛從學(xué)術(shù)探索走向規(guī)?;瘧?yīng)用,無(wú)論是特斯拉FSD神經(jīng)模擬、Waymo基于DeepMindGenie3的世界模型,還是國(guó)內(nèi)
    的頭像 發(fā)表于 03-06 17:33 ?1164次閱讀
    解鎖<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>仿真新可能 :全新 aiSim 6 即將發(fā)布

    自動(dòng)駕駛為什么會(huì)出現(xiàn)黑盒現(xiàn)象?

    在自動(dòng)駕駛領(lǐng)域,(End-to-End)是指從感知環(huán)境的原始數(shù)據(jù)車輛實(shí)際控制指令,全部交給個(gè)統(tǒng)
    的頭像 發(fā)表于 02-20 09:25 ?9414次閱讀
    自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>為什么會(huì)出現(xiàn)黑盒現(xiàn)象?

    晶晨攜手谷歌,助力側(cè)大模型Gemini的硬件落地

    電子發(fā)燒友網(wǎng)報(bào)道 在科技飛速發(fā)展的當(dāng)下,側(cè)智能技術(shù)正以前所未有的速度滲透各個(gè)領(lǐng)域。1月28日,晶晨股份透露,公司與谷歌有著長(zhǎng)達(dá)十余年的深度合作基礎(chǔ)。作為谷歌
    的頭像 發(fā)表于 01-29 10:44 ?2181次閱讀

    與模塊化自動(dòng)駕駛的數(shù)據(jù)標(biāo)注要求有何不同?

    核心的新路徑正迅速崛起,試圖通過(guò)個(gè)統(tǒng)神經(jīng)網(wǎng)絡(luò)直接完成從傳感輸入駕駛指令輸出的全過(guò)程。這種架構(gòu)上的根本差異,也對(duì)數(shù)據(jù)標(biāo)注提
    的頭像 發(fā)表于 01-27 09:48 ?972次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>與模塊化自動(dòng)駕駛的數(shù)據(jù)標(biāo)注要求有何不同?

    分享一款高端離線語(yǔ)音識(shí)別IC AT680系列

    離線語(yǔ)音識(shí)別IC的本地處理帶來(lái)極速響應(yīng),識(shí)別指令可在毫秒級(jí)完成,用戶體驗(yàn)流暢無(wú)延遲。除此之外,離線語(yǔ)音識(shí)別IC還有
    的頭像 發(fā)表于 12-30 16:19 ?311次閱讀

    智駕模擬軟件推薦——為什么選擇Keymotek的aiSim?

    隨著自動(dòng)駕駛技術(shù)的快速發(fā)展,車企和科技公司對(duì)于模擬測(cè)試平臺(tái)的需求越來(lái)越強(qiáng)。從L2/ADASL4/L5等級(jí)的自動(dòng)駕駛,虛擬模擬已經(jīng)成為其中的關(guān)鍵環(huán)。特別是對(duì)于「對(duì)」智駕(
    的頭像 發(fā)表于 11-18 11:35 ?868次閱讀

    自動(dòng)駕駛中“段式”和“二段式”有什么區(qū)別?

    [首發(fā)于智駕最前沿微信公眾號(hào)]最近有小伙伴提問(wèn),段式和二段式
    的頭像 發(fā)表于 10-24 09:03 ?1287次閱讀
    自動(dòng)駕駛中“<b class='flag-5'>一</b>段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么區(qū)別?

    語(yǔ)音交互數(shù)據(jù) 精準(zhǔn)賦能語(yǔ)音大模型進(jìn)階

    模型在多輪對(duì)話、噪聲環(huán)境及語(yǔ)義理解方面表現(xiàn)不佳。 相較于傳統(tǒng)數(shù)據(jù)集僅關(guān)注語(yǔ)音-文本的單點(diǎn)轉(zhuǎn)寫(xiě),語(yǔ)音交互數(shù)據(jù)集強(qiáng)調(diào)在真實(shí)多輪對(duì)話場(chǎng)景下的
    的頭像 發(fā)表于 09-11 17:17 ?788次閱讀

    當(dāng)經(jīng)典IP撞上AI技術(shù):利爾達(dá)助力躍然創(chuàng)新推出全球首AI互動(dòng)玩具

    //當(dāng)孩子們手中的奧特曼玩具不僅能發(fā)光發(fā)聲,還能真正智能對(duì)話、情感陪伴,傳統(tǒng)的玩具行業(yè)正經(jīng)歷場(chǎng)前所未有的技術(shù)革命……今日,AI玩具領(lǐng)軍企業(yè)躍然創(chuàng)新(Haivivi)推出全球首搭載
    的頭像 發(fā)表于 08-26 17:37 ?2010次閱讀
    當(dāng)經(jīng)典IP撞上AI技術(shù):利爾達(dá)助力躍然創(chuàng)新<b class='flag-5'>推出</b>全球首<b class='flag-5'>款</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>AI互動(dòng)玩具

    廣和通發(fā)布自研側(cè)語(yǔ)音識(shí)別大模型FiboASR

    7月,全球領(lǐng)先的無(wú)線通信模組及AI解決方案提供商廣和通,發(fā)布其自主研發(fā)的語(yǔ)音識(shí)別大模型FiboASR。該模型專為側(cè)設(shè)備上面臨的面對(duì)面實(shí)時(shí)對(duì)話及多人會(huì)議場(chǎng)景深度優(yōu)化,在低延遲
    的頭像 發(fā)表于 08-04 11:43 ?1672次閱讀

    為什么自動(dòng)駕駛大模型有黑盒特性?

    、激光雷達(dá)數(shù)據(jù))映射到控制輸出(如方向盤(pán)轉(zhuǎn)角、加速度、制動(dòng)等),以深度神經(jīng)網(wǎng)絡(luò)為核心,打通了從視覺(jué)駕駛行為的完整鏈條。它也代表了自動(dòng)駕駛從“規(guī)則驅(qū)動(dòng)”向“數(shù)據(jù)驅(qū)動(dòng)”的躍遷,展現(xiàn)了極高的潛力。當(dāng)然這種結(jié)構(gòu)也天然地帶來(lái)了個(gè)
    的頭像 發(fā)表于 07-04 16:50 ?948次閱讀
    為什么自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有黑盒特性?

    為何成為各車企智駕布局的首要選擇?

    算法實(shí)現(xiàn)輸入輸出的整體映射,技術(shù)通過(guò)將原始傳感數(shù)據(jù)直接輸入單
    的頭像 發(fā)表于 06-07 11:52 ?778次閱讀
    為何<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>成為各車企智駕布局的首要選擇?

    文帶你厘清自動(dòng)駕駛架構(gòu)差異

    大模型則嘗試直接將傳感輸入映射到車輛控制指令上,實(shí)現(xiàn)聯(lián)合優(yōu)化。雖同為
    的頭像 發(fā)表于 05-08 09:07 ?1104次閱讀
    <b class='flag-5'>一</b>文帶你厘清自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架構(gòu)差異

    自動(dòng)駕駛中基于規(guī)則的決策和大模型有何區(qū)別?

    在自動(dòng)駕駛架構(gòu)的選擇上,也經(jīng)歷了從感知、決策控制、執(zhí)行的三段式架構(gòu)到現(xiàn)在火熱的大模型,尤其是在2024年特斯拉推出FSD V12后,各車企更是陸續(xù)
    的頭像 發(fā)表于 04-13 09:38 ?3805次閱讀
    自動(dòng)駕駛中基于規(guī)則的決策和<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有何區(qū)別?