AV日韩网址悠悠色网站,日本黄色做爱视频

9月15日，AI領(lǐng)域的行業(yè)盛會“百度世界2020”大會于線上隆重召開，一大波硬核技術(shù)襲來：百度創(chuàng)始人、董事長兼CEO李彥宏與總臺央視主持人康輝“虛擬人”亮相、顛覆搜索形態(tài)的“度曉曉”、沒有駕駛員的“全自動駕駛”、各行各業(yè)賦能案例……既有硬核技術(shù)，又有“接地氣”的落地應(yīng)用。

在當(dāng)天的百度大腦分論壇上，百度語音首席架構(gòu)師賈磊重點講解了百度端到端語音交互技術(shù)。他表示，百度語音交互技術(shù)持續(xù)迭代升級，已發(fā)展成為基于深度學(xué)習(xí)技術(shù)的端到端的語音識別和語音合成技術(shù)。在語音識別層面，百度推出端到端信號聲學(xué)一體化建模的技術(shù)，語音合成方面，最新的Meitron和單人千面合成個性化技術(shù)亮相。同時交出了百度語音技術(shù)最新成績單：日均調(diào)用量超過155億次，廣泛應(yīng)用在移動端、智能家居、和語音IoT等場景，智能語音產(chǎn)業(yè)化成果豐碩。

會上，賈磊分別從語音識別和語音合成兩個技術(shù)維度詳解了百度語音技術(shù)的發(fā)展迭代和最新成果。在語音識別方面，百度語音識別技術(shù)持續(xù)創(chuàng)新，從2012年首推深度學(xué)習(xí)技術(shù)，到2019年在業(yè)內(nèi)首先把注意力模型應(yīng)用于在線語音識別，推出流式多級的截斷注意力模型 SMLTA;再到如今全面進(jìn)化為端到端的信號聲學(xué)一體化建模技術(shù)，在助力百度自身業(yè)務(wù)發(fā)展的同時，更好地賦能多場景、多產(chǎn)業(yè)應(yīng)用。

百度智能語音交互的產(chǎn)業(yè)化成果豐碩,推進(jìn)語音技術(shù)應(yīng)用落地

作為百度語音識別技術(shù)的最新成果，端到端的信號聲學(xué)一體化建模技術(shù)很好地解決了傳統(tǒng)數(shù)字信號處理和語音識別級聯(lián)系統(tǒng)的各種問題，拋棄了各自學(xué)科的學(xué)科假設(shè)，通過端到端的建模，大幅提升了遠(yuǎn)場語音識別率。

據(jù)賈磊介紹，端到端的信號聲學(xué)一體化建模技術(shù)由模型波束技術(shù)和模型AEC技術(shù)組成。前者進(jìn)化為多分區(qū)融合的模型波束建模技術(shù)，在國際上由百度首次提出，較單分區(qū)技術(shù)進(jìn)一步提升識別性能15%以上;后者是升級為基于雙LOSS實值掩蔽的模型AEC技術(shù)，可以解決設(shè)備有非線性情況下的回波消除問題，使得設(shè)備即使在播放音樂的時候，也能夠進(jìn)行成功的打斷和高精準(zhǔn)的語音識別。

此外，賈磊還在會上介紹了百度今年推出的端側(cè)全雙工語音交互技術(shù)。據(jù)他介紹，百度端側(cè)全雙工語音交互技術(shù)將復(fù)雜的建模過程轉(zhuǎn)化為3個端到端的深度學(xué)習(xí)過程，即信號聲學(xué)一體化建模、聲學(xué)語言一體化建模以及語義置信一體化建模。通過端到端的建模，該技術(shù)能夠?qū)⒄麄€復(fù)雜的端側(cè)交互轉(zhuǎn)變成若干個深度學(xué)習(xí)計算，使得依靠一顆AI芯片就能完成端側(cè)的全雙工語音交互，從而大幅度提升車載手機(jī)等語音交互性能，顯著改善用戶體驗。

而在語音合成方面，百度自2013年啟動語音合成研發(fā)，歷經(jīng)參數(shù)合成、拼接合成、深度學(xué)習(xí)語音合成和端到端的語音合成，到如今全新升級為包含個性化、多風(fēng)格多角色、單人千面的語音合成系統(tǒng)，百度語音合成技術(shù)始終處于升級迭代中。

會上，賈磊依次介紹了百度語音合成技術(shù)的最新成果——個性化TTS，多風(fēng)格、多角色，單人千面。個性化TTS是個性化定制的Meitron語音合成系統(tǒng)的最新演進(jìn)，是基于子帶分解和GAN_loss的端側(cè)神經(jīng)網(wǎng)絡(luò)聲碼器，也是業(yè)內(nèi)首個在手機(jī)端多人通用的端側(cè)的基于神經(jīng)計算的聲碼器。個性化TTS相較于傳統(tǒng)的基于信號處理和參數(shù)的聲碼器，ABX提升可以達(dá)到65：35，其已應(yīng)用于地圖導(dǎo)航，目前每日的導(dǎo)航播報超過1億次。

多風(fēng)格、多角色的語音合成，則是針對娛樂內(nèi)容產(chǎn)業(yè)（例如小說）中存在的多個角色交替、多種情感需求并存的播報需求而研發(fā)的新技術(shù)。此前，用單一音色播報缺乏表現(xiàn)力，播報語音和文字本身的角色情感不一致，用戶長時間聽感到單調(diào)疲倦。百度通過深度學(xué)習(xí)技術(shù)對小說文本進(jìn)行分析，判斷出角色、身份、情感，再借助多風(fēng)格、多角色語音合成技術(shù)去合成小說中的聲音，從而實現(xiàn)聲音自然流暢、情感表現(xiàn)力豐富、用戶體驗優(yōu)美的效果。

針對一個發(fā)音人需要用不同風(fēng)格播報文本的應(yīng)用場景，百度推出單人千面語音合成技術(shù)。該技術(shù)能夠把說話人的語音、文本、風(fēng)格、內(nèi)容、音色都進(jìn)行分離，在進(jìn)行語音合成的時候自由組合，從而能夠讓一個發(fā)音人同時去播報新聞、小說、脫口秀、讀書、詩歌等不同風(fēng)格。

“百度智能語音交互的產(chǎn)業(yè)化成果豐碩，目前百度智能語音的日均調(diào)用量超過155億次，廣泛應(yīng)用于移動端、智能家居、智能車載、智能服務(wù)以及語音IoT，極大地提高了中國社會的智能化程度?！辟Z磊表示。語音技術(shù)作為百度大腦的重要AI能力之一，不但應(yīng)用于百度搜索、百度輸入法、百度地圖、小度音箱等百度系列產(chǎn)品，更通過百度大腦AI開放平臺廣泛賦能眾多行業(yè)和場景的合作伙伴。未來，百度還將持續(xù)創(chuàng)新升級語音交互技術(shù)，推進(jìn)語音技術(shù)應(yīng)用落地，助力更多產(chǎn)業(yè)智能化轉(zhuǎn)型升級。

責(zé)任編輯：gt

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴