91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于語音合成的類別以及應(yīng)用分析

訊飛開放平臺(tái) ? 來源:djl ? 作者:汪艦 ? 2019-10-08 08:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語音合成又叫文語轉(zhuǎn)換,是將文本轉(zhuǎn)換成語音的一種技術(shù),是人機(jī)交互中必不可少的一個(gè)環(huán)節(jié)。隨著技術(shù)的發(fā)展,現(xiàn)在合成語音的自然度和音質(zhì)都得到了明顯的改善。汽車導(dǎo)航內(nèi)嵌的語音系統(tǒng)、智能手機(jī)語音助手、讀書軟件等等,這些應(yīng)用的實(shí)現(xiàn)都離不開語音合成。時(shí)下熱門的AR、機(jī)器人、可穿戴設(shè)備等也為語音合成技術(shù)落地提供了更廣闊的市場(chǎng)。

不過,當(dāng)前語音合成技術(shù)還有很多痛點(diǎn)急需要解決,讓機(jī)器擁有自然、有情感的聲音,依舊是語音合成技術(shù)最大的難點(diǎn)。語音合成的現(xiàn)狀是怎樣?一個(gè)優(yōu)質(zhì)合成音是怎樣誕生的?AI浪潮下,你可以如何玩轉(zhuǎn)語音合成?AI公開課第一期,我們?yōu)槟阏?qǐng)到科大訊飛云平臺(tái)技術(shù)服務(wù)專家——汪艦為你解答這些問題。

什么是語音合成

語音合成也叫文語轉(zhuǎn)換(Text-To-Speech),簡稱TTS,簡單理解就是“讓機(jī)器說人話”。

語音合成用在哪里

別看語音合成技術(shù)近年來才被廣泛應(yīng)用,實(shí)際它已經(jīng)有兩百多年的歷史了。

那么語音合成都在我們生活中的哪些地方出現(xiàn)過呢?我總結(jié)了三個(gè)方面:

第一個(gè)是APP,比如QQ閱讀這樣的讀書應(yīng)用,滴滴出行高德導(dǎo)航這種導(dǎo)航播報(bào)類的app;還有以siri為代表的語音助手,都是語音合成功能的常見載體;

另外一類是智能硬件產(chǎn)品,比如非?;鸬臋C(jī)器人領(lǐng)域,我們都希望機(jī)器人可以像真人一樣和我們進(jìn)行交流,所以合成功能基本就是他們的必備能力。

還有一些特殊領(lǐng)域也非常需要語音合成,比如視障閱讀,對(duì)于視障人士來說,聽書比摸書要高效得多。

語音合成里的技術(shù)門派

將語音合成技術(shù)門派按武俠風(fēng)格可以劃分為:氣宗和劍宗。想當(dāng)年氣宗草創(chuàng)之初,創(chuàng)始人的想法很簡單,人怎么發(fā)聲的我就讓機(jī)器怎么發(fā)聲,基本就是山寨人體的思路。

但是有撥人認(rèn)為,氣宗這么搞沒有前途,而且成效太慢,可操作性太差了,這撥人就是劍宗。劍宗表示,我們完全可以直接找人把語音里面所有的基礎(chǔ)片段都錄好,然后按照需要直接拼就行了。

技術(shù)門派之氣宗

先來看看氣宗具體是怎么玩的:他們用氣囊代替肺,接根管子代替氣管,管子末端再裝個(gè)氣門代替聲帶,氣門后面再裝個(gè)橡膠做的碗狀結(jié)構(gòu)來模擬口腔。

這套系統(tǒng)的操作非常簡單,一只手掐住脖子就是氣門,控制基頻高低;另一只手操作口腔就是那個(gè)橡膠碗,控制發(fā)什么音;剩下的那個(gè)用來模擬肺的氣囊就只能用腳來踩了。

基頻又是什么呢? 讓我們舉個(gè)簡單的例子,漢語普通話除輕聲以外有四種聲調(diào),2聲的基頻就是前低后高,4聲的前高后低,3聲是先高后低再高。掐氣門的手捏得越緊,聲道越窄,振動(dòng)的基頻就越高。不過這當(dāng)個(gè)發(fā)明愛好還可以,實(shí)際用起來肯定不靠譜。但是隨著科學(xué)的發(fā)展,計(jì)算機(jī)技術(shù)開始出現(xiàn),逐漸普及,給很多領(lǐng)域都帶來了全新的變化,語音合成當(dāng)然也不例外。

技術(shù)門派之劍宗

劍宗表示,我們完全可以直接找人把語音里面所有的基礎(chǔ)片段都錄好,按照需要直接拼就行了。這個(gè)基礎(chǔ)片段可長可短,可以是音素,可以是音節(jié),甚至是聲韻母的拼音。這種方法對(duì)人的要求就簡單多了,基本上會(huì)拼圖就能操作,所以也比較速成。

但是在沒有計(jì)算機(jī)的時(shí)代,大量單元的管理和拼接是很麻煩的工作,所以每個(gè)基礎(chǔ)單元一般只保存了較少的樣例供選擇。那么在合成千變?nèi)f化的句子的時(shí)候,語音的起承轉(zhuǎn)合難免就有些生硬和突兀,拼出來的語音雖然能讓人聽懂,但很難做到自然流暢。

計(jì)算機(jī)出現(xiàn)后這個(gè)問題得到有效的解決,有了計(jì)算和存儲(chǔ)能力更大的計(jì)算機(jī),他們就可以進(jìn)行超大規(guī)模音庫的制作,包括語料設(shè)計(jì)、音庫錄制、精細(xì)切分、韻律標(biāo)注;同時(shí)進(jìn)行規(guī)則統(tǒng)計(jì),以此來針對(duì)不同發(fā)音人進(jìn)行細(xì)致調(diào)整。這樣合成出來的音頻音質(zhì)比較好,一般句子的自然度也不錯(cuò)。

所以在此后很長一段時(shí)間,劍宗對(duì)氣宗在合成音的音質(zhì)上占據(jù)了絕對(duì)優(yōu)勢(shì),氣宗只在嵌入式的小系統(tǒng)上保留著一小塊領(lǐng)地。這種狀況直到后來氣宗成功引入了在語音識(shí)別領(lǐng)域大放異彩的HMM(隱馬爾科夫模型)才得到根本改善。

語音合成技術(shù)痛點(diǎn)是什么

從合成的發(fā)展歷史來看,表現(xiàn)力、音質(zhì)、復(fù)雜度和自然度一直是合成技術(shù)所追求的四點(diǎn)。其中隨著技術(shù)的演進(jìn),復(fù)雜度、自然度、音質(zhì)三個(gè)方面都已經(jīng)取得了非常不錯(cuò)的成績。目前各大技術(shù)提供商更多的是在研究如何提高合成音的表現(xiàn)力,特別是語氣和情感方面。

一條音頻是如何合成出來的

這里其實(shí)包括了兩個(gè)過程,一個(gè)是語音庫的制作過程,一個(gè)是使用語音庫將文本變成音頻的過程。語音庫的制作首先需要收集客戶的需求,確定音色、風(fēng)格、使用領(lǐng)域、產(chǎn)品特性、角色要求;然后找到配音員試音,根據(jù)需求設(shè)計(jì)試音文本,收集錄音,通過實(shí)驗(yàn)分析確定發(fā)音人是否合適做音庫;然后和客戶確認(rèn)實(shí)驗(yàn)效果是否能接受;最后投入音庫生產(chǎn)線,錄音腳本設(shè)計(jì)、錄音資源訓(xùn)練、效果優(yōu)化。

然后看一下真正的合成過程:輸入文本后首先需要按照詞典規(guī)則對(duì)文本進(jìn)行語言處理,主要模擬人對(duì)自然語言的理解過程,包括文本規(guī)整、詞的切分、語法語義分析,使計(jì)算機(jī)對(duì)輸入的文本能完全理解,并給出后續(xù)步驟所需要的各種發(fā)音提示。然后是韻律處理,就是為合成語音規(guī)劃出音段特征,如音高、音長和音強(qiáng)等,使合成語音能正確表達(dá)語意,聽起來更加自然。最后根據(jù)前兩部分處理結(jié)果的要求輸出語音,即合成語音。

語音合成優(yōu)秀案例解析

QQ閱讀演示視頻

小程序:AI隨身聽 演示視頻

訊飛開放平臺(tái)的語音合成技術(shù)

訊飛開放平臺(tái)目前以SDK的形式提供語音合成能力

目前提供支持8個(gè)平臺(tái)的合成SDK,免費(fèi)開放36個(gè)在線發(fā)音人,還有15個(gè)離線發(fā)音人可供購買使用,其中發(fā)音人xiaoyuan更是支持中英文混合合成。支持各種語言方言13種。另外對(duì)于有特殊要求的產(chǎn)品,我們還提供特色發(fā)音人的定制服務(wù),例如很多小伙伴比較熟悉的高德地圖林志玲的聲音,還有之前PPT出現(xiàn)龍泉寺賢二的發(fā)音人。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7810

    瀏覽量

    93240
  • 語音合成
    +關(guān)注

    關(guān)注

    2

    文章

    94

    瀏覽量

    16781
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    9066

    瀏覽量

    143815
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于開源鴻蒙的語音識(shí)別及語音合成應(yīng)用開發(fā)樣例

    本期內(nèi)容由AI Model SIG提供,介紹了在開源鴻蒙中,利用sherpa_onnx開源三方庫進(jìn)行ASR語音識(shí)別與TTS語音合成應(yīng)用開發(fā)的流程。
    的頭像 發(fā)表于 08-25 14:26 ?4141次閱讀
    基于開源鴻蒙的<b class='flag-5'>語音</b>識(shí)別及<b class='flag-5'>語音</b><b class='flag-5'>合成</b>應(yīng)用開發(fā)樣例

    TTS文字合成語音芯片的使用場(chǎng)景

    TTS文字合成語音播報(bào)芯片的使用場(chǎng)景非常廣泛,可以適用于各行各業(yè),主要應(yīng)用于復(fù)雜的語音播報(bào)場(chǎng)景,下面小編帶大家一起來了解一下。 傳統(tǒng)的語音播報(bào)芯片,主要是先把語音存入FLASH當(dāng)中,然
    的頭像 發(fā)表于 08-22 17:11 ?1015次閱讀

    一顆TTS語音芯給產(chǎn)品增加智能語音播報(bào)能力

    一顆TTS語音芯片給產(chǎn)品增加智能語音播報(bào)能力 傳統(tǒng)語音播報(bào)芯片可以設(shè)置一些固定的語音片段或者內(nèi)容,但是對(duì)于現(xiàn)在各種創(chuàng)新產(chǎn)品層出不窮的時(shí)代,傳統(tǒng)的語音
    的頭像 發(fā)表于 08-14 16:33 ?753次閱讀

    語音輸出模塊是什么?自控語音播報(bào)

    :接收來自云平臺(tái)(如單片機(jī)/PLC/電腦)的指令,輸入可能是:文本數(shù)據(jù)(例如:"溫度過高")、預(yù)存語音編碼(如MP3/WAV文件的數(shù)字信號(hào))、控制指令(觸發(fā)預(yù)置語音片段) 2.語音合成
    的頭像 發(fā)表于 08-13 15:20 ?949次閱讀

    從開發(fā)工程師視角看TTS語音合成芯片

    從開發(fā)工程師視角看TTS語音合成芯片 在語音交互領(lǐng)域,TTS 語音合成芯片作為關(guān)鍵角色,正不斷革新著人機(jī)對(duì)話的體驗(yàn)。從開發(fā)工程師角度深入剖析
    的頭像 發(fā)表于 08-13 14:52 ?843次閱讀

    Air8000 TTS開源,語音合成從此“零距離”!

    技術(shù)不應(yīng)有圍墻,創(chuàng)新需要共生長。Air8000宣布TTS應(yīng)用源代碼全面開放,開發(fā)者可自由定制語音風(fēng)格、優(yōu)化合成效果,讓文字與聲音的對(duì)話,不再受限于黑箱算法。 TTS (Text-to-Speech
    的頭像 發(fā)表于 07-03 16:33 ?629次閱讀
    Air8000 TTS開源,<b class='flag-5'>語音</b><b class='flag-5'>合成</b>從此“零距離”!

    明遠(yuǎn)智睿SSD2351開發(fā)板:語音機(jī)器人領(lǐng)域的變革力量

    的四核1.4GHz處理器具備強(qiáng)勁的運(yùn)算性能,能夠高效處理語音機(jī)器人運(yùn)行過程中的復(fù)雜任務(wù)。語音識(shí)別和合成需要大量的計(jì)算資源,該處理器可以快速對(duì)語音信號(hào)進(jìn)行
    發(fā)表于 05-28 11:36

    大模型時(shí)代的新燃料:大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集

    大模型充分學(xué)習(xí)到語音的發(fā)音規(guī)律、語義特征、語境等信息,從而提升語音識(shí)別、語音合成等關(guān)鍵能力,提供更加準(zhǔn)確、自然、智能的語音交互體驗(yàn)。
    的頭像 發(fā)表于 04-30 16:17 ?690次閱讀

    智能收銀語音交互新標(biāo)桿—WT3000T8語音合成芯片TTS技術(shù)應(yīng)用解析

    一、行業(yè)應(yīng)用背景在零售業(yè)態(tài)智能化轉(zhuǎn)型的浪潮中,收銀設(shè)備正經(jīng)歷從功能型向服務(wù)型轉(zhuǎn)變的關(guān)鍵階段。WT3000T8語音合成芯片應(yīng)運(yùn)而生,專為滿足新零售場(chǎng)景下智能收銀終端的語音交互需求而設(shè)計(jì)。該芯片通過創(chuàng)新
    的頭像 發(fā)表于 04-24 08:45 ?1047次閱讀
    智能收銀<b class='flag-5'>語音</b>交互新標(biāo)桿—WT3000T8<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片TTS技術(shù)應(yīng)用解析

    WT3000TX語音合成芯片介紹V1

    WT3000TX是一系列功能強(qiáng)大的高品質(zhì)語音芯片,采用了高性能32位處理器、最高頻率可達(dá)240MHz。WT3000TX高集成度的語音合成芯片,可實(shí)現(xiàn)中文、英文字母或中英文語音
    發(fā)表于 04-17 08:43 ?0次下載

    YX5p多功能單芯片CMOS語音合成4位微控制器中文手冊(cè)

    深圳市駿旺微電子有限公司的 YX5P 系列語音芯片數(shù)據(jù)手冊(cè),詳細(xì)介紹了芯片的各項(xiàng)特性、功能、應(yīng)用及相關(guān)參數(shù),為使用者提供全面的技術(shù)參考。?產(chǎn)品概述:YX5P 系列是多功能單芯片 CMOS 語音合成
    發(fā)表于 04-03 11:18 ?1次下載

    【CW32模塊使用】語音合成播報(bào)模塊

    SYN6288E 中文語音合成芯片是北京宇音天下科技有限公司在 2010 年初推出的一款性/價(jià)比更高的 SYN6288 芯片的基礎(chǔ)上更改封裝方式的,效果更自然的一款中高端語音合成芯片
    的頭像 發(fā)表于 03-29 17:25 ?1223次閱讀
    【CW32模塊使用】<b class='flag-5'>語音</b><b class='flag-5'>合成</b>播報(bào)模塊

    芯資訊|WT3000T8語音合成芯片:高性價(jià)比語音交互解決方案

    在智能終端設(shè)備快速普及的當(dāng)下,語音交互已成為提升用戶體驗(yàn)的關(guān)鍵功能。廣州唯創(chuàng)電子推出的WT3000T8語音合成芯片,憑借其卓越的語音處理能力、靈活的控制模式及超低功耗設(shè)計(jì),成為工業(yè)控制
    的頭像 發(fā)表于 03-24 09:05 ?1108次閱讀
    芯資訊|WT3000T8<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片:高性價(jià)比<b class='flag-5'>語音</b>交互解決方案

    芯知識(shí)|WT3000T8語音合成芯片:功能解析與應(yīng)用指南

    在人工智能與物聯(lián)網(wǎng)技術(shù)蓬勃發(fā)展的今天,語音交互已成為智能設(shè)備的重要功能。廣州唯創(chuàng)電子推出的WT3000T8語音合成芯片憑借其高性能、低功耗和靈活的控制方式,廣泛應(yīng)用于智能家居、工業(yè)設(shè)備、公共服務(wù)終端
    的頭像 發(fā)表于 03-24 08:42 ?1040次閱讀
    芯知識(shí)|WT3000T8<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片:功能解析與應(yīng)用指南

    WT3000T8-32N語音合成TTS芯片:小體積、強(qiáng)性能,重塑智能語音交互體驗(yàn)

    在萬物互聯(lián)的智能化浪潮中,語音交互已成為人機(jī)交互的核心入口。廣州唯創(chuàng)電子推出的WT3000T8-32N語音合成芯片,憑借其4×4mm超小封裝、240MHz超強(qiáng)算力與多場(chǎng)景語音解決方案,
    的頭像 發(fā)表于 03-21 09:20 ?1054次閱讀
    WT3000T8-32N<b class='flag-5'>語音</b><b class='flag-5'>合成</b>TTS芯片:小體積、強(qiáng)性能,重塑智能<b class='flag-5'>語音</b>交互體驗(yàn)