91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

電子發(fā)燒友App

硬聲App

掃碼添加小助手

加入工程師交流群

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示
創(chuàng)作
電子發(fā)燒友網(wǎng)>電子資料下載>無線通信>科大訊飛研究院副院長王士進(jìn):人機(jī)交互存在的難點及解決方案

科大訊飛研究院副院長王士進(jìn):人機(jī)交互存在的難點及解決方案

2017-09-13 | rar | 0.37 MB | 次下載 | 免費

資料介紹

  共同把脈智能+驅(qū)動,洞悉資本市場新規(guī)則。12 月 8 日,由九宇資本、智東西、犀牛之

  星、極果、六合咨詢共同主辦的“2016 智能+未來峰會”在北京北京 JW 萬豪酒店揭開大幕。

  在這場近六百人的行業(yè)盛會上,來自投資界、創(chuàng)業(yè)圈和產(chǎn)業(yè)鏈各方 40 余位大佬登臺演講交

  鋒,圍繞“新經(jīng)濟(jì)、新智能、新三板”主題,探討產(chǎn)業(yè)變革中的投資機(jī)會、人工智能時代下的

  新消費模式、汽車的智能化未來等,帶來最前沿的實踐、思考和判斷。

  在下午的演講環(huán)節(jié)中,科大訊飛研究院副院長王士進(jìn)發(fā)表了名為“智能人機(jī)交互與萬物

  互聯(lián)產(chǎn)業(yè)浪潮”的主題演講,詳細(xì)解讀了語音智能技術(shù)如何在具體場景中達(dá)到自然的人機(jī)交

  互。

  以下為王士進(jìn)演講的要點精摘:

  1.在萬物互聯(lián)浪潮下,人機(jī)交互需要希望提供更智能的方案來完成交互工作。早期 PC

  時代,鍵盤鼠標(biāo)交互;中期移動互聯(lián)網(wǎng)時代,多點觸控,手寫、手勢交互,比原來爽很多;

  現(xiàn)在萬物互聯(lián),我們進(jìn)入智能生活方式,使用語音視覺再加上手勢控制。以前我們是以機(jī)器

  為中心進(jìn)行交互,未來會以人為中心進(jìn)行交互。萬物互聯(lián)浪潮下,人根據(jù)語音的控制,根據(jù)

  視覺的控制,然后配合手的操作,完成整個的交互。
?

  2.今天在很多場景里,人們都需要智能語音交互;然而現(xiàn)有很多產(chǎn)品存在問題:

  講話要靜,這是大家原來用手機(jī)很大的習(xí)慣,實際上大家知道在語音舉例遠(yuǎn)的時候,會

  有混響和噪聲很多情況干擾,所以原來有一款,最早做語音識別我們做的非常好的時候,只

  要距離到了一米兩米,甚至更遠(yuǎn)距離的時候效果馬上會下降,所以現(xiàn)在的設(shè)備,你看有一些

  產(chǎn)品演示的時候要保持一定的距離,否則效果不太好。

  發(fā)音要標(biāo)準(zhǔn),其實我們大部分人普通話相對來說比較標(biāo)準(zhǔn),有一些人通過后臺分析的時

  候,發(fā)現(xiàn)有一些人其實普通話并不是很標(biāo)準(zhǔn),甚至有一些人,基本上已經(jīng)聽不出普通話了,

  怎么樣讓大家都能夠享受到這種人機(jī),特別語音交互帶來的交互的操作,其實也是一個問題。

  環(huán)境要安靜,也是一樣的道理,我們在語音整個的操作的里面,最難的就是噪聲,大家

  知道只要有噪聲很多原來語音識別性能很好的,或者語音交互操作很好的,都會變的很難。

  不能持續(xù)對話,無法對歷史與上下文進(jìn)行支持與識別。所謂的智能我們是希望機(jī)器人

  以有更多的一些上下文的知識,更多基于人的一些歷史上的信息,所以目前來說,可能很多

  的這種產(chǎn)品還達(dá)不到這樣的需求。

 ?。踦age][/page]

  3.針對以上幾點,2015 年科大訊飛提出了 AIUI 人工智能時代的人機(jī)交互界面,滿足了

  五個基本特性——麥克風(fēng)陣列硬件:遠(yuǎn)場降噪,如何在遠(yuǎn)距離,有噪聲時識別;方言識別;

  全雙工,支持隨時打斷,隨時插入,更接近人與人之間的交流;糾錯,利用上下文場景糾正

  語義糾錯;多輪對話,在做例如訂機(jī)票等比較復(fù)雜任務(wù)時需要多輪對話,機(jī)器可自主發(fā)起多

  輪對話。

  麥克風(fēng)陣列:五米之外滿足遠(yuǎn)場的拾音和降噪還有回音消除,谷歌組織的語音比賽里,

  我們一個麥克風(fēng)識別技術(shù)比較微弱的優(yōu)勢拿到第一名,多麥克風(fēng)則以非常大的優(yōu)勢比其他競

  爭對手好很多,多麥克風(fēng)的場景里面怎么做到遠(yuǎn)距離的,包括判斷人的距離和方向和說話的

  內(nèi)容,做了很多的工作。

  方言的口語識別:現(xiàn)在已經(jīng)支持接近 20 種,應(yīng)該十幾種方言,陸陸續(xù)續(xù)做更多的方言,

  希望更多的人使用到這樣一個,甚至普通話不太好的人可以用到我們這一款產(chǎn)品。后面講到,

  訊飛除了語音上面,語言上面做了很多優(yōu)秀的工作,

  全雙工,剛才提到市面上很多以喚醒和識別為主題(的語音識別系統(tǒng)),還有循環(huán)識別,

  用戶以后必須持續(xù)的說,否則說的背景知識或者類似這樣會丟失。我們的支持持續(xù)的錄音和

  連續(xù)的識別,這樣方便我們?nèi)撕蜋C(jī)器做更好的交互。怎么利用用戶的上下文的知識和用戶的

  歷史知識,使得語音是被不止根據(jù)一個問一個答。從今年年終開始起,這個技術(shù)非常熱門,

  實際上我們做了很多工作,怎么利用歷史信息跟更多用戶個人的信息做更好的交流。

  個性化可擴(kuò)展的交互,實際上大家可以看到,用很多產(chǎn)品的時候,拓展性會很差,我們

  這里面,比如喚醒詞,和京東合作的音箱可以喚醒,也可以其他的喚醒,和外面的交互,我

  們知道現(xiàn)在更多的互聯(lián),通過協(xié)議和外面的設(shè)備做互聯(lián)。

  一整套的解決方案,包括我們本地實現(xiàn)的這種軟件和硬件的這樣一體化,即有軟件的服

  務(wù),也有硬件麥克風(fēng)這樣的服務(wù),同時有云端一體化,我們即提供互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)下面

  的服務(wù),也提供本地的服務(wù),同時還提供技術(shù)服務(wù)一體化的解決方案。

  4.訊飛做了很多相關(guān)產(chǎn)品,訊飛聽見:會議記錄,將大會噪聲回響。訊飛小譯,中、英、

  維即使互譯,隨身攜帶,遠(yuǎn)程實時交流,很快就上線。訊飛助理,語音語義控制使得可以在

  電視里找到自己想要的內(nèi)容;訊飛飛魚汽車助理,汽車噪聲環(huán)境下的語音識別,除了在國內(nèi)

  做得好之外,訊飛在國際領(lǐng)域也做得很好;機(jī)器人,自然交互,個性化定制服務(wù);開放云平

  臺,從最早語音聽寫到現(xiàn)在的人臉識別、語音喚醒、語音合成等都做得很好。

  以下為王士進(jìn)在“2016 智能+未來峰會”上的演講全文:

  我今天希望給大家分享一下,前面提到很多,萬物互聯(lián)的產(chǎn)業(yè)浪潮下面,我們希望提供

  一種智能交互方案,配合大家做很多的工作,講智能交互之前,我們可以回顧一下電腦出現(xiàn)

  到交互的歷史,早期大家很清楚,隨著我們電腦的出現(xiàn),以鍵盤和鼠標(biāo)這種交互形式會成為

  我們當(dāng)時最主要的這樣一個形式,隨著移動互聯(lián)網(wǎng)的到來以后我們會發(fā)現(xiàn),基于多點數(shù)控,

  基于手寫和手勢,大家使用手機(jī)和 IPAD 和平板的時候會發(fā)現(xiàn)用這樣的方式在操作的時候,

  會比原來爽很多,這是用戶的爽點。

  隨著現(xiàn)在物聯(lián)網(wǎng),萬物互聯(lián)很多類似于這樣的一些智能的硬件,智能的設(shè)備出現(xiàn)的時候,

  大家會發(fā)現(xiàn)很多場合下面,可能并不是很容易能夠用鍵盤,能夠用手去控制。我們認(rèn)為使用

  語音視覺和傳統(tǒng)手的控制會使得我們的交互方式有非常大的提升,實際上以前我們?nèi)嗽诮换?/p>

  的時候,其實是以機(jī)器為中心去做交互,我們圍繞電腦,那么后來隨著我們交互的發(fā)展我們

  會發(fā)現(xiàn)將來是一個以人為中心的,所有的設(shè)備都圍繞這個人,人根據(jù)語音的控制,根據(jù)視覺

  的控制,然后配合手的操作,完成整個這樣的交互,所以這是我想講的。

 ?。踦age][/page]

  將來萬物互聯(lián)的浪潮下面,以語音為主,以鍵盤,包括數(shù)控和圖象,這樣的一個交互時

  代的話,我們認(rèn)為已經(jīng)逐漸到來了,其實大家從剛才的很多 PPT 里面也已經(jīng)看到了,我們

  再講一講產(chǎn)業(yè)的情況,今天很多相關(guān)的公司,那么大家會發(fā)現(xiàn),在移動的一些手機(jī)的應(yīng)用,

  包括智能家居的各個場景,視頻里面看到的智能機(jī)器人的一些場景,包括穿戴設(shè)備,包括我

  們車載,很多場景里面大家都可以看到,在新一代的場景里面需要我們智能交互的產(chǎn)品去介

  入,那么現(xiàn)在的這種智能交互,特別是涉及到語音交互方面,其實大家可能體驗很多產(chǎn)品,

  這些產(chǎn)品有什么樣的一些問題?

  第一個來說,講話要靜,這是大家原來用手機(jī)很大的習(xí)慣,實際上大家知道在語音舉例

  遠(yuǎn)的時候,會有混響和噪聲很多情況干擾,所以原來有一款,最早做語音識別我們做的非常

  好的時候,只要距離到了一米兩米,甚至更遠(yuǎn)距離的時候效果馬上會下降,所以現(xiàn)在的設(shè)備,

  你看有一些產(chǎn)品演示的時候要保持一定的距離,否則效果不太好。第二發(fā)音和標(biāo)準(zhǔn),可以參

  照我的發(fā)音,就是說很多時候,其實我們大部分人普通話相對來說比較標(biāo)準(zhǔn),有一些人通過

  后臺分析的時候,發(fā)現(xiàn)有一些人其實普通話并不是很標(biāo)準(zhǔn),甚至有一些人,基本上已經(jīng)聽不

  出普通話了,怎么樣讓大家都能夠享受到這種人機(jī),特別語音交互帶來的交互的操作,其實

  也是一個問題。

  環(huán)境要安靜,也是一樣的道理,我們在語音整個的操作的里面,最難的就是噪聲,大家

  知道只要有噪聲很多原來語音識別性能很好的,或者語音交互操作很好的,都會變的很難。

  第四點不能持續(xù)對話,無法對歷史與上下文進(jìn)行支持與識別。所謂的智能我們是希望機(jī)器人

  可以有更多的一些上下文的知識,更多基于人的一些歷史上的信息,所以目前來說,可能很

  多的這種產(chǎn)品還達(dá)不到這樣的需求。

  我們在 2015 年提出,AIUI,人工智能時代人機(jī)交互的界面,并且 2015 年持續(xù)做,并

  且 2015 年我們又增加很多新的特性和功能,第一場遠(yuǎn)場降噪,怎么距離較遠(yuǎn),很多場景,

  機(jī)器人和智能家居,五米以外怎么做到距離遠(yuǎn)有噪聲的情況下能夠語音識別做好,這是第一。

  第二方言識別,不僅僅帶方言的普通話,甚至直接方言,也能夠把語音識別以及語音理解做

  好。

  第三點,全雙工,我們知道人跟人之間的交流我們會感覺非常自然的交流方式,但是我

  們會發(fā)現(xiàn),人跟機(jī)器交流的時候,其實可能并不像人跟人交流那么簡單,原來我們跟機(jī)器交

  流就是我講完以后等它的動作,它會給我一個反饋,這就是原來我們所說的一個正常的交互

  流程。那么現(xiàn)在新一代的支持我們隨時的打斷,隨時的插入,那么這樣大家可以想像,其實

  這樣跟我們?nèi)伺c人之間的交流會很接近。

  第四點,語音的糾錯,因為大家知道,現(xiàn)在無論是我們也好,還是市面上很多其他的,

  語音識別的時候會有或多或少的錯誤,怎么利用到語音信息,利用上下文的場景能夠把一些

  常見的錯誤做糾正。然后最后一點,多輪對話,其實我們是想完成以任務(wù)這種方式,所以大

  家可以看,講話劉總的視頻里面,其實很多可能有一些類似任務(wù)的,我們想訂票或者做一些

  比較復(fù)雜的任務(wù)時候,我們通常人和人之間的對話,可能需要多輪完成,那么現(xiàn)在除了可以

  跟你本人,人發(fā)起的多輪對話,甚至機(jī)器在有一些可以自主的發(fā)起多輪對話來達(dá)到這樣任務(wù)

  所需的條件滿足。

  下面我們看幾個特性,剛才講到跟遠(yuǎn)場相關(guān)的識別,這一塊其實有四個,剛才已經(jīng)講了

  一些,第一個,這里面會有一個麥克風(fēng)陣列硬件,其實我們訊飛做了很多年,最近這幾年有

  非常好的突破,第一點剛才提到可以五米之外滿足遠(yuǎn)場的拾音和降噪還有回音消除,谷歌組

  織的語音比賽,就是多麥克風(fēng)場景下面,怎么把語音識別率做的最好,我們一個麥克風(fēng)比較

  微弱的優(yōu)勢拿到第一名,訊飛多麥克風(fēng)非常大的優(yōu)勢比其他競爭對手好很多,多麥克風(fēng)的場

  景里面怎么做到遠(yuǎn)距離的,包括判斷人的距離和方向和說話的內(nèi)容,做了很多的工作。

  第二點方言的口語,現(xiàn)在已經(jīng)支持接近 20 種,應(yīng)該十幾種方言,陸陸續(xù)續(xù)做更多的方

  言,希望更多的人使用到這樣一個,甚至普通話不太好的人可以用到我們這一款產(chǎn)品。后面

  講到,訊飛除了語音上面,語言上面做了很多優(yōu)秀的工作,2014 年、2015 年的時候,我們

  機(jī)器翻譯里面相繼拿了國際比賽第一名,今年拿了兩個,一個是常識的知識表達(dá)和推理,還

  有一個也拿了知識圖譜推理的第一名。我們在語音做了非常優(yōu)秀的工作,使得我們知道你所

  說的內(nèi)容是什么。

 ?。踦age][/page]

  全雙工,剛才提到,市面上很多,喚醒和識別為主題,要喚醒它,還有循環(huán)識別,說完

  以后必須持續(xù)的說,否則說的背景知識或者類似這樣會丟失,那么我們的支持持續(xù)的錄音和

  連續(xù)的識別,這樣方便我們?nèi)撕蜋C(jī)器做更好的交互。第三點剛才提到的上下文,怎么利用用

  戶的上下文的知識和用戶的歷史知識能夠知道,不止根據(jù)一個問一個答,所以大家可以看到

  最近最熱的是一個,從今年年終開始起,這個技術(shù)非常熱門,實際上我們做了很多工作,怎

  么利用歷史信息跟更多用戶個人的信息做更好的交流。第四,我們叫做更多可拓展性,實際

  上大家可以看到,用很多產(chǎn)品的時候,拓展性會很差,我們這里面,比如喚醒詞,和京東合

  作的音箱可以喚醒,也可以其他的喚醒,和外面的交互,我們知道現(xiàn)在更多的互聯(lián),通過協(xié)

  議和外面的設(shè)備做互聯(lián)。

  我們提出一整套的解決方案,包括我們本地實現(xiàn)的這種軟件和硬件的這樣一體化,即有

  軟件的服務(wù),也有硬件麥克風(fēng)這樣的服務(wù),同時有云端一體化,我們即提供互聯(lián)網(wǎng)和移動互

  聯(lián)網(wǎng)下面的服務(wù),也提供本地的服務(wù),同時我們還提供各種服務(wù)。訊飛做了很多產(chǎn)品,希望

  和大家共同產(chǎn)業(yè)上面有探索和合作,第一件事情訊飛聽見,智能會議系統(tǒng),現(xiàn)在很多的這種

  大型的會議里面,因為我們知道,在大會里面大家可以聽聲音可以感覺到,噪聲回響非常大

  的,目前訊飛是唯一一家這種場景下面能夠把語音識別率做的最好,同時在會場里面還支持

  說話人角色的分離,所以現(xiàn)在很多的會議,比如原來在法院做庭審的時候用了我們的技術(shù),

  原來三到四個小時可以做完的,用這個技術(shù)一個小時之內(nèi)就可以做完。

  第二我們訊飛聽見,今年發(fā)布會推出一款產(chǎn)品,訊飛的小 E,機(jī)器翻譯可以感覺到,出

  國旅游,語言溝通是非常大的障礙,我們遠(yuǎn)場的識別推出這樣一款翻譯機(jī),目前支持中英維,

  今年會增加八個語種的翻譯,使得我們出國非常方便,很快會上。

  同時還有一款訊飛的電視助理,大家知道互聯(lián)網(wǎng)海量運行的內(nèi)容,家里面操控人和電視

  有非常遠(yuǎn)的距離,這個里面怎么用語音和語義的控制使得我們精準(zhǔn)找到你所需要的內(nèi)容和資

  源,這一塊包括國內(nèi)很多的電視廠商,主流的基本上一線廠商和我們做合作,使得我們將來

  用到的電視,即可能電視是非常好的交互平臺,也有可能電視的盒子類似這樣的形式。

  還有訊飛最新,今年發(fā)布會推出來的訊飛飛魚的汽車助理,噪聲非常強(qiáng)的場景,汽車連

  續(xù)兩年,包括寶馬、奔馳、通用組織的汽車與汽車噪聲環(huán)境里面語音識別,訊飛在整個國際

  的性能評比里面都拿第一名,所以將來大家除了很多國產(chǎn)車?yán)锩婺軌蚩吹接嶏w的語音助理,

  國際的車型和車牌都會看到這樣的技術(shù)。

  訊飛在機(jī)器人場景做了很多的嘗試,提供自然交互包括個性化的定制服務(wù),人機(jī)融合做

  了很多的工作。

  訊飛除了自己在做,還把相關(guān)的技術(shù)都在訊飛,我們叫做開放云平臺里面提供,我們最

  早只提供語音聽寫,現(xiàn)在提供包括人臉和評測,包括喚醒,基本上剛才提到產(chǎn)品里面所涉及

  到的技術(shù)點,我們開放云平臺里面都已經(jīng)提供了,所以如果說大家有興趣,都可以從我們開

  放云平臺里面取得這樣一些信息和幫助。

  所以我們認(rèn)為將來,在整個 AIUI 前臺的人機(jī)交互和后臺的智能服務(wù)這種場景下面,希

  望為大家提供一些更好的智能的人機(jī)交互解決方案

人機(jī)交互 王士進(jìn)
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評論

查看更多

下載排行

本周

  1. 1電子電路原理第七版PDF電子教材免費下載
  2. 0.00 MB  |  1489次下載  |  免費
  3. 2單片機(jī)典型實例介紹
  4. 18.19 MB  |  92次下載  |  1 積分
  5. 3S7-200PLC編程實例詳細(xì)資料
  6. 1.17 MB  |  27次下載  |  1 積分
  7. 4筆記本電腦主板的元件識別和講解說明
  8. 4.28 MB  |  18次下載  |  4 積分
  9. 5開關(guān)電源原理及各功能電路詳解
  10. 0.38 MB  |  10次下載  |  免費
  11. 6基于AT89C2051/4051單片機(jī)編程器的實驗
  12. 0.11 MB  |  4次下載  |  免費
  13. 7基于單片機(jī)和 SG3525的程控開關(guān)電源設(shè)計
  14. 0.23 MB  |  3次下載  |  免費
  15. 8藍(lán)牙設(shè)備在嵌入式領(lǐng)域的廣泛應(yīng)用
  16. 0.63 MB  |  3次下載  |  免費

本月

  1. 1OrCAD10.5下載OrCAD10.5中文版軟件
  2. 0.00 MB  |  234313次下載  |  免費
  3. 2PADS 9.0 2009最新版 -下載
  4. 0.00 MB  |  66304次下載  |  免費
  5. 3protel99下載protel99軟件下載(中文版)
  6. 0.00 MB  |  51209次下載  |  免費
  7. 4LabView 8.0 專業(yè)版下載 (3CD完整版)
  8. 0.00 MB  |  51043次下載  |  免費
  9. 5555集成電路應(yīng)用800例(新編版)
  10. 0.00 MB  |  33562次下載  |  免費
  11. 6接口電路圖大全
  12. 未知  |  30319次下載  |  免費
  13. 7Multisim 10下載Multisim 10 中文版
  14. 0.00 MB  |  28588次下載  |  免費
  15. 8開關(guān)電源設(shè)計實例指南
  16. 未知  |  21539次下載  |  免費

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935053次下載  |  免費
  3. 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
  4. 78.1 MB  |  537791次下載  |  免費
  5. 3MATLAB 7.1 下載 (含軟件介紹)
  6. 未知  |  420026次下載  |  免費
  7. 4OrCAD10.5下載OrCAD10.5中文版軟件
  8. 0.00 MB  |  234313次下載  |  免費
  9. 5Altium DXP2002下載入口
  10. 未知  |  233045次下載  |  免費
  11. 6電路仿真軟件multisim 10.0免費下載
  12. 340992  |  191183次下載  |  免費
  13. 7十天學(xué)會AVR單片機(jī)與C語言視頻教程 下載
  14. 158M  |  183277次下載  |  免費
  15. 8proe5.0野火版下載(中文版免費下載)
  16. 未知  |  138039次下載  |  免費