(文章來源:福布斯中文網(wǎng))
今年5月,人工智能大師吳恩達(dá)(Andrew Ng)加入了中國互聯(lián)網(wǎng)先驅(qū)百度公司,擔(dān)任首席科學(xué)家職位。當(dāng)時(shí),吳恩達(dá)對他和他的團(tuán)隊(duì)在加州桑尼維爾一家新成立實(shí)驗(yàn)室可能取得的成果守口如瓶。但是,現(xiàn)在他終于忍不住披露了更出色的語音識(shí)別技術(shù),這是智能手機(jī)時(shí)代引人關(guān)注的關(guān)鍵領(lǐng)域。
具體來說,Deep Speech在車內(nèi)或人群中等嘈雜環(huán)境下比其他語音識(shí)別系統(tǒng)的表現(xiàn)更出色。當(dāng)然,關(guān)鍵是讓語音識(shí)別技術(shù)在現(xiàn)實(shí)世界中真正發(fā)揮作用。吳恩達(dá)說,測試顯示,在嘈雜的背景下,Deep Speech的語音識(shí)別能力優(yōu)于其他幾種語音識(shí)別系統(tǒng)——谷歌Speech API、wit.ai、微軟的 Bing Speech和蘋果Dictation,詞匯辨識(shí)錯(cuò)誤率比這幾種技術(shù)低10個(gè)百分點(diǎn)以上。
百度提供了兩位大學(xué)教授的正面評(píng)論。“百度研究院最近的工作有可能顛覆語音識(shí)別在未來的應(yīng)用效果,”卡耐基梅隆大學(xué)(Carnegie Mellon University)工程學(xué)助理研究教授伊恩·萊恩(Ian Lane)在一份新聞稿中表示。百度公司要求,在今天上午發(fā)布論文前不要對外透露細(xì)節(jié),因此我們無法聯(lián)系谷歌、蘋果和其他公司發(fā)表評(píng)論。如果以上各方選擇隨后發(fā)表評(píng)論,筆者會(huì)補(bǔ)充他們的觀點(diǎn)。
像其他語音識(shí)別系統(tǒng)一樣,百度的語音識(shí)別系統(tǒng)是以人工智能技術(shù)的一個(gè)分支為基礎(chǔ),稱為深度學(xué)習(xí)。這類軟件試圖(以非常原始的形式)模擬大腦新皮層的神經(jīng)層活動(dòng)——大腦80%的思維活動(dòng)發(fā)生在新皮層,因而深度學(xué)習(xí)系統(tǒng)能夠?qū)W習(xí)如何識(shí)別聲音、圖像和其他數(shù)據(jù)的數(shù)字表現(xiàn)模式——理論上可以識(shí)別很多數(shù)據(jù)。吳恩達(dá)在接受采訪時(shí)說,“第一代深度學(xué)習(xí)語音識(shí)別系統(tǒng)正在接近極限。”
百度團(tuán)隊(duì)采集來自9,600人的約7,000小時(shí)語音會(huì)話,大部分對話是在安靜的環(huán)境中進(jìn)行——不過有時(shí)講話者戴著耳機(jī),播放吵鬧的背景音,因此他們就要改變自己的音高和語調(diào),就像他們在嘈雜環(huán)境中講話那樣。然后,百度團(tuán)隊(duì)使用一種稱為疊加的物理原理,在這些語音樣本中加入大約15種噪音,比如餐館、汽車和地鐵的環(huán)境噪音。這些做法實(shí)質(zhì)上把語音樣本增加到10萬小時(shí)的數(shù)據(jù)。然后,百度團(tuán)隊(duì)讓語音識(shí)別系統(tǒng)學(xué)習(xí)在所有的噪音環(huán)境下識(shí)別語音。
吳恩達(dá)表示,這種方法比現(xiàn)有的語音識(shí)別系統(tǒng)更為簡單。他們使用了一系列用來分析音素和語音其他部分的模塊,這通常需要對模塊進(jìn)行手工設(shè)計(jì),用到被為隱馬爾可夫模型(Hidden Markov Models)的統(tǒng)計(jì)概率系統(tǒng),需要大量的人力調(diào)適模板噪聲和語音變化。吳恩達(dá)表示,百度的語音識(shí)別系統(tǒng)采用深度學(xué)習(xí)算法取代了這些模型,這種算法在遞歸神經(jīng)網(wǎng)絡(luò)或者模擬神經(jīng)元陣列中進(jìn)行訓(xùn)練,讓語音識(shí)別系統(tǒng)更加簡單。
如果沒有這樣的速度,對這么多數(shù)據(jù)進(jìn)行分析是不可能做到的。吳恩達(dá)表示,這個(gè)系統(tǒng)比現(xiàn)有基于GPU的其他系統(tǒng)更為先進(jìn)。“我們正在進(jìn)入語音2.0的時(shí)代,”他說,“而這僅僅是個(gè)開始。”
吳恩達(dá)認(rèn)為,隨著互聯(lián)網(wǎng)用戶的文化水平門檻越來越低,他們更愿意使用語音而不是文字,因此語音識(shí)別技術(shù)的重要性將進(jìn)一步提升?!白層?jì)算機(jī)和我們對話是個(gè)關(guān)鍵,”他說。吳恩達(dá)舉了個(gè)最近在中國進(jìn)行搜索查詢的例子:“嗨,百度,你好嗎?昨天中午我在一家街角小店吃了面條。你知道這家店明天還賣面條嗎?”吳恩達(dá)承認(rèn),到今天為止,為這個(gè)請求提供答案依然非常困難,但是他認(rèn)為更完善的語音識(shí)別將起到關(guān)鍵作用。
語音重要的另一個(gè)原因是,物聯(lián)網(wǎng)的發(fā)展把現(xiàn)在所有無聲的電子設(shè)備連接到網(wǎng)絡(luò)。他設(shè)想在未來的某個(gè)時(shí)期,如果他有了孫子孫女,他們一定會(huì)驚訝于我們曾經(jīng)使用電視遙控器,擁有不能對語音命令做出響應(yīng)的微波爐。“語音是一項(xiàng)能夠促進(jìn)物聯(lián)網(wǎng)成長的技術(shù),”吳恩達(dá)說。
百度究竟要多長時(shí)間才能把這種全新的語音識(shí)別方法集成到其搜索和其他服務(wù)中,這一點(diǎn)吳恩達(dá)拒絕透露。但是被問及是否要用幾年的時(shí)間時(shí),他很快回答說,“天哪,用不了!”如此看來,這種技術(shù)很有可能在新一年的某個(gè)時(shí)候正式亮相。百度的Cool Box是一個(gè)可能應(yīng)用這種語音識(shí)別方法的“試驗(yàn)性”項(xiàng)目,這個(gè)系統(tǒng)可以使用語音激活音樂播放要求。
在百度嘗試提升自我、躋身于頂級(jí)互聯(lián)網(wǎng)公司行列的努力中,吳恩達(dá)和他的團(tuán)隊(duì)的工作將發(fā)揮重要作用。這個(gè)團(tuán)隊(duì)現(xiàn)在大約有30名員工,明年人數(shù)可能會(huì)翻一倍。目前,百度主要服務(wù)于中國市場,但這家公司著眼于擴(kuò)大其國際影響范圍,這將涉及到開發(fā)世界頂級(jí)的語音識(shí)別、翻譯和其他功能。
電子發(fā)燒友App











評(píng)論