婷婷五月亚洲综合缴费,超碰aⅴ人人做人人爽欧美

近日 Google Brain 團(tuán)隊對外發(fā)布了 Parrotron 項目，幫助人和設(shè)備更準(zhǔn)確地理解具有語音障礙的人。Parrotron 從音頻分析入手，從語音信號的角度來解決問題。它通過單個端到端深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練，將來自語音障礙人士的語音，直接轉(zhuǎn)換為流利的合成語音，從而幫助他們解決交流上的問題。

Dimitri Kanevsky，出生于 50 年代的俄羅斯，他的成長階段經(jīng)歷了中蘇冷戰(zhàn)，但他仍然完成學(xué)業(yè)，并獲得了數(shù)學(xué)博士學(xué)位。

他的求學(xué)、工作足跡從俄羅斯開始，輾轉(zhuǎn)于以色列、德國，最終選擇留在了美國，并成為了谷歌的研究科學(xué)家，專注于語音識別算法領(lǐng)域。

似乎是一個學(xué)霸精英的人生路徑：受到良好的教育，獲得美國綠卡、光鮮的工作、152 項美國科學(xué)技術(shù)專利，最后在硅谷登頂人生巔峰。

故事卻遠(yuǎn)遠(yuǎn)沒這么簡單，Dimitri Kanevsky并不是一個普通人。大多數(shù)人都難以想到，他還是聽障人群中的一員。

Dimitri Kanevsky在一歲時，因為藥物導(dǎo)致了耳聾，但他的家庭依舊為他選擇了正常的教育，他從小就開始學(xué)習(xí)讀唇、發(fā)聲，一直就讀于普通學(xué)校。并在十幾歲的時候，通過俄語發(fā)音的輔助，開始學(xué)習(xí)英語。

但在學(xué)習(xí)英語時，因為聽力障礙、俄語發(fā)音差別等原因，他在語言交流上存在很大的障礙。他說出的語句比較模糊，常常是對方聽不懂的表達(dá)。甚至連對自己的家人的口頭關(guān)懷，都有可能無法遞達(dá)。

簡單來說，他說的英語大多數(shù)人很難直接聽懂，為了解決自己的問題，也幫助更多和自己面臨類似問題的人群，Dimitri Kanevsky一直在攻克語音識別方向的課題。

有時只為完成一些普通的交流

Dimitri Kanevsky需要借助語音轉(zhuǎn)文字的工具

在醫(yī)學(xué)上，這種說話不清楚的情況稱為「構(gòu)音障礙 dysarthria」。據(jù)統(tǒng)計，因為身體疾病而導(dǎo)致構(gòu)音障礙的情形，在全世界多達(dá)一百萬人。

構(gòu)音障礙是由于神經(jīng)病變，與言語有關(guān)的肌肉麻痹、收縮力減弱或運動不協(xié)調(diào)所致的言語障礙，通俗的說法是「口齒不清」。

比如中風(fēng)，大腦麻痹，帕金森病，唐氏綜合癥， ALS（漸凍癥）等諸多疾病，都會造成這一狀況。

對方說了嘰里咕嚕的一堆

你聽到的卻是嗚嗚哇哇的一串雜音...

同樣在谷歌，一位叫Aubrie Lee 的品牌市場經(jīng)理，被診斷出罕見的肌肉萎縮癥（漸凍癥），導(dǎo)致她長時間要在輪椅上度過。

全身肌肉的不斷流失，也造成了她在交流上的困難。Aubrie 在聽力和發(fā)音上都異常吃力，還因為無法微笑而常常被人誤解。此外她還擁有多種口音，發(fā)音并不清晰，在對話時對方往往無法明白她的意思。

為了幫助 Dimitri Kanevsky 和 Aubrie Lee 這樣的同伴，解決他們在語言上的難題，構(gòu)音困難逐漸成了谷歌 AI 研究團(tuán)隊的一個科研方向。

關(guān)懷語言障礙者，谷歌推出突破性工具

幾年前，Kanevsky 帶著 30 年的語音識別經(jīng)驗，加入谷歌的 AI 研究組，那時還沒有能讓他和其他人正常溝通的便捷工具。每次開會， Kanevsky 都需要提前預(yù)定 CART 服務(wù)，依賴字幕員進(jìn)入到會議中，將語音信息敲到屏幕上進(jìn)行對話。

同樣的，Aubrie 和自己同事們，也都需要花費很大的力氣，才能完成常人輕松勝任的工作交流。但這種窘境，正在慢慢地成為歷史。

2019 年 2 月，谷歌推出了一款A(yù)pp——Live Transcribe ，為便攜式的語言轉(zhuǎn)化帶來了曙光。它是一款即時轉(zhuǎn)錄真實世界語音的應(yīng)用程序，使用手機(jī)自帶的麥克風(fēng)，即可將語音轉(zhuǎn)換為實時顯示的文字。

隨后，在 5 月份的谷歌I/O 大會上，Project Euphoria 被提出，這個計劃為 ALS 導(dǎo)致的語言受損人群，提供一套語音到文字的解決方案。

Project Euphoria 中

谷歌訓(xùn)練AI 模型以適應(yīng)語言障礙

在這個月，谷歌推出了一款新的 AI 工具 Parrotron，能夠直接將模糊的聲音，轉(zhuǎn)化成標(biāo)準(zhǔn)的合成音。這將解決語言障礙的技術(shù)又往前推進(jìn)了一步。

Parrotron 由端到端的深度神經(jīng)網(wǎng)絡(luò)組成，從音頻分析的角度入手，在使用時，測試者對著手機(jī)等設(shè)備說話，就能快速的得到轉(zhuǎn)述后的標(biāo)準(zhǔn)發(fā)音。

在論文《Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation》中，Parrotrn 表現(xiàn)優(yōu)異，語音識別和轉(zhuǎn)化的正確率都有了新的突破。

Parrotron：將模糊話語，翻譯成清晰的語音

那這項看起來黑科技滿滿的技術(shù)，究竟是怎么做到的呢？

Parrotron 是一個端到端的序列到序列模型，使用輸入/輸出語音對的并行語料庫訓(xùn)練，建立了模糊音與正常語句之間的映射。

Parrotron的結(jié)構(gòu)流程示意圖

網(wǎng)絡(luò)模型由注意力機(jī)制的編碼器和解碼器組成，最后由聲碼器合成時域波形，提供預(yù)測出的音頻信號。

編碼器將聲學(xué)幀序列轉(zhuǎn)換為隱藏的特征表示，解碼器將解析出表示以預(yù)測出頻譜圖。

操作上分為兩個步驟：首先，為標(biāo)準(zhǔn)流暢的音頻構(gòu)建語音到語音轉(zhuǎn)換模型，然后調(diào)整模型參數(shù)將模糊語音作為輸入，讓模型學(xué)會分辨和識別。

Kanevsky 和另一員工使用Parrotron

為了模擬 ALS 患者的語音特征，他們使用來自 Project Euphonia 的 ALS 語音語料庫，通過合成語言的方式制造模糊的語句，作為訓(xùn)練數(shù)據(jù)。

而對特定的個人，就由本人提供錄制的素材。

在經(jīng)過訓(xùn)練后，轉(zhuǎn)換模型能夠排除語言中的干擾因素，比如重音、韻律和背景噪音等影響；同時忽略掉所有非語言信息的干擾，包括說話者特征，環(huán)境因素，說話方式，僅分析和處理談話的內(nèi)容。

Parrontron 前兩位測試者：毫無懸念

要驗證 Parrotron 的實際效果，自然還要看它在實踐中的表現(xiàn)。而測試的最佳人選，毫無疑問落到了Dimitri Kanevsky 和Aubrie Lee身上。

在實驗中，Dimitri 錄制了一個 15 小時長的語料庫，讓模型學(xué)習(xí)他講話時的細(xì)微之處。通過學(xué)習(xí)，模型在最后的翻譯中，在測試集里的翻譯錯誤率，從開始的 89% 降低到了 32% 。

換句話說，使用 Parrotron 轉(zhuǎn)錄的語音，對方或者ASR （語音識別）系統(tǒng)能夠輕松的聽懂他了。

Kanevsky 使用Parrotron的詳情

隨后， Aubrie Lee 也進(jìn)行了測試，通過她貢獻(xiàn)的 1.5 小時講話內(nèi)容，模型翻譯出的準(zhǔn)確的語音，也讓她實現(xiàn)了清楚表達(dá)的愿望。

AI for Social Good：人工智能的使命

人工智能打造的無障礙項目，在最近幾年被頻繁地提出。許多極具關(guān)懷的技術(shù)紛紛出現(xiàn)，在努力幫助殘障人士打開新奇的大門。

當(dāng)然，技術(shù)在服務(wù)這些人的同時，也被這些特別的群體所推動。比如Dimitri Kanevsky，因為深知構(gòu)音障礙帶來的困境，他一直致力于語音辨識和通訊研究的研究工作。而Aubrie Lee則用熱烈而蓬勃的生活態(tài)度，鼓舞和督促著更多對殘障人群的研究投入。

Aubrie 還是跨學(xué)科藝術(shù)家、設(shè)計師

活躍在多個為殘疾人權(quán)益斗爭的平臺上

雖然目前的數(shù)據(jù)顯示，情況還并不樂觀：在全球所有的殘障人士中，只有十分之一的人，獲得了相應(yīng)的技術(shù)工具。但所幸的是，隨著一些喜人的進(jìn)步，很多情況都在發(fā)生改變。

作為科技大廠的谷歌，還在實施他們「AI for social good」的計劃，而諸如 Parrotron 之類的工具，大概就是朝著美好愿景踏進(jìn)的腳印。

在人工智能技術(shù)風(fēng)靡世界的當(dāng)下，我們看到了 AI 對藝術(shù)的改造和創(chuàng)造力，對社會生活的積極推動，但也看到了有人利用 AI 惡意換臉、拼接、無中生有。

希望 AI 能回歸科學(xué)的初心，幫助更多需要幫助的人，Make the world a better place！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6255

瀏覽量
111656
語音識別

語音識別

+關(guān)注

關(guān)注
39

文章
1812

瀏覽量
116143

原文標(biāo)題：谷歌的語音識別利器，最先造福了自己的員工

文章出處：【微信號：smartman163，微信公眾號：網(wǎng)易智能】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

關(guān)懷語言障礙者,谷歌推出突破性工具

評論