欧美AAAAAA,91香蕉在线观看入口,韩日一级黄色片

來自加拿大初創(chuàng)公司的新技術(shù)意味著用于自然語言處理的 AI 模型可以在小型 CPU 甚至微控制器上高效運行。語音控制功能，現(xiàn)在通常通過互聯(lián)網(wǎng)連接到云來完成，現(xiàn)在可以添加到各種設(shè)備中。

初創(chuàng)公司 PicoVoice（加拿大溫哥華）推出了一個緊湊的語音到文本推理引擎，可以在最少的計算資源上運行。該公司表示，與競爭的邊緣自然語言處理解決方案相比，PicoVoice 技術(shù)在計算和內(nèi)存方面使用的資源要少一個數(shù)量級。這可以在各種設(shè)備上啟用語音識別，而無需將任何數(shù)據(jù)發(fā)送到云端。

雖然云端處理模型對于亞馬遜 Alexa 和 Google Home 等助手來說是眾所周知的，但它可能無法轉(zhuǎn)化為需要嚴格隱私或低成本的邊緣設(shè)備中的語音識別。

PicoVoice 創(chuàng)始人兼總裁 Alireza Kenarsari-Anhari 表示：“隨著[支持語音的] 設(shè)備變得越來越普遍，在服務(wù)器端處理所有內(nèi)容在財務(wù)上將無法正常工作。” “計算資源不是免費的。要為所有東西制作語音界面，你需要讓它足夠便宜。在設(shè)備上運行是做到這一點的唯一方法?！?/p>

例如，根據(jù) Kenarsari-Anhari 的說法，使用公共云服務(wù)的聲控咖啡機，如果每天使用 10 次，每臺設(shè)備每年的成本約為 15 美元。

“如果您使用咖啡機 CPU 上已有的資源，您可以免費執(zhí)行此操作，”他說。

根據(jù)具體的應(yīng)用，在邊緣執(zhí)行語音識別還可以提供更好的延遲和可靠性。

語音激活助手，如 Amazon Alexa，使用云進行自然語言處理，但這種模式可能不適用于更便宜的設(shè)備（圖片：Loewe Technologies

語音轉(zhuǎn)文本

PicoVoice 的新產(chǎn)品是一種用于語音到文本轉(zhuǎn)錄的機器學(xué)習模型，它在小型 CPU 上運行，就像 Raspberry Pi Zero 上的 ARM11 內(nèi)核一樣。該模型可以理解大約 200,000 個英語單詞，單詞錯誤率與基于云的家庭助手相當。這可以用于需要云外轉(zhuǎn)錄能力的設(shè)備。

“市場上有一些活動圍繞捕獲或總結(jié)公司會議中發(fā)生的事情，”Kenarsari-Anhari 說，引用了不想將專有信息提交到云中的公司，或者有大量數(shù)據(jù)需要轉(zhuǎn)錄的公司，在云中做這件事的成本太高了。

語音到文本引擎加入了該公司的兩個現(xiàn)有產(chǎn)品。第一個是喚醒詞引擎，可以定制為使用遷移學(xué)習快速、廉價地接受任何喚醒詞。

第二個是用于設(shè)備的語音到意圖引擎，可以理解有限域內(nèi)的語音命令（例如要求打開或關(guān)閉燈）。

“如果我有一個定義明確的域，并且用戶要在該域中發(fā)出語音命令，我們可以在該域中進行自然語言理解，并且我們可以非常有效地做到這一點，整個模型小于半兆字節(jié)。這就是為什么我們可以在低于 1 美元的 MCU 上做到這一點，”Kenarsari-Anhari 說。“如果客戶想要制造智能冰箱，并使用一組定義的語音命令，我們將為該特定應(yīng)用程序訓(xùn)練模型，然后他們將其部署在他們的冰箱中，并向我們支付版稅?！?/p>

這個怎么運作

為了在小型 CPU 上運行自然語言處理模型，PicoVoice 發(fā)明了一種訓(xùn)練模型的新方法，使模型更小，計算效率更高。

“我們查看目標設(shè)備上的指令集，并嘗試找到使用這些指令有效實施的數(shù)學(xué)運算，”Kenarsari-Anhari 說。“我們用不同的數(shù)學(xué)運算模擬矩陣乘法，使用該設(shè)備上的指令來實現(xiàn)更有效?！?/p>

這意味著經(jīng)過訓(xùn)練的模型是特定于設(shè)備的，因為它們?nèi)Q于所使用的確切指令集，但他說，在實踐中，絕大多數(shù)音頻處理器僅基于三個選項（ARM、Tensilica HiFi 和 Ceva TeakLite）。

Alireza Kenarsari-Anhari
（圖片：PicoVoice）

“我們在這三種不同類型的 CPU 上找到了指令，我們可以在其中非常有效地實現(xiàn)模擬矩陣乘法的東西，”他說?！拔覀兛梢葬槍@三個不同的目標訓(xùn)練模型，但是我們針對 ARM 訓(xùn)練模型的方式與針對 Tensilica HiFi 訓(xùn)練模型的方式不同。從用戶的角度來看，[模型] 提供了相似的性能，但底層的數(shù)學(xué)公式不同，這導(dǎo)致在目標設(shè)備上的高效執(zhí)行。”

雖然 Kenarsari-Anhari 拒絕進一步詳細說明 PicoVoice 使用了哪些指令，但他表示基本概念類似于位于西雅圖的 Xnor，后者使用 XNOR 指令加速計算機視覺模型。然而，與基于循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 的加速語音模型相比，通常基于卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的加速視覺模型是一項更簡單的任務(wù)。

他解釋說，對于查看相機圖片的 CNN，模型看到的內(nèi)容是有限的，但 RNN 包含時間的概念。

“通過語音，當我說話時，你的大腦會保存我所說的歷史，并用它來推斷我現(xiàn)在所說的，”他說?！凹铀?RNN 更難的原因是因為沒有記憶可以幫助你避免復(fù)合錯誤。加速模型中通常有更多的噪聲，而對于 RNN，噪聲會隨著時間的推移而累積，使神經(jīng)網(wǎng)絡(luò)變得不穩(wěn)定?！?/p>

收入來源

PicoVoice 的“不到 10 人”核心團隊大部分來自亞馬遜，其中包括 2018 年 1 月創(chuàng)辦公司的 Kenarsari-Anhari。PicoVoice 根據(jù)工業(yè)研究援助計劃 (IRAP) 獲得了加拿大國家研究委員會的資助，但迄今為止沒有其他外部資金。

Kenarsari-Anhari 說，不籌集資金的決定使公司有時間“解決實驗開發(fā)和應(yīng)用研究的基本問題”。

該公司已經(jīng)從包括 LG、惠而浦和 Local Motors 在內(nèi)的眾多客戶那里獲得了收入來源。

審核編輯黃昊宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴