91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

將語音到文本推理模型壓縮到小型 MCU

王靜 ? 來源:nhonglan ? 作者:nhonglan ? 2022-07-21 11:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來自加拿大初創(chuàng)公司的新技術(shù)意味著用于自然語言處理的 AI 模型可以在小型 CPU 甚至微控制器上高效運行。語音控制功能,現(xiàn)在通常通過互聯(lián)網(wǎng)連接到云來完成,現(xiàn)在可以添加到各種設(shè)備中。

初創(chuàng)公司 PicoVoice(加拿大溫哥華)推出了一個緊湊的語音到文本推理引擎,可以在最少的計算資源上運行。該公司表示,與競爭的邊緣自然語言處理解決方案相比,PicoVoice 技術(shù)在計算和內(nèi)存方面使用的資源要少一個數(shù)量級。這可以在各種設(shè)備上啟用語音識別,而無需將任何數(shù)據(jù)發(fā)送到云端。

雖然云端處理模型對于亞馬遜 Alexa 和 Google Home 等助手來說是眾所周知的,但它可能無法轉(zhuǎn)化為需要嚴格隱私或低成本的邊緣設(shè)備中的語音識別。

PicoVoice 創(chuàng)始人兼總裁 Alireza Kenarsari-Anhari 表示:“隨著[支持語音的] 設(shè)備變得越來越普遍,在服務(wù)器端處理所有內(nèi)容在財務(wù)上將無法正常工作。” “計算資源不是免費的。要為所有東西制作語音界面,你需要讓它足夠便宜。在設(shè)備上運行是做到這一點的唯一方法?!?/p>

例如,根據(jù) Kenarsari-Anhari 的說法,使用公共云服務(wù)的聲控咖啡機,如果每天使用 10 次,每臺設(shè)備每年的成本約為 15 美元。

“如果您使用咖啡機 CPU 上已有的資源,您可以免費執(zhí)行此操作,”他說。

根據(jù)具體的應(yīng)用,在邊緣執(zhí)行語音識別還可以提供更好的延遲和可靠性。

pYYBAGLXUXmANyZxADSFZ06vPZU925.jpg

語音激活助手,如 Amazon Alexa,使用云進行自然語言處理,但這種模式可能不適用于更便宜的設(shè)備(圖片:Loewe Technologies

語音轉(zhuǎn)文本

PicoVoice 的新產(chǎn)品是一種用于語音到文本轉(zhuǎn)錄的機器學(xué)習模型,它在小型 CPU 上運行,就像 Raspberry Pi Zero 上的 ARM11 內(nèi)核一樣。該模型可以理解大約 200,000 個英語單詞,單詞錯誤率與基于云的家庭助手相當。這可以用于需要云外轉(zhuǎn)錄能力的設(shè)備。

“市場上有一些活動圍繞捕獲或總結(jié)公司會議中發(fā)生的事情,”Kenarsari-Anhari 說,引用了不想將專有信息提交到云中的公司,或者有大量數(shù)據(jù)需要轉(zhuǎn)錄的公司,在云中做這件事的成本太高了。

語音到文本引擎加入了該公司的兩個現(xiàn)有產(chǎn)品。第一個是喚醒詞引擎,可以定制為使用遷移學(xué)習快速、廉價地接受任何喚醒詞。

第二個是用于設(shè)備的語音到意圖引擎,可以理解有限域內(nèi)的語音命令(例如要求打開或關(guān)閉燈)。

“如果我有一個定義明確的域,并且用戶要在該域中發(fā)出語音命令,我們可以在該域中進行自然語言理解,并且我們可以非常有效地做到這一點,整個模型小于半兆字節(jié)。這就是為什么我們可以在低于 1 美元的 MCU 上做到這一點,”Kenarsari-Anhari 說。“如果客戶想要制造智能冰箱,并使用一組定義的語音命令,我們將為該特定應(yīng)用程序訓(xùn)練模型,然后他們將其部署在他們的冰箱中,并向我們支付版稅?!?/p>

這個怎么運作

為了在小型 CPU 上運行自然語言處理模型,PicoVoice 發(fā)明了一種訓(xùn)練模型的新方法,使模型更小,計算效率更高。

“我們查看目標設(shè)備上的指令集,并嘗試找到使用這些指令有效實施的數(shù)學(xué)運算,”Kenarsari-Anhari 說。“我們用不同的數(shù)學(xué)運算模擬矩陣乘法,使用該設(shè)備上的指令來實現(xiàn)更有效?!?/p>

這意味著經(jīng)過訓(xùn)練的模型是特定于設(shè)備的,因為它們?nèi)Q于所使用的確切指令集,但他說,在實踐中,絕大多數(shù)音頻處理器僅基于三個選項(ARM、Tensilica HiFi 和 Ceva TeakLite)。

pYYBAGLO_PeAdmBnAAGjieDGWvk030.png

Alireza Kenarsari-Anhari
(圖片:PicoVoice)

“我們在這三種不同類型的 CPU 上找到了指令,我們可以在其中非常有效地實現(xiàn)模擬矩陣乘法的東西,”他說?!拔覀兛梢葬槍@三個不同的目標訓(xùn)練模型,但是我們針對 ARM 訓(xùn)練模型的方式與針對 Tensilica HiFi 訓(xùn)練模型的方式不同。從用戶的角度來看,[模型] 提供了相似的性能,但底層的數(shù)學(xué)公式不同,這導(dǎo)致在目標設(shè)備上的高效執(zhí)行。”

雖然 Kenarsari-Anhari 拒絕進一步詳細說明 PicoVoice 使用了哪些指令,但他表示基本概念類似于位于西雅圖的 Xnor,后者使用 XNOR 指令加速計算機視覺模型。然而,與基于循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 的加速語音模型相比,通常基于卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的加速視覺模型是一項更簡單的任務(wù)。

他解釋說,對于查看相機圖片的 CNN,模型看到的內(nèi)容是有限的,但 RNN 包含時間的概念。

“通過語音,當我說話時,你的大腦會保存我所說的歷史,并用它來推斷我現(xiàn)在所說的,”他說?!凹铀?RNN 更難的原因是因為沒有記憶可以幫助你避免復(fù)合錯誤。加速模型中通常有更多的噪聲,而對于 RNN,噪聲會隨著時間的推移而累積,使神經(jīng)網(wǎng)絡(luò)變得不穩(wěn)定?!?/p>

收入來源

PicoVoice 的“不到 10 人”核心團隊大部分來自亞馬遜,其中包括 2018 年 1 月創(chuàng)辦公司的 Kenarsari-Anhari。PicoVoice 根據(jù)工業(yè)研究援助計劃 (IRAP) 獲得了加拿大國家研究委員會的資助,但迄今為止沒有其他外部資金。

Kenarsari-Anhari 說,不籌集資金的決定使公司有時間“解決實驗開發(fā)和應(yīng)用研究的基本問題”。

該公司已經(jīng)從包括 LG、惠而浦和 Local Motors 在內(nèi)的眾多客戶那里獲得了收入來源。


審核編輯 黃昊宇
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • mcu
    mcu
    +關(guān)注

    關(guān)注

    147

    文章

    19012

    瀏覽量

    400334
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    商湯科技正式開源多模態(tài)自主推理模型SenseNova-MARS

    今日,商湯正式開源多模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在多模態(tài)搜索與推理的核心基準測試中以 69.74 分超越Gemini-3-Pro(69.06 分)、GPT-5.2(67.64 分)。
    的頭像 發(fā)表于 01-30 10:13 ?664次閱讀
    商湯科技正式開源多模態(tài)自主<b class='flag-5'>推理模型</b>SenseNova-MARS

    阿里巴巴發(fā)布通義千問旗艦推理模型Qwen3-Max-Thinking

    今天,我們正式發(fā)布千問旗艦推理模型Qwen3-Max-Thinking,創(chuàng)下數(shù)項權(quán)威評測全球新紀錄。
    的頭像 發(fā)表于 01-27 15:47 ?474次閱讀
    阿里巴巴發(fā)布通義千問旗艦<b class='flag-5'>推理模型</b>Qwen3-Max-Thinking

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對當前大型推理模型(LRM)進行了深刻的剖析,超越了表面的性能宣傳,直指其技術(shù)本質(zhì)和核心局限。以下是基于原文的詳細技術(shù)原理、關(guān)鍵
    的頭像 發(fā)表于 01-19 15:33 ?578次閱讀
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1347次閱讀

    語音交互數(shù)據(jù) 精準賦能語音模型進階

    模型在多輪對話、噪聲環(huán)境及語義理解方面表現(xiàn)不佳。 相較于傳統(tǒng)數(shù)據(jù)集僅關(guān)注語音-文本的單點轉(zhuǎn)寫,端語音交互數(shù)據(jù)集強調(diào)在真實多輪對話場景下的
    的頭像 發(fā)表于 09-11 17:17 ?788次閱讀

    如果大模型是一片星空,誰是北斗?

    文心X1.1,破解推理模型的發(fā)展瓶頸
    的頭像 發(fā)表于 09-10 18:02 ?3598次閱讀
    如果大<b class='flag-5'>模型</b>是一片星空,誰是北斗?

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1874次閱讀
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理模型</b>發(fā)布

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現(xiàn)已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機上的原生適配與優(yōu)化,用戶可一鍵啟用這顆“小而強悍”的新引擎,在本地享受企業(yè)級 AI 生產(chǎn)力!
    的頭像 發(fā)表于 08-14 11:34 ?1451次閱讀

    利用NVIDIA推理模型構(gòu)建AI智能體

    開放式推理模型能夠更快、更廣泛地進行思考,為客戶服務(wù)、網(wǎng)絡(luò)安全、制造、物流和機器人等領(lǐng)域的 AI 智能體生成更明智的結(jié)果。
    的頭像 發(fā)表于 08-13 14:32 ?1661次閱讀
    利用NVIDIA<b class='flag-5'>推理模型</b>構(gòu)建AI智能體

    速看!EASY-EAI教你離線部署Deepseek R1大模型

    1.Deepseek簡介DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研發(fā)的推理模型。DeepSeek-R1采用強化學(xué)習進行后訓(xùn)練,旨在提升推理能力,尤其擅長數(shù)學(xué)、代碼
    的頭像 發(fā)表于 07-25 15:22 ?1460次閱讀
    速看!EASY-EAI教你離線部署Deepseek R1大<b class='flag-5'>模型</b>

    模型推理顯存和計算量估計方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習大模型在各個領(lǐng)域得到了廣泛應(yīng)用。然而,大模型推理過程對顯存和計算資源的需求較高,給實際應(yīng)用帶來了挑戰(zhàn)。為了解決這一問題,本文探討大
    發(fā)表于 07-03 19:43

    Whisper大型v3 fp32模型轉(zhuǎn)換為較低精度后,推理時間增加,怎么解決?

    openai/whisper-large-v3 FP32 模型轉(zhuǎn)換為 FP16、INT8 和 INT4。 推理所花費的時間比在 FP32 上花費的時間要多
    發(fā)表于 06-24 06:23

    邊緣計算中的機器學(xué)習:基于 Linux 系統(tǒng)的實時推理模型部署與工業(yè)集成!

    你好,旅行者!歡迎來到Medium的這一角落。在本文中,我們將把一個機器學(xué)習模型(神經(jīng)網(wǎng)絡(luò))部署邊緣設(shè)備上,利用從ModbusTCP寄存器獲取的實時數(shù)據(jù)來預(yù)測一臺復(fù)古音頻放大器的當前健康狀況。你
    的頭像 發(fā)表于 06-11 17:22 ?1090次閱讀
    邊緣計算中的機器學(xué)習:基于 Linux 系統(tǒng)的實時<b class='flag-5'>推理模型</b>部署與工業(yè)集成!

    詳解 LLM 推理模型的現(xiàn)狀

    2025年,如何提升大型語言模型(LLM)的推理能力成了最熱門的話題之一,大量優(yōu)化推理能力的新策略開始出現(xiàn),包括擴展推理時間計算、運用強化學(xué)習、開展監(jiān)督微調(diào)和進行提煉等。本文
    的頭像 發(fā)表于 04-03 12:09 ?1692次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現(xiàn)狀

    中科馭數(shù)高性能網(wǎng)卡產(chǎn)品 成就DeepSeek推理模型網(wǎng)絡(luò)底座

    的突破性進展,而且開源模型發(fā)展帶來部署成本的極速下降,為定制化AGI服務(wù),推理本地化部署,帶來發(fā)展機遇,也掀起了新的一輪智算基礎(chǔ)設(shè)施建設(shè)浪潮。 與按Token生成數(shù)量計費的AI云服務(wù)模式不同,出于數(shù)據(jù)安全的考慮,很多用戶選擇采用本地化部署
    的頭像 發(fā)表于 03-31 11:56 ?722次閱讀
    中科馭數(shù)高性能網(wǎng)卡產(chǎn)品 成就DeepSeek<b class='flag-5'>推理模型</b>網(wǎng)絡(luò)底座