91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

瑞芯微(EASY EAI)RV1126B 語音識別

廣州靈眸科技有限公司 ? 2026-01-21 10:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 語音識別簡介

語音識別技術(shù),也被稱為自動語音識別(Automatic Speech Recognition,ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識別及說話人確認(rèn)不同,后者嘗試識別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。

我們的語音算法是基于Whisper是OpenAI設(shè)計的。Whisper作為一個通用的語音識別模型,它使用了大量的多語言和多任務(wù)的監(jiān)督數(shù)據(jù)來訓(xùn)練,能夠在英語語音識別上達(dá)到接近人類水平的魯棒性和準(zhǔn)確性。Whisper還可以進(jìn)行多語言語音識別、語音翻譯和語言識別等任務(wù)。Whisper的架構(gòu)是一個簡單的端到端方法,采用了編碼器-解碼器的Transformer模型,將輸入的音頻轉(zhuǎn)換為對應(yīng)的文本序列,并根據(jù)特殊的標(biāo)記來指定不同的任務(wù)。

基于EASY-EAI-Nano-TB(RV1126B)硬件主板的運行效率:

v2-595dc54f52ffc786654fd14d3ede5ab8_720w.webp

2. 快速上手

2.1 開發(fā)環(huán)境準(zhǔn)備

如果您初次閱讀此文檔,請閱讀《入門指南/開發(fā)環(huán)境準(zhǔn)備/Easy-Eai編譯環(huán)境準(zhǔn)備與更新》,并按照其相關(guān)的操作,進(jìn)行編譯環(huán)境的部署。

在PC端Ubuntu系統(tǒng)中執(zhí)行run腳本,進(jìn)入EASY-EAI編譯環(huán)境,具體如下所示。

cd ~/develop_environment
./run.sh 2204
v2-e1127efd76bcca3331922be6d17e546f_720w.webp

2.2 源碼下載

在EASY-EAI編譯環(huán)境下創(chuàng)建存放源碼倉庫的管理目錄:

cd /opt
mkdir EASY-EAI-Toolkit
cd EASY-EAI-Toolkit

通過git工具,在管理目錄內(nèi)克隆遠(yuǎn)程倉庫

git clone https://github.com/EASY-EAI/EASY-EAI-Toolkit-1126B.git
v2-67d8e73ccfe13280db05364195d1679f_720w.webp

注:

* 此處可能會因網(wǎng)絡(luò)原因造成卡頓,請耐心等待。

* 如果實在要在gitHub網(wǎng)頁上下載,也要把整個倉庫下載下來,不能單獨下載本實例對應(yīng)的目錄。

2.3 模型部署

要完成算法Demo的執(zhí)行,需要先下載語音算法模型。

百度網(wǎng)盤鏈接為: https://pan.baidu.com/s/18okeW8ZIJ6zapTvuxcFoRw?pwd=1234 (提取碼:1234 )。

v2-298c4633a7e9acf80df25a6a795efb4d_720w.webp

同時需要把下載的語音識別算法模型復(fù)制粘貼到Release/目錄:

v2-7ccd142109ead84cde8e386b5ae4f50d_720w.webp

2.4 例程編譯

進(jìn)入到對應(yīng)的例程目錄執(zhí)行編譯操作,具體命令如下所示:

cd EASY-EAI-Toolkit-1126B/Demos/algorithm-speech_recognition/
./build.sh cpres

注:

* 由于依賴庫部署在板卡上,因此交叉編譯過程中必須保持/mnt掛載。

* 若build.sh腳本帶有cpres參數(shù),則會把Release/目錄下的所有資源都拷貝到開發(fā)板上。

v2-3c77c542c667b8a05364511ede82d874_720w.webp

2.5 例程運行及效果

通過串口調(diào)試或ssh調(diào)試,進(jìn)入板卡后臺,定位到例程部署的位置,如下所示:

cd /userdata/Demo/algorithm-speech_recognition/
v2-81d31547733c1f27f6819ed921f4e71c_720w.webp

運行例程命令如下所示:

sudo ./test-speech_recognition speech_encoder.model speech_decoder.model filters.txt CN.txt cn 1-10-1_CN.wav
v2-46eb8d4fcf8f7c8a298934b4359dd9b5_720w.webp

API的詳細(xì)說明,以及API的調(diào)用(本例程源碼),詳細(xì)信息見下方說明。

3. 語音識別API說明

3.1 引用方式

為方便客戶在本地工程中直接調(diào)用我們的EASY EAI api庫,此處列出工程中需要鏈接的庫以及頭文件等,方便用戶直接添加。

v2-51f9057bee402e3e3cc960980f2b71ae_720w.webp

3.2 語音識別檢測初始化函數(shù)

設(shè)置語音識別初始化函數(shù)原型如下所示。

int speech_recognition_init(const char *p_encoder_path, const char *p_decoder_path, const char *p_filter_path, 
		const char *p_vocab_path, rknn_whisper_t *p_whisper);

具體介紹如下所示。

v2-cab1bb8251d37ad0363ce642bf206b83_720w.webp

3.3 語音識別運行函數(shù)

設(shè)置語音識別運行原型如下所示。

int speech_recognition_run(rknn_whisper_t *p_whisper, audio_buffer_t audio, int task_code, std::vector &recognized_text);

具體介紹如下所示。

v2-9a995d9672bd5c68801d9119167660e7_720w.webp

3.4 語音識別釋放函數(shù)

設(shè)置語音識別釋放原型如下所示。

int speech_recognition_release(rknn_whisper_t *p_whisper);

具體介紹如下所示。

v2-748001e3579a49116c31885d5f880bc9_720w.webp

4. 語音識別算法例程

例程目錄為Demos/algorithm-speech_recognition/test-speech_recognition.cpp,操作流程如下所示:

v2-74d56eea17e649adf2bda1c002418e44_720w.webp
#include 
#include 
#include 
#include 
#include 
#include "sndfile.h"
#include "speech_recognition.h"
#include "audio_utils.h"


int main(int argc, char **argv)
{
	if (argc != 7){
		printf("%s  \n", argv[0]);
		printf("Example: %s speech_encoder.model speech_decoder.model filters.txt CN.txt cn 1-10-1_CN.wav\n", argv[0]);
		return -1;
	}
	const char *p_encoder_path = argv[1];	// 編碼模型地址
	const char *p_decoder_path = argv[2];	// 解碼模型地址
	const char *p_filter_path = argv[3];	// 濾波器頻譜
	const char *p_vocab_path = argv[4];		// 詞組文件
	const char *p_task = argv[5];			// 識別語種(cn/en)
	const char *p_audio_path = argv[6];		// 待識別音頻
	int task_code = 0;
	std::vector recognized_text;

	// Tokenizer 預(yù)定義控制符號(切換語言或任務(wù))
	if (strcmp(p_task, "en") == 0){
		task_code = 50259;
	}
	else if (strcmp(p_task, "cn") == 0){
		task_code = 50260;
	}
	else{
		printf("\n\033[1;33mCurrently only English or Chinese recognition tasks are supported. Please specify  as en or zh\033[0m\n");
		return -1;
	}
	
	// 讀取音頻,并對音頻進(jìn)行處理
	audio_buffer_t audio;
	int ret = read_audio(p_audio_path, &audio);
	if (ret != 0){
		printf("read audio fail! ret=%d audio_path=%s\n", ret, p_audio_path);
		return -1;
	}
	if (audio.num_channels == 2){
		ret = convert_channels(&audio);
	}
	if (audio.sample_rate != SAMPLE_RATE){
		ret = resample_audio(&audio, audio.sample_rate, SAMPLE_RATE);
	}

	// speech recognition初始化
	rknn_whisper_t whisper;
	ret = speech_recognition_init(p_encoder_path, p_decoder_path, p_filter_path, p_vocab_path, &whisper);

	int iter = 0;
	for (int i=0; i < 5; i++)
	{
		clock_t start = clock();

		recognized_text.clear();
		// speech recognition語音識別
		ret = speech_recognition_run(&whisper, audio, task_code, recognized_text);
		
		clock_t end = clock();  // 記錄結(jié)束時間
		double infer_time = ((double)(end - start)) / CLOCKS_PER_SEC;  // 轉(zhuǎn)換為秒

		// 結(jié)果輸出
		std::cout << "\nspeech recognition output: ";
		for (const auto &str : recognized_text){
			std::cout << str;
		}
		std::cout << std::endl;

		float audio_length = audio.num_frames / (float)SAMPLE_RATE; // sec
		audio_length = audio_length > (float)CHUNK_LENGTH ? (float)CHUNK_LENGTH : audio_length;
		float rtf = infer_time / audio_length;
		printf("%d, Real Time Factor (RTF): %.3f / %.3f = %.3f\n", iter++, infer_time, audio_length, rtf);
	}

	// speech recognition釋放 
	speech_recognition_release(&whisper);
	return 0;
}
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Linux
    +關(guān)注

    關(guān)注

    88

    文章

    11755

    瀏覽量

    218995
  • 瑞芯微
    +關(guān)注

    關(guān)注

    27

    文章

    790

    瀏覽量

    54255
  • EASY-EAI靈眸科技
    +關(guān)注

    關(guān)注

    4

    文章

    66

    瀏覽量

    3607
  • RV1126B
    +關(guān)注

    關(guān)注

    0

    文章

    54

    瀏覽量

    172
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    (EASY EAI)RV1126B 音頻輸入

    1.聲卡資源介紹EASY-EAI-Nano-TB僅有一塊由RV1126B主控輸出的聲卡。通過串口調(diào)試或ssh調(diào)試,可以進(jìn)入開發(fā)板終端。執(zhí)行aplay命令查看聲卡相關(guān)的詳細(xì)信息,如下所示
    的頭像 發(fā)表于 12-18 13:41 ?2354次閱讀
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b>(<b class='flag-5'>EASY</b> <b class='flag-5'>EAI</b>)<b class='flag-5'>RV1126B</b> 音頻輸入

    (EASY EAI)RV1126B PWM使用

    1.PWM簡介1.1開發(fā)板PWM資源1.2查找PWM節(jié)點rv1126b的pwm資源表如下:【PWM1CH0】對應(yīng)的是pwm1_4ch_0,寄存地址為20700000?!綪WM1CH1】對應(yīng)
    的頭像 發(fā)表于 01-06 10:49 ?6585次閱讀
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b>(<b class='flag-5'>EASY</b> <b class='flag-5'>EAI</b>)<b class='flag-5'>RV1126B</b> PWM使用

    如何用RV1126B核心板贏得AI紅利?

    在邊緣AI從概念邁向規(guī)?;涞氐漠?dāng)下,RV1126B處理器以精準(zhǔn)契合場景剛需的技術(shù)優(yōu)勢,為端側(cè)智能提供了強大算力支撐。而飛凌嵌入式FET112
    的頭像 發(fā)表于 01-09 09:41 ?7252次閱讀
    如何用<b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b><b class='flag-5'>RV1126B</b>核心板贏得AI紅利?

    EASY EAI Nano-TB(RV1126B)開發(fā)板試用】+初識篇

    Nano-TB是靈眸科技研發(fā)的一款應(yīng)用于AIoT領(lǐng)域的開發(fā)板,它基于RV1126B處理器,集成了4個Cortex-A53及獨立的NEON協(xié)處理器,它支持4K@30fps的H.
    發(fā)表于 10-25 22:06

    EASY EAI Nano-TB(RV1126B)開發(fā)板試用】命令行功能測試-shell腳本進(jìn)行IO控制-燈閃

    接上文【EASY EAI Nano-TB(RV1126B)開發(fā)板試用】開箱測評 https://pan.baidu.com/s/15pnbJXPN5TrfV2KfsKaZyQ?pwd=1234 打開
    發(fā)表于 11-01 21:26

    EASY EAI Nano-TB(RV1126B)開發(fā)板試用】命令行功能測試-shell腳本進(jìn)行IO控制-紅綠燈項目

    接上文【EASY EAI Nano-TB(RV1126B)開發(fā)板試用】通過wifi連接,使用ssh登錄EASY EAI Nano-TB(
    發(fā)表于 11-02 18:34

    EASY EAI Nano-TB(RV1126B)開發(fā)板試用】命令行功能測試-shell腳本進(jìn)行IO控制-紅綠燈按鈕項目

    0接上文【EASY EAI Nano-TB(RV1126B)開發(fā)板試用】命令行功能測試-shell腳本進(jìn)行IO控制-紅綠燈項目-實現(xiàn)開機(jī)起動 EASYEAINano-TB(RV1126B
    發(fā)表于 11-03 10:00

    請問各位大佬,如何解決, RV1126B 使用 mpp 自帶工具 調(diào)試時,內(nèi)核直接報錯崩潰!

    請問各位大佬,如何解決, RV1126B 使用 mpp 自帶工具 調(diào)試時,內(nèi)核直接報錯崩潰! 調(diào)試輸出如下:
    發(fā)表于 11-19 16:01

    EASY EAI Nano-TB(RV1126B)開發(fā)板試用】+1、開箱上電

    ,避免因接觸不良導(dǎo)致顯示或采集異常。 2 硬件解析:強勁AI核心與豐富接口 2.1 核心處理器性能 EASY EAI Nano-TB開發(fā)板的核心基于
    發(fā)表于 11-19 21:39

    EASY EAI Nano-TB(RV1126B)開發(fā)板試用】介紹、系統(tǒng)安裝

    ,并介紹了系統(tǒng)鏡像安裝部署的相關(guān)流程。 介紹 EASY-EAI-Nano-TB是靈眸科技研發(fā)的一款應(yīng)用于AIoT領(lǐng)域的AIOT主板。 核心板基于
    發(fā)表于 12-23 18:05

    RV1126系列選型指南:從RV1126RV1126B,一文看懂升級差異

    2025年7月,正式發(fā)布新一代AI視覺芯片RV1126B。作為其金牌方案商,EASYEAI靈眸科技同步推出搭載該芯片的AIoT核心板EAI11
    的頭像 發(fā)表于 09-04 10:50 ?4496次閱讀
    <b class='flag-5'>RV1126</b>系列選型指南:從<b class='flag-5'>RV1126</b>到<b class='flag-5'>RV1126B</b>,一文看懂升級差異

    【免費試用】EASY EAI Nano-TB(RV1126B)開發(fā)套件評測

    EASY-EAI-Nano-TB是靈眸科技研發(fā)的一款應(yīng)用于AIoT領(lǐng)域的AIOT主板。核心板基于RV1126B處理器設(shè)計,并引入了新
    的頭像 發(fā)表于 09-23 08:09 ?1039次閱讀
    【免費試用】<b class='flag-5'>EASY</b> <b class='flag-5'>EAI</b> Nano-TB(<b class='flag-5'>RV1126B</b>)開發(fā)套件評測

    RV1126B特性概述

    RV1126BRockchip在2025年第二季度全新推出的Arm架構(gòu)AI視覺芯片,搭載4核Cortex-A53與自研3Tops算力NPU。全面替代上一代的
    的頭像 發(fā)表于 10-09 11:22 ?1768次閱讀
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b><b class='flag-5'>RV1126B</b>特性概述

    替代升級實錘!實測RV1126B,CPU性能吊打RV1126

    AI智能芯片迭代提速,推出了全新的Arm架構(gòu)AI視覺芯片RV1126B,是否替換RV1126,CPU性能是擠牙膏還是大突破。帶著這些核
    的頭像 發(fā)表于 12-11 17:13 ?2216次閱讀
    替代升級實錘!實測<b class='flag-5'>RV1126B</b>,CPU性能吊打<b class='flag-5'>RV1126</b>

    (EASY EAI)RV1126B 人體關(guān)鍵點識別

    的特點。本人員檢測算法在數(shù)據(jù)集表現(xiàn)如下所示:基于EASY-EAI-Nano-TB(RV1126B)硬件主板的運行效率:17個人體關(guān)鍵點索引定義:2.快速上手2.1開發(fā)
    的頭像 發(fā)表于 01-23 10:13 ?2150次閱讀
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b>(<b class='flag-5'>EASY</b> <b class='flag-5'>EAI</b>)<b class='flag-5'>RV1126B</b> 人體關(guān)鍵點<b class='flag-5'>識別</b>