五月丁香se婷婷,日韩免费福利视频,亚洲黄色一区二区三不

0 TL;DR

已適配 CosyVoice2 到 AX8850 開(kāi)發(fā)板和 M.2 算力卡，可以協(xié)助樹(shù)莓派5實(shí)現(xiàn)本地語(yǔ)音克??；

預(yù)編譯示例已開(kāi)源（GitHub & HuggingFace），附帶簡(jiǎn)易 Gradio 演示界面；

RTF 1.5 左右（M.2 算力卡 RTF 2.5左右），適合對(duì)實(shí)時(shí)性要求不高的離線場(chǎng)景；

想要RTF ＜0.1 的 TTS，對(duì)音色效果要求不高的場(chǎng)景，可以參考我們才適配好的 Kokoro：

https://huggingface.co/AXERA-TECH/kokoro.axera

背景

今年下半年，隨著業(yè)務(wù)推廣需求增加，我們的大模型適配工作也有了新方向：不再只追求前沿模型的快速適配，而是更聚焦為銷(xiāo)售團(tuán)隊(duì)提供“能打”的實(shí)戰(zhàn)“彈藥”——也就是貼近客戶(hù)剛需的、可快速落地的大模型解決方案。

因此，接下來(lái)的技術(shù)分享會(huì)更聚焦在基于我司邊緣 AI 芯片 AX8850 的實(shí)際應(yīng)用落地，幫助客戶(hù)實(shí)現(xiàn)從 Demo 到量產(chǎn)的跨越。

其中一個(gè)重點(diǎn)場(chǎng)景就是：離線語(yǔ)音智能助手。

目前實(shí)現(xiàn)方式大致分兩種：

組合式方案：ASR → LLM → TTS（或 Audio-LLM → TTS）

端到端方案：用一個(gè)全能大模型（如Qwen3-omni）直接處理語(yǔ)音輸入輸出

我們更傾向組合式方案，因?yàn)椋?/p>

模塊靈活，可單獨(dú)升級(jí)替換

成本低，ROI 高

更容易適配不同客戶(hù)場(chǎng)景

而在組合方案中，TTS 是關(guān)鍵一環(huán)。我們希望它能支持語(yǔ)音克隆，讓助手更有“人味”。

目前主流的開(kāi)源語(yǔ)音克隆TTS模型有：CosyVoice 2、IndexTTS2、VoxCPM 等。本文先帶大家快速看看 CosyVoice 2 在 AX8850 芯片上的部署進(jìn)展，希望能為想在邊緣側(cè)做語(yǔ)音克隆的開(kāi)發(fā)者提供一個(gè)新選擇。

CosyVoice2

CosyVoice 2 是阿里巴巴通義實(shí)驗(yàn)室推出的一個(gè)開(kāi)源多語(yǔ)言語(yǔ)音生成大模型，主要用于文本轉(zhuǎn)語(yǔ)音（TTS）應(yīng)用的開(kāi)發(fā)。該模型在前代 CosyVoice 的基礎(chǔ)上，通過(guò)系統(tǒng)性?xún)?yōu)化，實(shí)現(xiàn)了在流式（實(shí)時(shí)）模式下與人類(lèi)語(yǔ)音媲美且近乎無(wú)損的合成質(zhì)量，同時(shí)顯著降低了響應(yīng)延遲。

Huggingface 鏈接：

https://huggingface.co/FunAudioLLM/CosyVoice2-0.5B

GitHub 鏈接：

https://GitHub.com/FunAudioLLM/CosyVoice

Paper 鏈接：

https://arxiv.org/pdf/2412.10117

Demos：

https://funaudiollm.GitHub.io/cosyvoice2/

架構(gòu)特點(diǎn)：

CosyVoice 2 的架構(gòu)延續(xù)了將語(yǔ)音信號(hào)的語(yǔ)義信息（說(shuō)什么）和聲學(xué)信息（怎么說(shuō)）分離建模的設(shè)計(jì)理念，主要由三個(gè)關(guān)鍵組件構(gòu)成：

監(jiān)督式語(yǔ)義語(yǔ)音分詞器 (Supervised Semantic Speech Tokenizer)：

這是一個(gè)基于 SenseVoice-Large ASR 模型改造的模塊。

它使用有限標(biāo)量量化 (Finite Scalar Quantization, FSQ) 技術(shù)，將連續(xù)的語(yǔ)音信號(hào)離散化為語(yǔ)義語(yǔ)音標(biāo)記（speech tokens）。

FSQ 的引入替代了傳統(tǒng)的向量量化（VQ），顯著提高了碼本利用率，能更有效地捕捉和保留語(yǔ)音中的信息。

統(tǒng)一的文本-語(yǔ)音語(yǔ)言模型 (Unified Text-Speech Language Model)：

這是 CosyVoice 2 的核心創(chuàng)新之一，實(shí)現(xiàn)了流式與非流式合成的統(tǒng)一。

該模型直接采用一個(gè)預(yù)訓(xùn)練的大型語(yǔ)言模型（Qwen2.5-0.5B）作為骨干網(wǎng)絡(luò)，去除了前代模型中的文本編碼器和說(shuō)話人嵌入，簡(jiǎn)化了架構(gòu)并增強(qiáng)了上下文理解能力。

流式模式：輸入文本以連續(xù)流的方式接收。模型通過(guò)將 N 個(gè)文本標(biāo)記與 M 個(gè)語(yǔ)音標(biāo)記按特定比例（如 5:15）混合的方式進(jìn)行訓(xùn)練。當(dāng)模型預(yù)測(cè)到“填充標(biāo)記”時(shí)，系統(tǒng)便知道需要繼續(xù)接收下一個(gè)文本塊，從而實(shí)現(xiàn)邊接收文本邊生成語(yǔ)音標(biāo)記的流式處理。

非流式模式：完整的輸入文本和語(yǔ)音標(biāo)記被直接拼接，模型進(jìn)行一次性生成。

通過(guò)在同一模型上同時(shí)訓(xùn)練這兩種模式，CosyVoice 2 實(shí)現(xiàn)了“一個(gè)模型，兩種模式”，并且流式合成的質(zhì)量與非流式模式幾乎無(wú)損。

塊感知因果流匹配模型 (Chunk-Aware Causal Flow Matching Model)：

該模塊負(fù)責(zé)將語(yǔ)言模型生成的語(yǔ)義語(yǔ)音標(biāo)記轉(zhuǎn)換為包含音色、韻律等細(xì)節(jié)的梅爾頻譜圖（Mel spectrum）。

它基于流匹配 (Flow Matching) 技術(shù)，是一種非自回歸（NAR）的生成模型。

為了支持流式合成，模型設(shè)計(jì)了因果卷積 Transformer UNet 結(jié)構(gòu)，并引入了四種不同的注意力掩碼：

- 非因果掩碼：用于離線模式，性能最佳。

- 全因果掩碼：僅允許訪問(wèn)過(guò)去的信息，延遲最低。

- Chunk-M/Chunk-2M 掩碼：權(quán)衡延遲與性能，允許訪問(wèn)有限的未來(lái)信息。

在訓(xùn)練時(shí)，隨機(jī)從這四種掩碼中選擇一種，使得單一模型能夠適應(yīng)不同的合成場(chǎng)景（低延遲流式、高質(zhì)量離線等），極大地簡(jiǎn)化了部署。

Benchmark

總結(jié)來(lái)說(shuō)，CosyVoice 2 的架構(gòu)通過(guò) FSQ 提升信息編碼效率，利用統(tǒng)一的 LLM 架構(gòu)實(shí)現(xiàn)流式與非流式的無(wú)縫切換，并采用塊感知的因果流匹配模型來(lái)支持靈活的流式聲學(xué)合成，最終構(gòu)建了一個(gè)高質(zhì)量、低延遲、部署靈活的先進(jìn)語(yǔ)音合成系統(tǒng)。

部署示例

為了更好的進(jìn)行開(kāi)發(fā)者社區(qū)技術(shù)推廣，因此我們將借助國(guó)內(nèi)外非常成熟的樹(shù)莓派生態(tài)產(chǎn)品：樹(shù)莓派 5+AXCL 算力卡的形態(tài)進(jìn)行說(shuō)明?；?AX8850 的社區(qū)開(kāi)發(fā)板同樣也支持部署該實(shí)例，本文就不單獨(dú)說(shuō)明了。

默認(rèn)本文的閱讀者能自行解決訪問(wèn) Huggingface 的辦法。

硬件推薦

樹(shù)莓派 5 + LLM8850-Card

樹(shù)莓派 5 + Maix4-HAT

軟件步驟

默認(rèn)已按照硬件產(chǎn)品的指導(dǎo)文檔完成了硬件及必要的軟件驅(qū)動(dòng)安裝（例如 AXCL 驅(qū)動(dòng)包）。

預(yù)編譯好的模型和示例已經(jīng)上傳到 huggingface（或者 hf-mirror）。

https://huggingface.co/AXERA-TECH/CosyVoice2

如何將原始的模型轉(zhuǎn)換成 axmodel 并部署，請(qǐng)參考我們的 GitHub 倉(cāng)庫(kù)。

https://github.com/AXERA-TECH/Cosyvoice2.Axera

（友情提示：除非對(duì)該模型有 finetuning 需求的同學(xué)，否則我建議一開(kāi)始不要浪費(fèi)時(shí)間來(lái)學(xué)習(xí)該模型的換行或者示例代碼的編譯，因?yàn)檫^(guò)程比較復(fù)雜┓( ′?` )┏）

獲取示例

//代碼開(kāi)始

pip install huggingface_hub
exportHF_ENDPOINT=HTTPS://hf-mirror.com
hf downloadAXERA-TECH/CosyVoice2--local-dirAXERA-TECH/CosyVoice2

//代碼結(jié)束

安裝依賴(lài)

//代碼開(kāi)始

cdAXERA-TECH/CosyVoice2
pip install -r scripts/requirements.txt
pip install modelscope
modelscope download --model pengzhendong/wetext --local_dir pengzhendong/wetext

//代碼結(jié)束

運(yùn)行示例

這里我們選擇基于 Gradio WebGUI 的方案

運(yùn)行 tokenizer 服務(wù)

//代碼開(kāi)始

cdscripts
Python cosyvoice2_tokenizer.py

//代碼結(jié)束

運(yùn)行 axcl api 程序

//代碼開(kāi)始

cponnxruntime-Linux-aarch64-1.23.0/lib/libonnxruntime.so.1.23.0libonnxruntime.so.1
run_axcl_aarch64.sh

//代碼結(jié)束

運(yùn)行 gradio 腳本

//代碼開(kāi)始

Python scripts/gradio_demo.py

//代碼結(jié)束

通過(guò) web 瀏覽器訪問(wèn)

補(bǔ)充知識(shí)

阿里巴巴通義實(shí)驗(yàn)室除了研發(fā)家喻戶(hù)曉的通義千問(wèn)大模型之外，其實(shí)還有很多其他有趣、有價(jià)值的項(xiàng)目。

FunAudioLLM

是阿里巴巴通義實(shí)驗(yàn)室推出的一個(gè)面向語(yǔ)音生成的開(kāi)源大模型項(xiàng)目，旨在通過(guò)大語(yǔ)言模型（LLM）技術(shù)，實(shí)現(xiàn)更自然、更智能的語(yǔ)音合成與對(duì)話能力。

FunAudioLLM 并不是一個(gè)單一模型，而是一個(gè)包含語(yǔ)音識(shí)別（SenseVoice）和語(yǔ)音合成（CosyVoice）的開(kāi)源語(yǔ)音生成大模型套件。它代表了阿里在語(yǔ)音技術(shù)領(lǐng)域的前沿探索，致力于打造能理解情感、自然交流的下一代人機(jī)語(yǔ)音交互體驗(yàn)。

FunAudioLLM 的整體目標(biāo)是構(gòu)建一個(gè)端到端的語(yǔ)音生成系統(tǒng)，將先進(jìn)的語(yǔ)音識(shí)別（SenseVoice）與高質(zhì)量的語(yǔ)音合成（CosyVoice）能力深度結(jié)合，實(shí)現(xiàn)從“聽(tīng)懂人話”到“說(shuō)出人話”的完整、智能閉環(huán)。它特別適用于：

智能客服與虛擬助手：不僅能理解用戶(hù)語(yǔ)音并識(shí)別其情緒，還能用自然、富有情感的語(yǔ)音進(jìn)行回應(yīng)。

有聲書(shū)與內(nèi)容創(chuàng)作：用指定音色朗讀文本。

多語(yǔ)言?xún)?nèi)容生成與實(shí)時(shí)翻譯：支持跨語(yǔ)言的語(yǔ)音轉(zhuǎn)寫(xiě)與合成。

會(huì)議記錄與無(wú)障礙閱讀：實(shí)時(shí)轉(zhuǎn)錄并可選語(yǔ)音播報(bào)。

在后續(xù)的文章中，我們會(huì)針對(duì) SenceVoice 模型單獨(dú)說(shuō)明。

感謝

@M5Stack @矽速科技提供適用于樹(shù)莓派 5 的 M.2 2242 算力卡和 Maix4-HAT 算力模組

@某營(yíng)銷(xiāo)部同學(xué)貢獻(xiàn)聲源片段數(shù)據(jù)輔助 CosyVoice 2 生成《贈(zèng)汪倫》

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

開(kāi)發(fā)板

開(kāi)發(fā)板

+關(guān)注

關(guān)注
26

文章
6288

瀏覽量
117980
樹(shù)莓派

樹(shù)莓派

+關(guān)注

關(guān)注
122

文章
2076

瀏覽量
110443
AI芯片

AI芯片

+關(guān)注

關(guān)注
17

文章
2126

瀏覽量
36758

原文標(biāo)題：愛(ài)芯分享 | AX8850社區(qū)開(kāi)發(fā)板完成CosyVoice2適配

文章出處：【微信號(hào)：愛(ài)芯元智AXERA，微信公眾號(hào)：愛(ài)芯元智AXERA】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

愛(ài)芯元智邊緣AI芯片AX8850完成CosyVoice2大模型適配

評(píng)論