91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

愛芯元智邊緣AI芯片AX8850完成Qwen3-VL多模態(tài)大模型適配

愛芯元智AXERA ? 來源:愛芯元智AXERA ? 2025-11-26 13:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

0 TL;DR

已適配 Qwen3-VL-2B/4B/8B 到 AX8850 開發(fā)板和 M.2 算力卡,可在本地完成圖片內(nèi)容理解和視頻概要生成,可配合“樹莓派5”使用;

預(yù)編譯示例已開源(GitHub & HuggingFace),附帶簡(jiǎn)易 Gradio 演示界面,方便示例快速測(cè)試;

嘗試提供兼容 OpenAI API 的服務(wù),降低已有云端大模型業(yè)務(wù)快速遷移到本地;

最快響應(yīng)延時(shí)<0.5 秒;

M.2 板卡功耗<8 w,支持被動(dòng)散熱,工業(yè)應(yīng)用場(chǎng)景更可靠穩(wěn)定。

模型 圖片編碼 TTFT 生成速度
Qwen3-VL-2B 130 ms 320 ms 14.1tokens/s
Qwen3-VL-4B 130 ms 670 ms 7.2tokens/s
模型 視頻編碼(8幀) TTFT 生成速度
Qwen3-VL-2B 460 ms 840 ms 14.1tokens/s
Qwen3-VL-4B 460 ms 1880 ms 7.2tokens/s

背景

今年下半年,隨著業(yè)務(wù)推廣需求增加,我們的大模型適配工作也有了新方向:不再只追求前沿模型的快速適配,而是更聚焦為銷售團(tuán)隊(duì)提供“能打”的實(shí)戰(zhàn)“彈藥”——也就是貼近客戶剛需的、可快速落地的大模型解決方案。

因此,接下來的技術(shù)分享會(huì)更聚焦在基于我司邊緣 AI 芯片(如AX8850)的實(shí)際應(yīng)用落地,幫助客戶實(shí)現(xiàn)從 Demo 到量產(chǎn)的跨越。

其中一個(gè)重點(diǎn)場(chǎng)景就是:視頻事件分析

目前很多視頻分析產(chǎn)品采用類似 CLIP 模型,已經(jīng)能做到快速的單幀事件實(shí)時(shí)分析,但是對(duì)于時(shí)序性較高的場(chǎng)景支持并不太好。而通過多模態(tài)大語言模型,正好可以關(guān)聯(lián)相鄰幀的在時(shí)間軸上的語義特征信息,能夠進(jìn)一步對(duì)某些持續(xù)性的事件進(jìn)行理解和輸出。

最近 Qwen3-VL 開源了稠密小參數(shù)量的模型 Qwen3-VL-2B、Qwen3-VL-4B,從公開的 Benchmark 上看相比上一個(gè)版本 Qwen2.5-VL 系列有明顯的“跑分”優(yōu)勢(shì)。我們已完成相關(guān)模型的適配,希望對(duì)關(guān)注端側(cè)多模態(tài)大模型部署實(shí)現(xiàn)離線視頻分析的開發(fā)者提供一種新的解題思路。

Qwen3-VL

Qwen3-VL 是阿里巴巴通義千問團(tuán)隊(duì)于 2025 年 9 月 24 日 發(fā)布的最新一代多模態(tài)視覺語言模型(Vision-Language Model, VLM),是 Qwen 系列中目前性能最強(qiáng)、能力最全面的開源視覺語言模型。其整體能力接近甚至在多項(xiàng)指標(biāo)上超越 Gemini 2.5 Pro 和 GPT-5,并在 32 項(xiàng)核心能力測(cè)評(píng)中刷新開源模型紀(jì)錄。

這一代模型實(shí)現(xiàn)了全方位的全面升級(jí):更強(qiáng)的文本理解與生成能力、更深入的視覺感知與推理能力、更長(zhǎng)的上下文長(zhǎng)度、更出色的時(shí)空與視頻動(dòng)態(tài)理解能力,以及更強(qiáng)大的智能體交互能力。

Huggingface 鏈接

https://huggingface.co/Qwen/Qwen3-VL-2B-Instruct

Paper 鏈接:

https://huggingface.co/papers/2505.09388

在線 Demo:

https://huggingface.co/spaces/akhaliq/Qwen3-VL-2B-Instruct

主要特性:

視覺智能體(Visual Agent):可操作 PC/手機(jī)圖形用戶界面(GUI)——識(shí)別界面元素、理解功能、調(diào)用工具并完成任務(wù);

視覺編程增強(qiáng)(Visual Coding Boost):可直接根據(jù)圖像或視頻生成 Draw.io 流程圖、HTML/CSS/JS 代碼;

高級(jí)空間感知(Advanced Spatial Perception):能判斷物體位置、視角與遮擋關(guān)系;提供更強(qiáng)的 2D 定位能力,并支持 3D 定位,為復(fù)雜空間推理和具身智能(embodied AI)奠定基礎(chǔ);

長(zhǎng)上下文與視頻理解(Long Context & Video Understanding):原生支持 256K 上下文長(zhǎng)度,可擴(kuò)展至 1M;能夠完整記憶并實(shí)現(xiàn)秒級(jí)索引,輕松處理整本書籍或數(shù)小時(shí)長(zhǎng)的視頻內(nèi)容;

增強(qiáng)的多模態(tài)推理(Enhanced Multimodal Reasoning):在 STEM/數(shù)學(xué)等領(lǐng)域表現(xiàn)卓越——擅長(zhǎng)因果分析,能給出邏輯嚴(yán)謹(jǐn)、基于證據(jù)的回答;

升級(jí)的視覺識(shí)別能力(Upgraded Visual Recognition):通過更廣泛、更高品質(zhì)的預(yù)訓(xùn)練,真正做到“萬物皆可識(shí)”——涵蓋名人、動(dòng)漫角色、商品、地標(biāo)、動(dòng)植物等豐富類別;

擴(kuò)展的 OCR 能力(Expanded OCR):支持語言從 19 種提升至 32 種;在弱光、模糊、傾斜等復(fù)雜條件下依然穩(wěn)健;對(duì)罕見字、古文字及專業(yè)術(shù)語識(shí)別更準(zhǔn)確;同時(shí)顯著提升了對(duì)長(zhǎng)文檔結(jié)構(gòu)的解析能力;

媲美純文本大模型的文本理解能力(Text Understanding on par with pure LLMs):實(shí)現(xiàn)文本與視覺信息的無縫融合,達(dá)成無損、統(tǒng)一的理解體驗(yàn)。

4d150664-c5fd-11f0-8c8f-92fbcf53809c.jpg

模型架構(gòu)更新

Interleaved-MRoPE:通過魯棒的位置嵌入,在時(shí)間、寬度和高度維度上實(shí)現(xiàn)全頻段分配,從而增強(qiáng)長(zhǎng)時(shí)程視頻推理能力;

DeepStack:融合多層級(jí) ViT 特征,以捕捉細(xì)粒度細(xì)節(jié)并強(qiáng)化圖像與文本的對(duì)齊效果;

文本–時(shí)間戳對(duì)齊:超越 T-RoPE,實(shí)現(xiàn)精確的、基于時(shí)間戳的事件定位,從而提升視頻時(shí)序建模能力。

Benchmark

4d725706-c5fd-11f0-8c8f-92fbcf53809c.jpg

4ddf140e-c5fd-11f0-8c8f-92fbcf53809c.jpg

部署示例

為了更好的進(jìn)行開發(fā)者社區(qū)技術(shù)推廣,因此我們將借助國(guó)內(nèi)外非常成熟的樹莓派生態(tài)產(chǎn)品:樹莓派 5+AXCL 算力卡的形態(tài)進(jìn)行說明?;?AX8850 的社區(qū)開發(fā)板同樣也支持部署該實(shí)例,本文就不單獨(dú)說明了。

默認(rèn)本文的閱讀者能自行解決訪問 Huggingface 的辦法。

硬件推薦

樹莓派 5 + LLM8850-Card

4e3b1bd2-c5fd-11f0-8c8f-92fbcf53809c.png

樹莓派 5 + Maix4-HAT

4e9485be-c5fd-11f0-8c8f-92fbcf53809c.png

軟件步驟

默認(rèn)已按照硬件產(chǎn)品的指導(dǎo)文檔完成了硬件及必要的軟件驅(qū)動(dòng)安裝(例如 AXCL 驅(qū)動(dòng)包)。預(yù)編譯好的模型和示例已經(jīng)上傳到 huggingface(或者 hf-mirror)。

https://huggingface.co/AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4

如何將原始的模型轉(zhuǎn)換成 axmodel 并部署,請(qǐng)參考我們的 GitHub 倉庫。

https://github.com/AXERA-TECH/ax-llm/tree/ax-qwen3-vl

(友情提示:除非對(duì)該模型有 finetuning 需求的同學(xué),否則我建議一開始不要浪費(fèi)時(shí)間來學(xué)習(xí)該模型的轉(zhuǎn)換或者示例代碼的編譯,因?yàn)檫^程比較復(fù)雜┓( ′?` )┏)

安裝依賴

請(qǐng)務(wù)必完整閱讀 Readme

//代碼開始

cdAXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4
pipinstall -r requirements.txt

//代碼結(jié)束

運(yùn)行示例

這里我們選擇基于 Gradio WebGUI 的方案

運(yùn)行 tokenizer 服務(wù)

//代碼開始

pythonqwen3_tokenizer.py --port12345--host0.0.0.0

//代碼結(jié)束

運(yùn)行兼容 openai api 的大模型推理服務(wù)

//代碼開始

# for axcl, such as RaspberryPi5 + M.2 Card or x86 + M.2 Card
./run_axcl_api.sh
# for ax8850
./run_ax_api.sh

//代碼結(jié)束

運(yùn)行 gradio 腳本

//代碼開始

pythongradio_demo.py

//代碼結(jié)束

通過 web 瀏覽器訪問

視頻理解示例

4ef3c434-c5fd-11f0-8c8f-92fbcf53809c.png

總結(jié)

隨著 Qwen3-VL-2B 多模態(tài)大模型完成開源發(fā)布,多模態(tài)大模型在端側(cè)落地已成事實(shí)。在 NAS、NVR 的智能升級(jí)改造過程中,必將成為基礎(chǔ)模型。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    2126

    瀏覽量

    36758
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1245

    瀏覽量

    10045
  • 愛芯元智
    +關(guān)注

    關(guān)注

    1

    文章

    128

    瀏覽量

    5505
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3644

    瀏覽量

    5175

原文標(biāo)題:愛芯分享 | AX8850完成Qwen3-VL適配

文章出處:【微信號(hào):愛芯元智AXERA,微信公眾號(hào):愛芯元智AXERA】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    邊緣AI芯片AX8850完成CosyVoice2大模型適配

    今年下半年,隨著業(yè)務(wù)推廣需求增加,我們的大模型適配工作也有了新方向:不再只追求前沿模型的快速適配,而是更聚焦為銷售團(tuán)隊(duì)提供“能打”的實(shí)戰(zhàn)“彈藥”——也就是貼近客戶剛需的、可快速落地的大
    的頭像 發(fā)表于 12-11 10:35 ?5225次閱讀
    <b class='flag-5'>愛</b><b class='flag-5'>芯</b><b class='flag-5'>元</b>智<b class='flag-5'>邊緣</b><b class='flag-5'>AI</b><b class='flag-5'>芯片</b><b class='flag-5'>AX8850</b><b class='flag-5'>完成</b>CosyVoice2大<b class='flag-5'>模型</b><b class='flag-5'>適配</b>

    AI SoC # AX650N詳細(xì)介紹:原生支持Transformer架構(gòu)模型 適用部署DeepSeek R1

    AX650N是智(AXERA)推出的一款高性能邊緣側(cè)AI
    的頭像 發(fā)表于 03-04 11:15 ?8965次閱讀
    <b class='flag-5'>AI</b> SoC # <b class='flag-5'>愛</b><b class='flag-5'>芯</b><b class='flag-5'>元</b>智<b class='flag-5'>AX</b>650N詳細(xì)介紹:原生支持Transformer架構(gòu)<b class='flag-5'>模型</b> 適用部署DeepSeek R1

    NPU適配Qwen2.5-VL-3B視覺模態(tài)模型

    熟悉NPU的網(wǎng)友很清楚,從去年開始我們?cè)诙藗?cè)模態(tài)模型
    的頭像 發(fā)表于 04-21 10:56 ?3121次閱讀
    <b class='flag-5'>愛</b><b class='flag-5'>芯</b>通<b class='flag-5'>元</b>NPU<b class='flag-5'>適配</b><b class='flag-5'>Qwen2.5-VL-3</b>B視覺<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    AX8850:以邊緣算力,讓具身智能觸手可及

    ”的創(chuàng)新IC新品推介。受主辦方邀請(qǐng),智半導(dǎo)體股份有限公司聯(lián)合創(chuàng)始人、副總裁劉建偉帶來了《AX8850:以邊緣算力,讓具身智能觸手可及》
    的頭像 發(fā)表于 05-13 18:16 ?7770次閱讀
    <b class='flag-5'>愛</b><b class='flag-5'>芯</b><b class='flag-5'>元</b>智<b class='flag-5'>AX8850</b>:以<b class='flag-5'>邊緣</b>算力,讓具身智能觸手可及

    基于米爾瑞微RK3576開發(fā)板的Qwen2-VL-3B模型NPU模態(tài)部署評(píng)測(cè)

    關(guān)鍵詞:瑞微 RK3576、NPU(神經(jīng)網(wǎng)絡(luò)處理器)、端側(cè)小語言模型(SLM)、模態(tài) LLM、邊緣
    發(fā)表于 08-29 18:08

    阿里云開源視覺語言大模型Qwen-VL ,支持圖文雙模態(tài)輸入

    據(jù)介紹,Qwen-VL 是支持中英文等多種語言的視覺語言(Vision Language,VL模型。相較于此前的 VL 模型,
    的頭像 發(fā)表于 08-25 15:12 ?3090次閱讀
    阿里云開源視覺語言大<b class='flag-5'>模型</b><b class='flag-5'>Qwen-VL</b> ,支持圖文雙<b class='flag-5'>模態(tài)</b>輸入

    2024 WAIC智能芯片模態(tài)模型論壇丨AI處理器助力打造普惠智能

    近日,2024世界人工智能大會(huì)在上海召開,智于7月5日在大會(huì)上成功舉辦“領(lǐng)未來丨智能芯片
    的頭像 發(fā)表于 07-05 21:15 ?2273次閱讀
    2024 WAIC智能<b class='flag-5'>芯片</b>及<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>論壇丨<b class='flag-5'>愛</b><b class='flag-5'>芯</b>通<b class='flag-5'>元</b><b class='flag-5'>AI</b>處理器助力打造普惠智能

    2024 WAIC智能芯片模態(tài)模型論壇 AI處理器助力打造普惠智能

    國(guó) 上海 2024年07月08日——人工智能芯片研發(fā)及基礎(chǔ)算力平臺(tái)公司智宣布,7月5日在2024世界人工智能大會(huì)上成功舉辦“領(lǐng)未來丨
    的頭像 發(fā)表于 07-15 10:18 ?1245次閱讀
    2024 WAIC智能<b class='flag-5'>芯片</b>及<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>論壇 <b class='flag-5'>愛</b><b class='flag-5'>芯</b>通<b class='flag-5'>元</b><b class='flag-5'>AI</b>處理器助力打造普惠智能

    智發(fā)布邊緣智能芯片AX8850

    ”為主題,智聯(lián)合創(chuàng)始人、副總裁劉建偉受邀出席,不僅帶來最新算力產(chǎn)品AX8850,也對(duì)當(dāng)下邊緣計(jì)算需求對(duì)具身智能發(fā)展的推動(dòng)給出了深層思考
    的頭像 發(fā)表于 05-16 10:59 ?1721次閱讀

    壁仞科技完成Qwen3旗艦模型適配

    近日,在高效適配Qwen3系列模型推理后,壁仞科技宣布完成旗艦版Qwen3-235B-A22B模型
    的頭像 發(fā)表于 05-16 16:23 ?976次閱讀

    智攜手靈境聲學(xué)推出“聲”音頻解決方案

    Umix AI”全景聲行業(yè)大模型的專屬音頻芯片方案——“聲”。該方案搭載靈境聲學(xué)自研的“靈
    的頭像 發(fā)表于 08-01 10:43 ?4824次閱讀

    新品 | LLM-8850 Card, AX8850邊緣設(shè)備AI加速卡

    LLM?8850?Card是一款面向邊緣設(shè)備的M.2M-KEY2242?AI加速卡,把42?mm的袖珍體積與AxeraAX8850?SoC的24?TOPS?@?INT8算力結(jié)合起來,為
    的頭像 發(fā)表于 09-26 18:18 ?1086次閱讀
    新品 | LLM-<b class='flag-5'>8850</b> Card, <b class='flag-5'>AX8850</b><b class='flag-5'>邊緣</b>設(shè)備<b class='flag-5'>AI</b>加速卡

    Qwen3-VL 4B/8B全面適配,BM1684X成邊緣最佳部署平臺(tái)!

    算能BM1684X上完成Qwen3-VL4B/8B模型適配,推理速度13.7/7.2tokens/s,使其成為邊緣部署
    的頭像 發(fā)表于 10-16 18:00 ?2644次閱讀
    <b class='flag-5'>Qwen3-VL</b> 4B/8B全面<b class='flag-5'>適配</b>,BM1684X成<b class='flag-5'>邊緣</b>最佳部署平臺(tái)!

    智攜手合作伙伴M5Stack亮相YOLO Vision 2025

    近日,全球計(jì)算機(jī)視覺領(lǐng)域的權(quán)威盛會(huì)——YOLO Vision 2025,亞洲首秀在深圳舉行。智攜手合作伙伴M5Stack,以AX8850賦能M.2 2242標(biāo)準(zhǔn)接口算力卡為核心,
    的頭像 發(fā)表于 11-02 09:20 ?992次閱讀
    <b class='flag-5'>愛</b><b class='flag-5'>芯</b><b class='flag-5'>元</b>智攜手合作伙伴M5Stack亮相YOLO Vision 2025

    太初碁:40+AI模型全覆蓋,新版本即發(fā)即適配、上線即可用,實(shí)現(xiàn)國(guó)產(chǎn)“”速度

    日前,國(guó)產(chǎn)AI芯片企業(yè)太初(無錫)電子科技有限公司(又稱“太初碁”)完成智譜GLM-5.0、阿里千問Qwen3.5-397B-A17B等大
    的頭像 發(fā)表于 02-25 09:21 ?950次閱讀