中文人妻aⅴ一区二区三区,亚洲图片精品视频在线观看

0 TL;DR

已適配 Qwen3-VL-2B/4B/8B 到 AX8850 開發(fā)板和 M.2 算力卡，可在本地完成圖片內(nèi)容理解和視頻概要生成，可配合“樹莓派5”使用；

預(yù)編譯示例已開源（GitHub & HuggingFace），附帶簡(jiǎn)易 Gradio 演示界面，方便示例快速測(cè)試；

嘗試提供兼容 OpenAI API 的服務(wù)，降低已有云端大模型業(yè)務(wù)快速遷移到本地；

最快響應(yīng)延時(shí)＜0.5 秒；

M.2 板卡功耗＜8 w，支持被動(dòng)散熱，工業(yè)應(yīng)用場(chǎng)景更可靠穩(wěn)定。

模型	圖片編碼	TTFT	生成速度
Qwen3-VL-2B	130 ms	320 ms	14.1tokens/s
Qwen3-VL-4B	130 ms	670 ms	7.2tokens/s

模型	視頻編碼(8幀)	TTFT	生成速度
Qwen3-VL-2B	460 ms	840 ms	14.1tokens/s
Qwen3-VL-4B	460 ms	1880 ms	7.2tokens/s

背景

今年下半年，隨著業(yè)務(wù)推廣需求增加，我們的大模型適配工作也有了新方向：不再只追求前沿模型的快速適配，而是更聚焦為銷售團(tuán)隊(duì)提供“能打”的實(shí)戰(zhàn)“彈藥”——也就是貼近客戶剛需的、可快速落地的大模型解決方案。

因此，接下來的技術(shù)分享會(huì)更聚焦在基于我司邊緣 AI 芯片（如AX8850）的實(shí)際應(yīng)用落地，幫助客戶實(shí)現(xiàn)從 Demo 到量產(chǎn)的跨越。

其中一個(gè)重點(diǎn)場(chǎng)景就是：視頻事件分析。

目前很多視頻分析產(chǎn)品采用類似 CLIP 模型，已經(jīng)能做到快速的單幀事件實(shí)時(shí)分析，但是對(duì)于時(shí)序性較高的場(chǎng)景支持并不太好。而通過多模態(tài)大語言模型，正好可以關(guān)聯(lián)相鄰幀的在時(shí)間軸上的語義特征信息，能夠進(jìn)一步對(duì)某些持續(xù)性的事件進(jìn)行理解和輸出。

最近 Qwen3-VL 開源了稠密小參數(shù)量的模型 Qwen3-VL-2B、Qwen3-VL-4B，從公開的 Benchmark 上看相比上一個(gè)版本 Qwen2.5-VL 系列有明顯的“跑分”優(yōu)勢(shì)。我們已完成相關(guān)模型的適配，希望對(duì)關(guān)注端側(cè)多模態(tài)大模型部署實(shí)現(xiàn)離線視頻分析的開發(fā)者提供一種新的解題思路。

Qwen3-VL

Qwen3-VL 是阿里巴巴通義千問團(tuán)隊(duì)于 2025 年 9 月 24 日發(fā)布的最新一代多模態(tài)視覺語言模型（Vision-Language Model, VLM），是 Qwen 系列中目前性能最強(qiáng)、能力最全面的開源視覺語言模型。其整體能力接近甚至在多項(xiàng)指標(biāo)上超越 Gemini 2.5 Pro 和 GPT-5，并在 32 項(xiàng)核心能力測(cè)評(píng)中刷新開源模型紀(jì)錄。

這一代模型實(shí)現(xiàn)了全方位的全面升級(jí)：更強(qiáng)的文本理解與生成能力、更深入的視覺感知與推理能力、更長(zhǎng)的上下文長(zhǎng)度、更出色的時(shí)空與視頻動(dòng)態(tài)理解能力，以及更強(qiáng)大的智能體交互能力。

Huggingface 鏈接：

https://huggingface.co/Qwen/Qwen3-VL-2B-Instruct

Paper 鏈接：

https://huggingface.co/papers/2505.09388

在線 Demo：

https://huggingface.co/spaces/akhaliq/Qwen3-VL-2B-Instruct

主要特性：

視覺智能體（Visual Agent）：可操作 PC/手機(jī)圖形用戶界面（GUI）——識(shí)別界面元素、理解功能、調(diào)用工具并完成任務(wù)；

視覺編程增強(qiáng)（Visual Coding Boost）：可直接根據(jù)圖像或視頻生成 Draw.io 流程圖、HTML/CSS/JS 代碼；

高級(jí)空間感知（Advanced Spatial Perception）：能判斷物體位置、視角與遮擋關(guān)系；提供更強(qiáng)的 2D 定位能力，并支持 3D 定位，為復(fù)雜空間推理和具身智能（embodied AI）奠定基礎(chǔ)；

長(zhǎng)上下文與視頻理解（Long Context & Video Understanding）：原生支持 256K 上下文長(zhǎng)度，可擴(kuò)展至 1M；能夠完整記憶并實(shí)現(xiàn)秒級(jí)索引，輕松處理整本書籍或數(shù)小時(shí)長(zhǎng)的視頻內(nèi)容；

增強(qiáng)的多模態(tài)推理（Enhanced Multimodal Reasoning）：在 STEM/數(shù)學(xué)等領(lǐng)域表現(xiàn)卓越——擅長(zhǎng)因果分析，能給出邏輯嚴(yán)謹(jǐn)、基于證據(jù)的回答；

升級(jí)的視覺識(shí)別能力（Upgraded Visual Recognition）：通過更廣泛、更高品質(zhì)的預(yù)訓(xùn)練，真正做到“萬物皆可識(shí)”——涵蓋名人、動(dòng)漫角色、商品、地標(biāo)、動(dòng)植物等豐富類別；

擴(kuò)展的 OCR 能力（Expanded OCR）：支持語言從 19 種提升至 32 種；在弱光、模糊、傾斜等復(fù)雜條件下依然穩(wěn)健；對(duì)罕見字、古文字及專業(yè)術(shù)語識(shí)別更準(zhǔn)確；同時(shí)顯著提升了對(duì)長(zhǎng)文檔結(jié)構(gòu)的解析能力；

媲美純文本大模型的文本理解能力（Text Understanding on par with pure LLMs）：實(shí)現(xiàn)文本與視覺信息的無縫融合，達(dá)成無損、統(tǒng)一的理解體驗(yàn)。

模型架構(gòu)更新

Interleaved-MRoPE：通過魯棒的位置嵌入，在時(shí)間、寬度和高度維度上實(shí)現(xiàn)全頻段分配，從而增強(qiáng)長(zhǎng)時(shí)程視頻推理能力；

DeepStack：融合多層級(jí) ViT 特征，以捕捉細(xì)粒度細(xì)節(jié)并強(qiáng)化圖像與文本的對(duì)齊效果；

文本–時(shí)間戳對(duì)齊：超越 T-RoPE，實(shí)現(xiàn)精確的、基于時(shí)間戳的事件定位，從而提升視頻時(shí)序建模能力。

Benchmark

部署示例

為了更好的進(jìn)行開發(fā)者社區(qū)技術(shù)推廣，因此我們將借助國(guó)內(nèi)外非常成熟的樹莓派生態(tài)產(chǎn)品：樹莓派 5+AXCL 算力卡的形態(tài)進(jìn)行說明?；?AX8850 的社區(qū)開發(fā)板同樣也支持部署該實(shí)例，本文就不單獨(dú)說明了。

默認(rèn)本文的閱讀者能自行解決訪問 Huggingface 的辦法。

硬件推薦

樹莓派 5 + LLM8850-Card

樹莓派 5 + Maix4-HAT

軟件步驟

默認(rèn)已按照硬件產(chǎn)品的指導(dǎo)文檔完成了硬件及必要的軟件驅(qū)動(dòng)安裝（例如 AXCL 驅(qū)動(dòng)包）。預(yù)編譯好的模型和示例已經(jīng)上傳到 huggingface（或者 hf-mirror）。

https://huggingface.co/AXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4

如何將原始的模型轉(zhuǎn)換成 axmodel 并部署，請(qǐng)參考我們的 GitHub 倉庫。

https://github.com/AXERA-TECH/ax-llm/tree/ax-qwen3-vl

（友情提示：除非對(duì)該模型有 finetuning 需求的同學(xué)，否則我建議一開始不要浪費(fèi)時(shí)間來學(xué)習(xí)該模型的轉(zhuǎn)換或者示例代碼的編譯，因?yàn)檫^程比較復(fù)雜┓( ′?` )┏）

安裝依賴

請(qǐng)務(wù)必完整閱讀 Readme

//代碼開始

cdAXERA-TECH/Qwen3-VL-2B-Instruct-GPTQ-Int4
pipinstall -r requirements.txt

//代碼結(jié)束

運(yùn)行示例

這里我們選擇基于 Gradio WebGUI 的方案

運(yùn)行 tokenizer 服務(wù)

//代碼開始

pythonqwen3_tokenizer.py --port12345--host0.0.0.0

//代碼結(jié)束

運(yùn)行兼容 openai api 的大模型推理服務(wù)

//代碼開始

# for axcl, such as RaspberryPi5 + M.2 Card or x86 + M.2 Card
./run_axcl_api.sh
# for ax8850
./run_ax_api.sh

//代碼結(jié)束

運(yùn)行 gradio 腳本

//代碼開始

pythongradio_demo.py

//代碼結(jié)束

通過 web 瀏覽器訪問

視頻理解示例

總結(jié)

隨著 Qwen3-VL-2B 多模態(tài)大模型完成開源發(fā)布，多模態(tài)大模型在端側(cè)落地已成事實(shí)。在 NAS、NVR 的智能升級(jí)改造過程中，必將成為基礎(chǔ)模型。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴