洞察AI變革,見證智能未來
2025中國技術(shù)力量年度榜單
AI開源明星項目TOP10
LLaVA-OneVision-1.5多模態(tài)大模型
靈感實驗室聯(lián)合LLaVA社區(qū)發(fā)布的多模態(tài)大模型LLaVA-OneVision-1.5,實現(xiàn)了訓練數(shù)據(jù)、代碼和模型權(quán)重的全鏈路開源,在多項公開多模態(tài)基準上表現(xiàn)優(yōu)于同等規(guī)模的Qwen2.5-VL。
在創(chuàng)新性上,技術(shù)團隊對“視覺編碼器+投影層+大語言模型”的LLaVA架構(gòu)進行模塊升級:視覺編碼器從CLIP替換為格靈深瞳自研Glint-ViT v1.5(RICE),大語言模型從Qwen2替換為Qwen3。
在訓練數(shù)據(jù)方面,團隊推出完整開放的85M預訓練數(shù)據(jù)集(LLaVA-OV-1.5-Mid-Training-85M)與精篩22M指令數(shù)據(jù)集(LLaVA-OV-1.5-Instruct-22M),并且做到“概念均衡”——構(gòu)建一個50萬的詞表,利用圖像特征與詞表特征碰撞,并控制每個詞碰到的圖片數(shù),制作出一個不同于隨機采樣的概念均衡訓練集。
除了數(shù)據(jù)集以外,LLaVA-OneVision-1.5 技術(shù)報告、代碼、模型也已開源:
LLaVA-OneVision-1.5
技術(shù)報告:
https://arxiv.org/abs/2509.23661
代碼:
https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
模型:
https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct
Demo:
https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5
數(shù)據(jù)集:
Pretrain Data:https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M
Instruct Data:https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-1.5-Insturct-Data
-
開源
+關(guān)注
關(guān)注
3文章
4199瀏覽量
46102 -
格靈深瞳
+關(guān)注
關(guān)注
1文章
90瀏覽量
5952 -
大模型
+關(guān)注
關(guān)注
2文章
3644瀏覽量
5173
原文標題:LLaVA-OneVision-1.5多模態(tài)大模型入選InfoQ 2025中國技術(shù)力量年度榜單
文章出處:【微信號:shentongzhineng,微信公眾號:格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
格靈深瞳多模態(tài)大模型榮登InfoQ 2025中國技術(shù)力量年度榜單
評論