使用視覺和語言指令訓(xùn)練一個多模態(tài)聊天機(jī)器人!
基于開源多模態(tài)模型OpenFlamingo,作者使用公開數(shù)據(jù)集創(chuàng)建了各種視覺指令數(shù)據(jù),包括視覺問答、圖像字幕、視覺推理、文本 OCR 和視覺對話。此外,還使用僅包含語言指令數(shù)據(jù)的語言模型組件進(jìn)行了訓(xùn)練。
視覺和語言指令的聯(lián)合訓(xùn)練有效提高了模型的性能!
具體細(xì)節(jié)就跟隨小編繼續(xù)往下看看吧~
總結(jié)
本文提出一種多模態(tài)GPT(視覺、語言),與人類進(jìn)行多輪對話,同時(shí)設(shè)計(jì)了統(tǒng)一化多模態(tài)的指令數(shù)據(jù)模板
能夠遵循的指令類型:生成詳細(xì)的標(biāo)題、計(jì)算特定的對象、處理一般的詢問
基準(zhǔn)模型:OpenFlamingo(用LoRA方式訓(xùn)練)
聯(lián)合訓(xùn)練的數(shù)據(jù):1.純文本數(shù)據(jù) 2.圖像-文本數(shù)據(jù)
其他的一些多模態(tài)GPT模型:GPT-4[1]、Mini-GPT[2]、LLaVA[3]
提到的其他LLM:Vicuna[4]、LLaMA[5]
提到的其他數(shù)據(jù)集:VQA v2.0、Ok-vqa、GQA、CLEVR、NLVR
1.引言
人類交流/理解世界的方式:視覺、語言等
AI智能助手的作用:根據(jù)多種模態(tài)的指令,理解人類意圖,完成各種任務(wù)
之前的方法:將視覺表示與LLM的輸入空間對齊,隨后利用LLM中的原始自我注意來處理視覺信息
本文的方法:微調(diào)Flamingo(開源)
視覺編碼器
門限交叉注意力機(jī)制
預(yù)訓(xùn)練使用“圖文對”數(shù)據(jù)
統(tǒng)一多模態(tài)的指令模板
語言數(shù)據(jù)、語言-視覺數(shù)據(jù),進(jìn)行聯(lián)合訓(xùn)練
本文目標(biāo):在多模態(tài)對話任務(wù)上,接近人的性能表現(xiàn)
2.統(tǒng)一指令模板
主要是提出了一個統(tǒng)一的訓(xùn)練數(shù)據(jù)模板,把以下兩種數(shù)據(jù)整合起來,提高模型理解能力
2.1 僅語言的指令模板

僅包含語言的指令提示模板
{instruction},{input}為輸入文本,{response},
使用數(shù)據(jù):
Dolly15k數(shù)據(jù)集
AlpacaGPT4數(shù)據(jù)集
2.2 視覺-語言的指令模板

包含視覺-語言的指令提示模板
其中,{question}是原始文本,
使用數(shù)據(jù)集:
LLaVA
Mini-GPT4
A-OKVQA
COCOcaption(不直接作為訓(xùn)練集,而是用GPT-4轉(zhuǎn)化,再加入訓(xùn)練集)
OCRVQA
上述合成指令使得訓(xùn)練集較為豐富,則模型能夠更健壯
圖像描述的指令,舉例如下:

本文方法

模型結(jié)構(gòu)圖
基線模型:open-flamingo模型
組成:
視覺編碼器:CLIP
感知重采樣
語言解碼器:LLaMA (自注意力、交叉注意力、FFW中加入LoRA,便于微調(diào))
訓(xùn)練數(shù)據(jù):用2.1和2.2兩種數(shù)據(jù),進(jìn)行聯(lián)合訓(xùn)練
訓(xùn)練過程:通過預(yù)測文本的下一個標(biāo)記進(jìn)行訓(xùn)練,只有{responce}和標(biāo)記參與損失計(jì)算
4.實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置:
| 實(shí)驗(yàn)參數(shù) | 取值 |
|---|---|
| GPU | A100*8 |
| epoch | 1 |
| batch_size | 1 |
| LoRA參數(shù)更新 | 每16輪 |
| learningrate | 1e-5 |
Demos展示:
給出一個烤千層面的食譜,并告訴用戶在哪里吃到它

能夠識別埃隆·馬斯克的形象,并回答關(guān)于埃隆·馬斯克的問題

我知道照片上有4個女人,也知道她們在做什么

認(rèn)得出電影,也知道電影是由哪個電影公司制作的

能識別圖像中的人物,并認(rèn)識該書的作者

可以回答關(guān)于用戶旅行的一般問題

可以為圖像生成詳細(xì)的描述,并有能力推理得到在圖像中的季節(jié)

在線網(wǎng)站
感興趣可以去官方網(wǎng)站[6]去嘗試下,真的很棒!點(diǎn)擊閱讀原文也可直達(dá)!

缺點(diǎn)是好像只支持英文~
審核編輯 :李倩
-
開源
+關(guān)注
關(guān)注
3文章
4207瀏覽量
46151 -
語言模型
+關(guān)注
關(guān)注
0文章
571瀏覽量
11319 -
聊天機(jī)器人
+關(guān)注
關(guān)注
0文章
348瀏覽量
13092
原文標(biāo)題:多模態(tài)GPT:國內(nèi)發(fā)布一款可以在線使用的多模態(tài)聊天機(jī)器人!快來把玩~
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
商湯科技正式開源多模態(tài)自主推理模型SenseNova-MARS
全球首個最大規(guī)??绫倔w視觸覺多模態(tài)數(shù)據(jù)集白虎-VTouch發(fā)布
多模態(tài)感知大模型驅(qū)動的密閉空間自主勘探系統(tǒng)的應(yīng)用與未來發(fā)展
易百納攜多模態(tài)AI桌面機(jī)器人——Kubee Robot亮相2025火山引擎冬季FORCE大會
商湯科技正式發(fā)布并開源全新多模態(tài)模型架構(gòu)NEO
亞馬遜云科技上線Amazon Nova多模態(tài)嵌入模型
商湯日日新V6.5多模態(tài)大模型登頂全球權(quán)威榜單
淺析多模態(tài)標(biāo)注對大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例
商湯科技多模態(tài)通用智能戰(zhàn)略思考
商湯日日新SenseNova融合模態(tài)大模型 國內(nèi)首家獲得最高評級的大模型
為旌科技VS859:國產(chǎn)具身智能“感算控”一體SoC,賦能邊緣多模態(tài)智能場景
江智機(jī)器人公司《多模態(tài)下人機(jī)協(xié)同交互系統(tǒng)與方法》發(fā)明專利已具有高價(jià)值發(fā)明專利屬性
愛芯通元NPU適配Qwen2.5-VL-3B視覺多模態(tài)大模型
多模態(tài)GPT:國內(nèi)發(fā)布一款可以在線使用的多模態(tài)聊天機(jī)器人!
評論