亚洲香蕉AV强奸久久久,久久久青青草老司机

使用視覺和語言指令訓(xùn)練一個多模態(tài)聊天機(jī)器人！

基于開源多模態(tài)模型OpenFlamingo，作者使用公開數(shù)據(jù)集創(chuàng)建了各種視覺指令數(shù)據(jù)，包括視覺問答、圖像字幕、視覺推理、文本 OCR 和視覺對話。此外，還使用僅包含語言指令數(shù)據(jù)的語言模型組件進(jìn)行了訓(xùn)練。

視覺和語言指令的聯(lián)合訓(xùn)練有效提高了模型的性能！

具體細(xì)節(jié)就跟隨小編繼續(xù)往下看看吧~

總結(jié)

本文提出一種多模態(tài)GPT（視覺、語言），與人類進(jìn)行多輪對話，同時(shí)設(shè)計(jì)了統(tǒng)一化多模態(tài)的指令數(shù)據(jù)模板

能夠遵循的指令類型：生成詳細(xì)的標(biāo)題、計(jì)算特定的對象、處理一般的詢問

基準(zhǔn)模型：OpenFlamingo（用LoRA方式訓(xùn)練）

聯(lián)合訓(xùn)練的數(shù)據(jù)：1.純文本數(shù)據(jù) 2.圖像-文本數(shù)據(jù)

其他的一些多模態(tài)GPT模型：GPT-4[1]、Mini-GPT[2]、LLaVA[3]

提到的其他LLM：Vicuna[4]、LLaMA[5]

提到的其他數(shù)據(jù)集：VQA v2.0、Ok-vqa、GQA、CLEVR、NLVR

1.引言

人類交流/理解世界的方式：視覺、語言等

AI智能助手的作用：根據(jù)多種模態(tài)的指令，理解人類意圖，完成各種任務(wù)

之前的方法：將視覺表示與LLM的輸入空間對齊，隨后利用LLM中的原始自我注意來處理視覺信息

本文的方法：微調(diào)Flamingo（開源）

視覺編碼器

門限交叉注意力機(jī)制

預(yù)訓(xùn)練使用“圖文對”數(shù)據(jù)

統(tǒng)一多模態(tài)的指令模板

語言數(shù)據(jù)、語言-視覺數(shù)據(jù)，進(jìn)行聯(lián)合訓(xùn)練

本文目標(biāo)：在多模態(tài)對話任務(wù)上，接近人的性能表現(xiàn)

2.統(tǒng)一指令模板

主要是提出了一個統(tǒng)一的訓(xùn)練數(shù)據(jù)模板，把以下兩種數(shù)據(jù)整合起來，提高模型理解能力

2.1 僅語言的指令模板

僅包含語言的指令提示模板

{instruction},{input}為輸入文本，{response}，用于計(jì)算損失

使用數(shù)據(jù)：

Dolly15k數(shù)據(jù)集

AlpacaGPT4數(shù)據(jù)集

2.2 視覺-語言的指令模板

包含視覺-語言的指令提示模板

其中，{question}是原始文本，是表示圖像存在的token，{response}、用于計(jì)算損失

使用數(shù)據(jù)集：

LLaVA

Mini-GPT4

A-OKVQA

COCOcaption（不直接作為訓(xùn)練集，而是用GPT-4轉(zhuǎn)化，再加入訓(xùn)練集）

OCRVQA

上述合成指令使得訓(xùn)練集較為豐富，則模型能夠更健壯

圖像描述的指令，舉例如下：

本文方法

模型結(jié)構(gòu)圖

基線模型：open-flamingo模型

組成：

視覺編碼器：CLIP

感知重采樣

語言解碼器：LLaMA （自注意力、交叉注意力、FFW中加入LoRA，便于微調(diào)）

訓(xùn)練數(shù)據(jù)：用2.1和2.2兩種數(shù)據(jù)，進(jìn)行聯(lián)合訓(xùn)練

訓(xùn)練過程：通過預(yù)測文本的下一個標(biāo)記進(jìn)行訓(xùn)練，只有{responce}和標(biāo)記參與損失計(jì)算

4.實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置：

實(shí)驗(yàn)參數(shù)	取值
GPU	A100*8
epoch	1
batch_size	1
LoRA參數(shù)更新	每16輪
learningrate	1e-5

Demos展示：

給出一個烤千層面的食譜，并告訴用戶在哪里吃到它

能夠識別埃隆·馬斯克的形象，并回答關(guān)于埃隆·馬斯克的問題

我知道照片上有4個女人，也知道她們在做什么

認(rèn)得出電影，也知道電影是由哪個電影公司制作的

能識別圖像中的人物，并認(rèn)識該書的作者

可以回答關(guān)于用戶旅行的一般問題

可以為圖像生成詳細(xì)的描述，并有能力推理得到在圖像中的季節(jié)

在線網(wǎng)站

感興趣可以去官方網(wǎng)站[6]去嘗試下，真的很棒！點(diǎn)擊閱讀原文也可直達(dá)！

缺點(diǎn)是好像只支持英文~

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴