TextBind：在開(kāi)放世界中多輪交織的多模態(tài)指令跟隨

摘要

擁有指令跟隨能力的大型語(yǔ)言模型已經(jīng)徹底改變了人工智能領(lǐng)域。這些模型通過(guò)其自然語(yǔ)言界面展現(xiàn)出卓越的通用性，能夠應(yīng)對(duì)各種現(xiàn)實(shí)世界任務(wù)。

然而，它們的性能在很大程度上依賴(lài)于高質(zhì)量的示例數(shù)據(jù)，通常難以獲得。當(dāng)涉及到多模態(tài)指令跟隨時(shí)，這一挑戰(zhàn)進(jìn)一步加劇。

我們介紹了TextBind，這是一個(gè)幾乎無(wú)需注釋的框架，用于賦予更大型的語(yǔ)言模型多輪交織的多模態(tài)指令跟隨能力。

我們的方法僅需要圖像描述對(duì)，并從語(yǔ)言模型生成多輪多模態(tài)指令-響應(yīng)對(duì)話(huà)。我們發(fā)布了我們的數(shù)據(jù)集、模型和演示，以促進(jìn)未來(lái)在多模態(tài)指令跟隨領(lǐng)域的研究。

數(shù)據(jù)

TextBind提供了處理和生成任意交織的圖像和文本內(nèi)容的示例，使語(yǔ)言模型能夠在開(kāi)放世界場(chǎng)景中與用戶(hù)進(jìn)行自然互動(dòng)。

模型

我們的模型包括一個(gè)圖像編碼器、一個(gè)圖像解碼器、一個(gè)語(yǔ)言模型，以及連接它們的橋接網(wǎng)絡(luò)，支持多輪交織的多模態(tài)指令跟隨。它可以生成并處理任意交織的圖像和文本內(nèi)容。

demo

語(yǔ)言模型能夠執(zhí)行各種任務(wù)，包括根據(jù)一組圖像創(chuàng)作引人入勝的故事，比較多個(gè)圖像中的共同和不同之處，用生動(dòng)的圖像解釋概念，生成帶有插圖的長(zhǎng)篇連貫故事等等。最有趣的是，我們模型的核心創(chuàng)新在于其能夠在廣泛的真實(shí)場(chǎng)景中與用戶(hù)自然互動(dòng)。歡迎訪問(wèn)我們的demo[1]。

例子

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3956

瀏覽量
142731
圖像

圖像

+關(guān)注

關(guān)注
2

文章
1096

瀏覽量
42340
語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
571

瀏覽量
11322

原文標(biāo)題：TextBind：在開(kāi)放世界中多輪交織的多模態(tài)指令跟隨

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

深度學(xué)習(xí)自然語(yǔ)言處理
專(zhuān)欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁(yè)

Hot 一個(gè)給NLP領(lǐng)域帶來(lái)革新的預(yù)訓(xùn)練語(yǔ)言大模型Bert
Hot 推薦一些翻譯英文文獻(xiàn)比較準(zhǔn)確的軟件

New 高效大模型的推理綜述
New 什么是RAG，RAG學(xué)習(xí)和實(shí)踐經(jīng)驗(yàn)

精選推薦
更多

文章

資料

帖子

恒溫晶振技術(shù)參數(shù)指標(biāo)怎么看？

賽思電子
16小時(shí)前

884 閱讀

AI需求爆發(fā)，高端MLCC轉(zhuǎn)賣(mài)方市場(chǎng)，國(guó)產(chǎn)廠商如何接招抓住風(fēng)口

海闊天空的專(zhuān)欄
16小時(shí)前

1225 閱讀

納芯微智能隔離柵極驅(qū)動(dòng)NSI67x0助力電驅(qū)小型化與高可靠設(shè)計(jì)

米芯微電子
16小時(shí)前

902 閱讀

企業(yè)級(jí)AI Agent王炸! 英偉達(dá)GTC將開(kāi)源 NemoClaw

章鷹觀察
18小時(shí)前

1549 閱讀

RK3576+ES8388音頻開(kāi)發(fā)：tinymix控件全解析

jf_44130326
22小時(shí)前

1153 閱讀

用數(shù)字萬(wàn)用表進(jìn)行更好的交流測(cè)量

愛(ài)與友人
714

10積分

134下載

擴(kuò)展頻譜及多址技術(shù)課件

596665598
14.7 MB

免費(fèi)

0下載

基于LTM8067_Typical Application直流到直流單輸出電源的參考設(shè)計(jì)

胡秋陽(yáng)
0.87 MB

2積分

11下載

Jakt內(nèi)存安全的系統(tǒng)編程語(yǔ)言

悶~~
0.40 MB

2積分

1下載

Gearsystem跨平臺(tái)的世嘉模擬器

賈桂林
15.93 MB

2積分

2下載

在昉·星光開(kāi)發(fā)板上通舵機(jī)控制板實(shí)現(xiàn)機(jī)器人舵機(jī)控制

感謝相遇
2天前

452 閱讀

使用 VisionFive 2 上的氣壓傳感器測(cè)量高度

大連云港
2天前

475 閱讀

【瑞薩AI挑戰(zhàn)賽】階段一：基于RA8P1的人臉識(shí)別模型轉(zhuǎn)換和部署

Zerolinr
2天前

916 閱讀

【飛凌嵌入式RV1126B開(kāi)發(fā)板】+基本功能測(cè)試篇（1）

jennyzhaojie
6天前

2255 閱讀

【飛凌嵌入式RV1126B開(kāi)發(fā)板】+初識(shí)篇

jennyzhaojie
7天前

2293 閱讀

推薦專(zhuān)欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

搜索歷史

TextBind：在開(kāi)放世界中多輪交織的多模態(tài)指令跟隨

摘要

數(shù)據(jù)

模型

demo

例子

評(píng)論