91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TextBind:在開(kāi)放世界中多輪交織的多模態(tài)指令跟隨

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-09-19 16:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要

擁有指令跟隨能力的大型語(yǔ)言模型已經(jīng)徹底改變了人工智能領(lǐng)域。這些模型通過(guò)其自然語(yǔ)言界面展現(xiàn)出卓越的通用性,能夠應(yīng)對(duì)各種現(xiàn)實(shí)世界任務(wù)。

然而,它們的性能在很大程度上依賴(lài)于高質(zhì)量的示例數(shù)據(jù),通常難以獲得。當(dāng)涉及到多模態(tài)指令跟隨時(shí),這一挑戰(zhàn)進(jìn)一步加劇。

我們介紹了TextBind,這是一個(gè)幾乎無(wú)需注釋的框架,用于賦予更大型的語(yǔ)言模型多輪交織的多模態(tài)指令跟隨能力。

我們的方法僅需要圖像描述對(duì),并從語(yǔ)言模型生成多輪多模態(tài)指令-響應(yīng)對(duì)話(huà)。我們發(fā)布了我們的數(shù)據(jù)集、模型和演示,以促進(jìn)未來(lái)在多模態(tài)指令跟隨領(lǐng)域的研究。

數(shù)據(jù)

TextBind提供了處理和生成任意交織的圖像和文本內(nèi)容的示例,使語(yǔ)言模型能夠在開(kāi)放世界場(chǎng)景中與用戶(hù)進(jìn)行自然互動(dòng)。

388a482c-56c3-11ee-939d-92fbcf53809c.png

38abc77c-56c3-11ee-939d-92fbcf53809c.png

模型

我們的模型包括一個(gè)圖像編碼器、一個(gè)圖像解碼器、一個(gè)語(yǔ)言模型,以及連接它們的橋接網(wǎng)絡(luò),支持多輪交織的多模態(tài)指令跟隨。它可以生成并處理任意交織的圖像和文本內(nèi)容。

38bbbf56-56c3-11ee-939d-92fbcf53809c.png

demo

語(yǔ)言模型能夠執(zhí)行各種任務(wù),包括根據(jù)一組圖像創(chuàng)作引人入勝的故事,比較多個(gè)圖像中的共同和不同之處,用生動(dòng)的圖像解釋概念,生成帶有插圖的長(zhǎng)篇連貫故事等等。最有趣的是,我們模型的核心創(chuàng)新在于其能夠在廣泛的真實(shí)場(chǎng)景中與用戶(hù)自然互動(dòng)。歡迎訪問(wèn)我們的demo[1]。

38d54c96-56c3-11ee-939d-92fbcf53809c.png

例子

39000292-56c3-11ee-939d-92fbcf53809c.png

391420a6-56c3-11ee-939d-92fbcf53809c.png

392f0fd8-56c3-11ee-939d-92fbcf53809c.png


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3956

    瀏覽量

    142731
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42340
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    571

    瀏覽量

    11322

原文標(biāo)題:TextBind:在開(kāi)放世界中多輪交織的多模態(tài)指令跟隨

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    米爾RK3576部署端側(cè)模態(tài)輪對(duì)話(huà),6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    話(huà):基于歷史回答圖中女孩頭發(fā)和衣服分別是什么顏色 上一次我們?cè)敿?xì)講解RK3576上部署模態(tài)模型的案例,這次將繼續(xù)講解輪對(duì)話(huà)的部署流程。整體流程基于 rknn-llm 里的
    發(fā)表于 09-05 17:25

    體驗(yàn)MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網(wǎng)
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    交織址接入系統(tǒng)信道容量證明

    交織址接入系統(tǒng)信道容量證明:交織址接入系統(tǒng)(IDMA)是使用低速率碼并利用交織器區(qū)分用戶(hù)的
    發(fā)表于 10-20 17:48 ?5次下載

    lABCIWQmultyWindows模態(tài)窗口2010

    lABCIWQmultyWindows模態(tài)窗口2010。
    發(fā)表于 05-17 17:47 ?0次下載

    文化場(chǎng)景下的模態(tài)情感識(shí)別

    自動(dòng)情感識(shí)別是一個(gè)非常具有挑戰(zhàn)性的課題,并且有著廣泛的應(yīng)用價(jià)值.本文探討了文化場(chǎng)景下的模態(tài)情感識(shí)別問(wèn)題.我們從語(yǔ)音聲學(xué)和面部表情等模態(tài)
    發(fā)表于 12-18 14:47 ?0次下載

    Transformer模型的模態(tài)學(xué)習(xí)應(yīng)用

    隨著Transformer視覺(jué)的崛起,Transformer模態(tài)應(yīng)用也是合情合理的事情
    的頭像 發(fā)表于 03-25 09:29 ?1.2w次閱讀
    Transformer模型的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>學(xué)習(xí)應(yīng)用

    模態(tài)MR和特征融合的GBM自動(dòng)分割算法

    模態(tài)MR和特征融合的GBM自動(dòng)分割算法
    發(fā)表于 06-27 11:45 ?32次下載

    一個(gè)真實(shí)閑聊模態(tài)數(shù)據(jù)集TikTalk

    隨著大量預(yù)訓(xùn)練語(yǔ)言模型文本對(duì)話(huà)任務(wù)的出色表現(xiàn),以及模態(tài)的發(fā)展,在對(duì)話(huà)引入
    的頭像 發(fā)表于 02-09 09:31 ?3465次閱讀

    中文模態(tài)對(duì)話(huà)數(shù)據(jù)集

    隨著大量預(yù)訓(xùn)練語(yǔ)言模型文本對(duì)話(huà)任務(wù)的出色表現(xiàn),以及模態(tài)的發(fā)展,在對(duì)話(huà)引入
    的頭像 發(fā)表于 02-22 11:03 ?2307次閱讀
    中文<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>對(duì)話(huà)數(shù)據(jù)集

    模態(tài)上下文指令調(diào)優(yōu)數(shù)據(jù)集MIMIC-IT

    然而,一個(gè)理想的 AI 對(duì)話(huà)助手應(yīng)該能夠解決涉及多種模態(tài)的任務(wù)。這需要獲得一個(gè)多樣化和高質(zhì)量的模式指令跟隨數(shù)據(jù)集。比如,LLaVAInstruct-150K 數(shù)據(jù)集(也被稱(chēng)為 LLa
    的頭像 發(fā)表于 06-12 16:36 ?1616次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>上下文<b class='flag-5'>指令</b>調(diào)優(yōu)數(shù)據(jù)集MIMIC-IT

    VisCPM:邁向多語(yǔ)言模態(tài)大模型時(shí)代

    可以大致分為兩類(lèi): 1. 圖生文(image-to-text generation)方面,以 GPT-4 為代表的模態(tài)大模型,可以面向圖像進(jìn)行開(kāi)放域?qū)υ?huà)和深度推理; 2.
    的頭像 發(fā)表于 07-10 10:05 ?1348次閱讀
    VisCPM:邁向多語(yǔ)言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型時(shí)代

    更強(qiáng)更通用:智源「悟道3.0」Emu模態(tài)大模型開(kāi)源,模態(tài)序列「補(bǔ)全一切」

    當(dāng)前學(xué)界和工業(yè)界都對(duì)模態(tài)大模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺(jué)語(yǔ)言模型 Flamingo ,它使用單一視覺(jué)語(yǔ)言模型處理多項(xiàng)任務(wù),
    的頭像 發(fā)表于 07-16 20:45 ?1512次閱讀
    更強(qiáng)更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型開(kāi)源,<b class='flag-5'>在</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列<b class='flag-5'>中</b>「補(bǔ)全一切」

    基于Transformer模態(tài)先導(dǎo)性工作

    模態(tài)(Multimodality)是指在信息處理、傳遞和表達(dá)涉及多種不同的感知模態(tài)或信息來(lái)源。這些感知模態(tài)可以包括語(yǔ)言、視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)
    的頭像 發(fā)表于 08-21 09:49 ?1624次閱讀
    基于Transformer<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>先導(dǎo)性工作

    商湯日日新模態(tài)大模型權(quán)威評(píng)測(cè)第一

    剛剛,商湯科技日日新SenseNova模態(tài)大模型,權(quán)威綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass的模態(tài)評(píng)測(cè)
    的頭像 發(fā)表于 12-20 10:39 ?1705次閱讀

    智譜 GLM-PC 開(kāi)放體驗(yàn),模態(tài) Agent 升級(jí)

    1月23日,北京智譜華章科技有限公司宣布旗下智譜GLM-PC開(kāi)放體驗(yàn),標(biāo)志著自主操作電腦的模態(tài)Agent迎來(lái)重要升級(jí)。 GLM-PC是基于智譜
    的頭像 發(fā)表于 01-24 14:10 ?1472次閱讀