微軟多模態(tài)ChatGPT的常見測試介紹

從大型語言模型（LLM）到多模態(tài)大型語言模型（MLLM），微軟又邁出了重要一步。

在 NLP 領(lǐng)域，大型語言模型（LLM）已經(jīng)成功地在各種自然語言任務(wù)中充當(dāng)通用接口。只要我們能夠?qū)⑤斎牒洼敵鲛D(zhuǎn)換為文本，就能使得基于 LLM 的接口適應(yīng)一個任務(wù)。舉例而言，摘要任務(wù)輸入文檔，輸出摘要信息。所以，我們能夠?qū)⑤斎胛臋n饋入摘要型語言模型，并生成摘要。

盡管 LLM 在 NLP 任務(wù)中取得了成功的應(yīng)用，但研究人員仍努力將其原生地用于圖像和音頻等多模態(tài)數(shù)據(jù)。作為智能的基本組成部分，多模態(tài)感知是實(shí)現(xiàn)通用人工智能的必要條件，無論是對于知識獲取還是與現(xiàn)實(shí)世界打交道。更重要的是，解鎖多模態(tài)輸入能夠極大地拓展語言模型在更多高價(jià)值領(lǐng)域的應(yīng)用，比如多模態(tài)機(jī)器人、文檔智能和機(jī)器人技術(shù)。

因此，微軟團(tuán)隊(duì)在論文《Language Is Not All You Need: Aligning Perception with Language Models》中介紹了一個多模態(tài)大型語言模型（MLLM）——KOSMOS-1，它可以感知一般模態(tài)、遵循指令（即零樣本學(xué)習(xí)）以及在上下文中學(xué)習(xí)（即少樣本學(xué)習(xí)）。研究目標(biāo)是使感知與 LLM 保持一致，如此一來模型能夠看到（see）和說話（talk）。研究者按照 METALM（參見論文《Language models are general-purpose interfaces》）的方式從頭開始訓(xùn)練 KOSMOS-1。

論文地址：https://arxiv.org/abs/2302.14045

項(xiàng)目地址：https://github.com/microsoft/unilm

如下圖 1 所示，研究者將一個基于 Transformer 的語言模型作為通用接口，并將其與感知模塊對接。他們在網(wǎng)頁規(guī)模的多模態(tài)語料庫上訓(xùn)練模型，語料庫包括了文本數(shù)據(jù)、任意交錯的圖像和文本、以及圖像字幕對。此外，研究者還通過傳輸純語言數(shù)據(jù)來校準(zhǔn)跨模態(tài)的指令遵循能力。

最終，KOSMOS-1 模型原生支持零樣本和少樣本學(xué)習(xí)設(shè)置下的語言、感知語言與視覺任務(wù)，具體如下表 1 所示。

研究者在下圖 2 和圖 3 中展示了一些生成示例。除了各種自然語言任務(wù)，KOSMOS-1 模型能夠原生處理廣泛的感知密集型任務(wù)，如視覺對話、視覺解釋、視覺問答、圖像字幕、簡單的數(shù)學(xué)方程式、OCR 和帶描述的零樣本圖像分類。他們還根據(jù)瑞文推理測驗(yàn)（Raven's Progressive Matrices, RPM）建立了一個 IQ 測試基準(zhǔn)，用來評估 MLLM 的非語言推理能力。

?這些示例表明，多模態(tài)感知的原生支持為將 LLM 應(yīng)用于新任務(wù)提供了新的機(jī)遇。此外與 LLM 相比，MLLM 實(shí)現(xiàn)了更好的常識推理性能，表明了跨模態(tài)遷移有助于知識獲取。

由于 KOSMOS-1 模型的參數(shù)量為 16 億，因此有網(wǎng)友表示有望在自己的電腦上運(yùn)行這個多模態(tài)大模型。

KOSMOS-1：一個多模態(tài)大型語言模型

如圖 1 所示，KOSMOS-1 是一個多模態(tài)語言模型，它既可以感知一般的模態(tài)、遵循指令、還能在上下文中學(xué)習(xí)并生成輸出。具體來說，KOSMOS-1 的主干是一個基于 Transformer 的因果語言模型。除了文本之外，其他模態(tài)也能被嵌入并輸入到該模型中，如下圖中，除了語言還有視覺、語音等的嵌入。Transformer 解碼器用作多模態(tài)輸入的通用接口。一旦模型訓(xùn)練完成，KOSMOS-1 在零樣本和少樣本設(shè)置中也能對語言任務(wù)和多模態(tài)任務(wù)進(jìn)行評估。

Transformer 解碼器以統(tǒng)一的方式感知模態(tài)，輸入信息會被 flatten 為帶有特殊 token 的序列。例如 < s > 表示序列開始、表示序列結(jié)束。特殊 token 和表示編碼圖像嵌入的開始和結(jié)束。

嵌入模塊將文本 token 和其他輸入模態(tài)編碼成向量表示，對于輸入 token，該研究使用查找表將其映射到嵌入中。對于連續(xù)信號模態(tài)（例如，圖像和音頻），也可以將輸入表示為離散編碼。

之后，獲得的輸入序列嵌入會被饋送到基于 Transformer 的解碼器。然后因果模型以一種自回歸的方式處理序列，從而產(chǎn)生下一個 token?？偠灾?，MLLM 框架可以靈活地處理各種數(shù)據(jù)類型，只要將輸入表示為向量即可。

模型訓(xùn)練

首先是訓(xùn)練數(shù)據(jù)集。數(shù)據(jù)集包括文本語料庫、圖像 - 字幕對、圖像和文本交叉數(shù)據(jù)集。具體而言，文本語料庫包括 The Pile 、Common Crawl (CC)；圖像 - 字幕對包括 English LAION-2B、LAION-400M、COYO-700M 以及 Conceptual Captions；圖像和文本交叉多模態(tài)數(shù)據(jù)集來自 Common Crawl snapshot。

數(shù)據(jù)集有了，然后是訓(xùn)練設(shè)置。MLLM 組件包含 24 層、隱藏維度是 2048、8192 個 FFN 和 32 個注意力頭、參數(shù)量為 1.3B。為了使模型更好的收斂，圖像表示是從具有 1024 個特征維度的預(yù)訓(xùn)練 CLIP ViT-L/14 模型獲得的。圖像在訓(xùn)練過程中被預(yù)處理為 224×224 分辨率，此外，訓(xùn)練期間除了最后一層，所有的 CLIP 模型參數(shù)被凍結(jié)。KOSMOS-1 的參數(shù)總數(shù)約為 1.6B。

實(shí)驗(yàn)結(jié)果

該研究進(jìn)行了一系列豐富的實(shí)驗(yàn)來評價(jià) KOSMOS-1 ：語言任務(wù)（語言理解、語言生成、 OCR-free 文本分類）；跨模態(tài)遷移（常識推理）；非語言推理（ IQ 測試）；感知 - 語言任務(wù)（圖像字幕、視覺問答、網(wǎng)頁問答）；視覺任務(wù)（零樣本圖像分類、帶有描述的零樣本圖像分類）。

圖像字幕。下表給出了不同模型在 COCO 和 Flickr30k 上的零樣本性能。相比其他模型，KOSMOS-1 均取得了顯著效果，甚至在參數(shù)量遠(yuǎn)小于 Flamingo 的基礎(chǔ)上，性能也不錯。

下表為少樣本性能對比：

視覺問答。KOSMOS-1 比 Flamingo-3B 和 Flamingo-9B 模型具有更高的準(zhǔn)確率和魯棒性：

下表為少樣本性能對比：

IQ 測試。瑞文推理測驗(yàn)是評估非語言推理最常見的測試之一。圖 4 顯示了一個示例。?

表 6 顯示了在 IQ 測試數(shù)據(jù)集上的評估結(jié)果。KOSMOS-1 能夠在非語言環(huán)境中感知抽象概念模式，然后在多個選擇中推理出之后的元素。據(jù)了解，這是首次有模型可以執(zhí)行此類零樣本 Raven IQ 測試。

網(wǎng)頁問答。網(wǎng)頁問答旨在從網(wǎng)頁中找到問題的答案。它要求模型既能理解文本的語義，又能理解文本的結(jié)構(gòu)。結(jié)果如下：

多模態(tài)思維鏈提示。受思維鏈提示的啟發(fā)，本文對這方面進(jìn)行了實(shí)驗(yàn)。如圖 5 本文將感知語言任務(wù)分解為兩個步驟。在第一階段給定圖像，使用提示來引導(dǎo)模型生成符合要求的輸出，以產(chǎn)生最終結(jié)果。

從表 9 可以看出，多模態(tài)思維鏈提示的得分為 72.9 分，比標(biāo)準(zhǔn)提示高出 5.8 分：

編輯：黃飛

閱讀全文

機(jī)器人(220833) 機(jī)器人(220833)
ChatGPT(10159) ChatGPT(10159)

基于多模態(tài)語義SLAM框架

本文提出了一個魯棒且快速的多模態(tài)語義 SLAM 框架，旨在解決復(fù)雜和動態(tài)環(huán)境中的 SLAM 問題。具體來說，將僅幾何聚類和視覺語義信息相結(jié)合，以減少由于小尺度對象、遮擋和運(yùn)動模糊導(dǎo)致的分割誤差的影響。

2022-08-31 09:39:14

2570

愛芯通元NPU適配Qwen2.5-VL-3B視覺多模態(tài)大模型

熟悉愛芯通元NPU的網(wǎng)友很清楚，從去年開始我們在端側(cè)多模態(tài)大模型適配上一直處于主動緊跟的節(jié)奏。先后適配了國內(nèi)最早開源的多模態(tài)大模MiniCPM V 2.0，上海人工智能實(shí)驗(yàn)室的書生多模態(tài)大模型

2025-04-21 10:56:46

2691

炬芯科技 2019 多模態(tài)交互技術(shù)開發(fā)者大會：AI多模態(tài)交互如何助力教育

2020年AI多模態(tài)交互技術(shù)將會迎來較大爆發(fā)。12月19日，在炬芯科技第四屆Techlife炬芯2019多模態(tài)交互技術(shù)開發(fā)者大會上，來自喜馬拉雅、達(dá)摩院、玩瞳科技、IP方CEVA的行業(yè)大咖們，從內(nèi)容

2019-12-24 11:46:43

14451

語音識別技術(shù)最新進(jìn)展：視聽融合的多模態(tài)交互成為主要演進(jìn)方向

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）所謂“模態(tài)”，英文是modality，用通俗的話說，就是“感官”，多模態(tài)即將多種感官融合。多模態(tài)交互技術(shù)是近年來人工智能領(lǐng)域的一項(xiàng)重要創(chuàng)新。隨著語音識別技術(shù)的發(fā)展，采用

2023-12-28 09:06:45

6613

介紹幾種常見電阻器的測試方法

本文介紹了幾種常見電阻器的測試方法。

2021-05-10 07:12:33

介紹幾種常見的光纖連接器

介紹幾種常見的光纖連接器，你都知道哪些？

2021-05-26 06:49:57

常見的手機(jī)天線測試方法有哪幾種？

本文簡單的介紹了手機(jī)天線研發(fā)過程中的幾種常見的手機(jī)天線測試方法。

2021-05-10 06:12:48

微軟的軟件測試之道

2018-10-31 20:34:15

模態(tài)測試的基礎(chǔ)知識

本模態(tài)測試應(yīng)用指南（56 頁）概述了結(jié)構(gòu)動力學(xué)、采集頻率響應(yīng)數(shù)據(jù)的測量流程、參數(shù)估計(jì)（曲線擬合）、用于結(jié)構(gòu)分析的分析方法及其與實(shí)驗(yàn)驗(yàn)證的關(guān)系......

2019-04-03 14:15:39

測試架構(gòu)師介紹

有些公司認(rèn)為測試是低級工作，開發(fā)職位才是一個測試工程師將來可能發(fā)展的方向。但在微軟，測試職位和開發(fā)職位是平等的，并且具有同樣多的職業(yè)發(fā)展機(jī)會。

2019-07-18 06:57:05

在IC設(shè)計(jì)/驗(yàn)證中怎么應(yīng)用ChatGPT呢？

好用，那么對于工程師群體應(yīng)該幫助很大！按照官網(wǎng)的介紹，工程師們完全可以把所要實(shí)現(xiàn)的邏輯步驟用自然語言描述清楚，然后ChatGPT會翻譯出滿足相應(yīng)要求的代碼進(jìn)行實(shí)現(xiàn)。話不多說，如圖2直接上干貨進(jìn)行測試！圖

2023-02-21 15:16:46

抗混淆濾波器怎么實(shí)現(xiàn)混合信號和多模態(tài)傳感器調(diào)節(jié)？

一些傳感器信號調(diào)節(jié)器用于處理多個傳感元件的輸出。這種處理過程通常由多模態(tài)、混合信號調(diào)節(jié)器完成，它可以同時(shí)處理數(shù)個傳感元件的輸出。本文對這類傳感器信號調(diào)節(jié)器中抗混淆濾波器的工作情況進(jìn)行詳細(xì)分析。

2020-04-21 06:59:01

科技大廠競逐AIGC，中國的ChatGPT在哪？

迅速走紅。進(jìn)入2023年，微軟推新，谷歌入局，“ChatGPT”熱潮迅速升溫，國內(nèi)的科技巨頭也陸續(xù)涌入潮中。ChatGPT發(fā)布后，包括百度、科大訊飛、京東等在內(nèi)的多家企業(yè)紛紛公布自己在AI領(lǐng)域的布局

2023-03-03 14:28:48

米爾RK3576部署端側(cè)多模態(tài)多輪對話,6TOPS算力驅(qū)動30億參數(shù)LLM

RK3576 給出了首個可量產(chǎn)的答案：一套完整的多模態(tài)交互對話解決方案。 RK3576 多模態(tài)純文字：自我介紹如今，“端側(cè)能否獨(dú)立運(yùn)行圖文多輪對話” 已不再是技術(shù)疑問，而是工程實(shí)現(xiàn)問題。RK3576

2025-09-05 17:25:10

基于自適應(yīng)并行結(jié)構(gòu)的多模態(tài)生物特征識別

傳統(tǒng)多模態(tài)生物特征識別方法當(dāng)出現(xiàn)生物特征缺失時(shí)，識別性能會明顯下降。針對此問題，提出一種融合人臉、虹膜和掌紋的自適應(yīng)并行結(jié)構(gòu)多模態(tài)生物識別方法。該方法在設(shè)計(jì)融合策

2012-11-09 16:12:19

lABCIWQmultyWindows多模態(tài)窗口2010

lABCIWQmultyWindows多模態(tài)窗口2010。

2016-05-17 17:47:59

多尺度形態(tài)濾波模態(tài)混疊抑制方法

多尺度形態(tài)濾波模態(tài)混疊抑制方法_曹瑩

2017-01-07 18:21:31

體驗(yàn)MiniCPM-V 2.6 多模態(tài)能力

多模態(tài)組網(wǎng)

jf_23871869發(fā)布于 2025-01-20 13:40:48

自適應(yīng)并行結(jié)構(gòu)的多模態(tài)生物特征識別

自適應(yīng)并行結(jié)構(gòu)的多模態(tài)生物特征識別

2017-10-16 11:06:04

多文化場景下的多模態(tài)情感識別

自動情感識別是一個非常具有挑戰(zhàn)性的課題，并且有著廣泛的應(yīng)用價(jià)值．本文探討了在多文化場景下的多模態(tài)情感識別問題．我們從語音聲學(xué)和面部表情等模態(tài)分別提取了不同的情感特征。包括傳統(tǒng)的手工定制特征和基于深度

2017-12-18 14:47:31

基于超圖的多模態(tài)關(guān)聯(lián)特征處理方法

傳統(tǒng)的模式識別方法認(rèn)為特征是相互獨(dú)立的，容易忽略多模態(tài)特征之間多元的關(guān)聯(lián)性，從而造成識別的誤差。為此，基于超圖模型，提出一種新的特征整合方法。定義共享熵的計(jì)算方法用以表示多個特征之間的關(guān)聯(lián)程度，以

2018-03-07 11:01:41

如何使用改進(jìn)偏最小二乘法進(jìn)行多模態(tài)過程故障檢測方法資料概述

對原始數(shù)據(jù)進(jìn)行高斯化處理，在此基礎(chǔ)上建立PLS的監(jiān)控模型，確定T2和平方預(yù)測誤差（SPE）的控制限；其次，對測試數(shù)據(jù)同樣進(jìn)行LNS標(biāo)準(zhǔn)化處理，再計(jì)算出測試數(shù)據(jù)的PLS監(jiān)控指標(biāo)來進(jìn)行過程監(jiān)視及故障檢測，解決了PLS中無法處理多模態(tài)的問題。

2018-12-24 16:29:29

關(guān)于多模態(tài)機(jī)器學(xué)習(xí)綜述論文

因此，當(dāng)研究問題或數(shù)據(jù)集包括多個這樣的模態(tài)時(shí)，其特征在于多模態(tài)。本文主要關(guān)注但不僅僅關(guān)注三種形式：自然語言既可以是書面的，也可以是口頭的; 視覺信號，通常用圖像或視頻表示; 和聲音信號，編碼聲音和口頭信息，如韻律和聲音表達(dá)。

2019-01-21 13:38:24

9421

多模態(tài)成AI行業(yè)發(fā)展新風(fēng)向新基建行業(yè)進(jìn)入快車道

近日，由螞蟻金服牽頭制定的“生物特征識別多模態(tài)融合國際標(biāo)準(zhǔn)”正式立項(xiàng)，這一標(biāo)準(zhǔn)的制定，對于多模態(tài)領(lǐng)域發(fā)展與技術(shù)規(guī)范產(chǎn)生了重大影響。

2020-03-31 11:46:47

3127

AI全新應(yīng)用場景技術(shù)趨勢多模態(tài)學(xué)習(xí)

新的 AI 技術(shù)發(fā)展趨勢有哪些？多模態(tài)學(xué)習(xí)技術(shù)一定是其中之一。

2020-07-18 09:19:12

2376

一文解析多模態(tài)生物識別技術(shù)的安全性

多模態(tài)生物特征識別是指在識別系統(tǒng)中使用兩種或更多種生物特征的組合，例如，結(jié)合人臉識別和虹膜識別的系統(tǒng)可以被認(rèn)為是多模態(tài)生物識別系統(tǒng)，那多模態(tài)生物識別技術(shù)安全嗎？

2020-10-13 09:45:56

1243

多模態(tài)中NLP與CV融合的方式有哪些？

最早接觸多模態(tài)是一個抖音推薦項(xiàng)目，有一些視頻，標(biāo)題，用戶點(diǎn)贊收藏等信息，給用戶推薦作品，我當(dāng)時(shí)在這個項(xiàng)目里負(fù)責(zé)用NLP部分上分，雖然最后用wide and deep 整個團(tuán)隊(duì)效果還可以，但是從a/b

2020-12-31 10:12:37

5828

Transformer模型的多模態(tài)學(xué)習(xí)應(yīng)用

隨著Transformer在視覺中的崛起，Transformer在多模態(tài)中應(yīng)用也是合情合理的事情，甚至以后可能會有更多的類似的paper。

2021-03-25 09:29:59

11785

基于層次注意力機(jī)制的多模態(tài)圍堵情感識別模型

在連續(xù)維度情感識別任務(wù)中，每個模態(tài)內(nèi)部凸顯情感表達(dá)的部分并不相同，不同模態(tài)對于情感狀態(tài)的影響程度也有差別。為此，通過學(xué)習(xí)各個模態(tài)特征并采用合理的融合方式，提出一種基于層次注意力機(jī)制的多模態(tài)維度情感

2021-04-01 11:20:51

基于聯(lián)合壓縮感知的多模態(tài)目標(biāo)統(tǒng)一跟蹤方法

針對多模態(tài)目標(biāo)跟蹤中大多僅考慮單個圖像的異種特征融合或不同模態(tài)圖像的同種特征融合，為了使得這兩者間能自然集成，提出基于聯(lián)合壓縮感知的多模態(tài)目標(biāo)統(tǒng)一跟蹤方法。通過將多模態(tài)跟蹤問題轉(zhuǎn)化為多重2-范數(shù)

2021-04-27 15:59:29

基于注意力神經(jīng)網(wǎng)絡(luò)的多模態(tài)情感分析方法

近年來，越來越多的人熱衷于在社交媒體上同時(shí)用圖片和文本等媒體形式表達(dá)自己的感受與看法，使得以圖片和文本為主要內(nèi)容的多模態(tài)數(shù)據(jù)不斷増長。相比單模態(tài)數(shù)據(jù)，多模態(tài)數(shù)據(jù)包含的信息更豐富，更能揭示用戶的真實(shí)

2021-04-28 14:41:41

多模態(tài)MR和多特征融合的GBM自動分割算法

多模態(tài)MR和多特征融合的GBM自動分割算法

2021-06-27 11:45:54

簡述文本與圖像領(lǐng)域的多模態(tài)學(xué)習(xí)有關(guān)問題

來自：哈工大SCIR 本期導(dǎo)讀：近年來研究人員在計(jì)算機(jī)視覺和自然語言處理方向均取得了很大進(jìn)展，因此融合了二者的多模態(tài)深度學(xué)習(xí)也越來越受到關(guān)注。本期主要討論結(jié)合文本和圖像的多模態(tài)任務(wù)，將從多模態(tài)預(yù)訓(xùn)練

2021-08-26 16:29:52

7520

如何使用多模態(tài)信息做prompt

自多模態(tài)大火以來，井噴式地出現(xiàn)了許多工作，通過改造預(yù)訓(xùn)練語言模型，用圖像信息來增強(qiáng)語義信息，但主要集中在幾個 NLU 任務(wù)上，在 NLG 上的研究比較少。今天要介紹的這篇 paper

2021-11-03 09:39:18

2418

多模態(tài)圖像合成與編輯方法

本篇綜述通過對現(xiàn)有的多模態(tài)圖像合成與編輯方法的歸納總結(jié)，對該領(lǐng)域目前的挑戰(zhàn)和未來方向進(jìn)行了探討和分析。

2022-08-23 09:12:19

1979

面向社交媒體的多模態(tài)屬性級情感分析

另一方面，相比于單一的文本數(shù)據(jù)，多模態(tài)數(shù)據(jù)包含了多種不同信息，這些信息之間往往一一對應(yīng)、互為補(bǔ)充，如何對齊不同模態(tài)的內(nèi)容并提出有效的多模態(tài)融合機(jī)制是一個十分棘手的問題。

2022-10-19 10:10:11

3025

基于多模態(tài)智慧感知決策的S230芯片

提到多模態(tài)融合感知，我們難免會覺得有些困惑 “模態(tài)”，可理解為“感官” 多模態(tài)即將多種感官融合不夠直觀？那今天我們就以一道競猜題開場請根據(jù)以下線索猜猜這是什么物品？

2022-11-03 11:59:06

1058

微軟旗下所有產(chǎn)品將全線整合ChatGPT...

點(diǎn)亮在看，給BUG點(diǎn)好看原文標(biāo)題：微軟旗下所有產(chǎn)品將全線整合ChatGPT... 文章出處：【微信公眾號：微軟科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

2023-02-03 19:45:04

1309

微軟和谷歌角逐AI領(lǐng)域，ChatGPT 脫穎而出

今年 1 月，全球每天約有 1300 萬獨(dú)立訪問者使用 ChatGPT，是去年 12 月份的兩倍多。

2023-02-07 14:51:34

372

ChatGPT概念有多火？89%美國大學(xué)生竟用ChatGPT寫作業(yè)

ChatGPT概念有多火？89%美國大學(xué)生竟用ChatGPT寫作業(yè) ChatGPT概念有多火？OpenAI 的 ChatGPT 幾天時(shí)間就席卷了全球網(wǎng)絡(luò)；很多網(wǎng)友反饋似乎到目前為止，面向大眾的文本

2023-02-07 18:24:31

4375

一個真實(shí)閑聊多模態(tài)數(shù)據(jù)集TikTalk

隨著大量預(yù)訓(xùn)練語言模型在文本對話任務(wù)中的出色表現(xiàn)，以及多模態(tài)的發(fā)展，在對話中引入多模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。

2023-02-09 09:31:26

3236

開始了，微軟打響ChatGPT產(chǎn)品第一槍！

近期火爆全球的ChatGPT正持續(xù)引人熱議，其商業(yè)化落地速度也比你我想象的還要快，向OpenAI斥資百億美元的微軟公司率先正式打響了 ChatGPT 產(chǎn)品落地的第一槍，本周兩款引入ChatGPT技術(shù)

2023-02-09 18:05:02

1119

chatGPT在軟件測試中七大應(yīng)用方式

ChatGPT技術(shù)歸為AIGC（人工智能產(chǎn)生內(nèi)容），所以我們首先想到 ChatGPT在我們的提示下，生成我們需要的測試想法，幫助我們擴(kuò)展或優(yōu)化測試思路、測試場景、測試數(shù)據(jù)等。如果ChatGPT可以

2023-02-13 11:14:04

4760

ChatGPT介紹和代碼智能

一. ChatGPT 1. ChatGPT的自我介紹 2. ChatGPT的前世 2.1GPT-3是啥？General Pre-Training(GPT)，即通用預(yù)訓(xùn)練語言模型，是一種利用

2023-02-14 09:33:23

ChatGPT怎么注冊使用最新詳細(xì)教程

2022年11月30日chatGPT發(fā)布，一年時(shí)間風(fēng)靡全美，甚至有調(diào)查，美國89%的大學(xué)生用chatGPT做作業(yè)，微軟用100億美元投資了該公司，這也引起了google的緊張，神經(jīng)語言、人工智能

2023-02-15 09:46:14

中文多模態(tài)對話數(shù)據(jù)集

隨著大量預(yù)訓(xùn)練語言模型在文本對話任務(wù)中的出色表現(xiàn)，以及多模態(tài)的發(fā)展，在對話中引入多模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。目前已經(jīng)提出了各種各樣的多模態(tài)對話數(shù)據(jù)集，主要來自電影、電視劇、社交媒體平臺等

2023-02-22 11:03:01

2185

AIGC最新綜述：從GAN到ChatGPT的AI生成歷史

本調(diào)查全面回顧了生成模型的歷史、基本組件、AIGC 從單模態(tài)交互和多模態(tài)交互的最新進(jìn)展。我們從單峰性的角度介紹了文本和圖像的生成任務(wù)和相關(guān)模型。我們從多模態(tài)的角度來介紹上述模態(tài)之間的交叉應(yīng)用。最后，我們討論了 AIGC 中存在的開放性問題和未來的挑戰(zhàn)。

2023-03-13 10:13:09

4058

GPT-4多模態(tài)模型發(fā)布，對ChatGPT的升級和斷崖式領(lǐng)先

而且 GPT-4 是多模態(tài)的，同時(shí)支持文本和圖像輸入功能。此外，GPT-4 比以前的版本“更大”，這意味著其已經(jīng)在更多的數(shù)據(jù)上進(jìn)行了訓(xùn)練，并且在模型文件中有更多的權(quán)重，這也使得它的運(yùn)行成本更高。

2023-03-17 10:31:07

4411

ChatGPT/AIGC研究框架原理和應(yīng)用實(shí)踐

隨著ChatGPT等語言大模型落地，AIGC技術(shù)落地在各行各業(yè)中得到發(fā)展和推進(jìn)。根據(jù)模型的分類，AIGC的應(yīng)用可被分為單模態(tài)和多模態(tài)兩類。單模態(tài)模型可以助力各個應(yīng)用，提升原有的能力和生產(chǎn)力。

2023-03-30 10:35:05

1281

介紹ChatGPT和高頻測試的基本知識

作為一種先進(jìn)的語言模型，ChatGPT已經(jīng)被廣泛應(yīng)用于各個領(lǐng)域。在高頻高速測試領(lǐng)域，ChatGPT也發(fā)揮著相對的作用。

2023-04-21 09:55:07

2952

ImageBind：跨模態(tài)之王，將6種模態(tài)全部綁定！

最近，很多方法學(xué)習(xí)與文本、音頻等對齊的圖像特征。這些方法使用單對模態(tài)或者最多幾種視覺模態(tài)。最終嵌入僅限于用于訓(xùn)練的模態(tài)對。因此，視頻 - 音頻嵌入無法直接用于圖像 - 文本任務(wù)，反之亦然。學(xué)習(xí)真正的聯(lián)合嵌入面臨的一個主要障礙是缺乏所有模態(tài)融合在一起的大量多模態(tài)數(shù)據(jù)。

2023-05-11 09:30:44

1973

如何利用LLM做多模態(tài)任務(wù)？

大型語言模型LLM（Large Language Model）具有很強(qiáng)的通用知識理解以及較強(qiáng)的邏輯推理能力，但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力，但目前還未開放多模態(tài)輸入接口并且不會透露任何模型上技術(shù)細(xì)節(jié)。因此，現(xiàn)階段，如何利用LLM做一些多模態(tài)任務(wù)還是有一定的研究價(jià)值的。

2023-05-11 17:09:16

1571

重磅！微軟開源Deep Speed Chat，人人擁有ChatGPT……

關(guān)注微軟科技視頻號了解更多科技前沿資訊點(diǎn)亮在看，給BUG點(diǎn)好看原文標(biāo)題：重磅！微軟開源Deep Speed Chat，人人擁有ChatGPT…… 文章出處：【微信公眾號：微軟科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

2023-05-11 20:16:41

1174

多模態(tài)GPT：國內(nèi)發(fā)布一款可以在線使用的多模態(tài)聊天機(jī)器人！

基于開源多模態(tài)模型 OpenFlamingo，作者使用公開數(shù)據(jù)集創(chuàng)建了各種視覺指令數(shù)據(jù)，包括視覺問答、圖像字幕、視覺推理、文本 OCR 和視覺對話。此外，還使用僅包含語言指令數(shù)據(jù)的語言模型組件進(jìn)行了訓(xùn)練。

2023-05-12 09:55:03

1724

邱錫鵬團(tuán)隊(duì)提出具有內(nèi)生跨模態(tài)能力的SpeechGPT，為多模態(tài)LLM指明方向

大型語言模型（LLM）在各種自然語言處理任務(wù)上表現(xiàn)出驚人的能力。與此同時(shí)，多模態(tài)大型語言模型，如 GPT-4、PALM-E 和 LLaVA，已經(jīng)探索了 LLM 理解多模態(tài)信息的能力。然而，當(dāng)前

2023-05-22 14:38:06

1333

奔馳宣布接入ChatGPT，已開啟測試！大模型將全面賦能汽車智能化！

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）日前，梅賽德斯-奔馳和微軟共同宣布，梅賽德斯-奔馳通過微軟的Azure OpenAI Service，將ChatGPT整合進(jìn)他們的MBUX語音助手。 ? 測試計(jì)劃將于

2023-06-17 00:25:00

2784

多模態(tài)數(shù)據(jù)定制服務(wù)：提升智能化應(yīng)用的關(guān)鍵利器

在當(dāng)今信息爆炸的時(shí)代，數(shù)據(jù)被認(rèn)為是現(xiàn)代社會的石油，而多模態(tài)數(shù)據(jù)則是數(shù)據(jù)世界中的明珠。多模態(tài)數(shù)據(jù)是指結(jié)合了不同類型的信息，如文本、圖像、視頻和聲音等，它的應(yīng)用范圍非常廣泛。通過充分利用多模態(tài)數(shù)據(jù)，企業(yè)

2023-06-18 21:24:47

956

科普 | 什么是ChatGPT？試用ChatGPT，ChatGPT的啟示！

最近，我看到三個新聞，隱隱感到一個新的時(shí)代已經(jīng)拉開序幕。學(xué)生用ChatGPT拿下全班最高分，教授驚呆！全美高校打響AI反擊戰(zhàn)。微軟將向人工智能工具ChatGPT的創(chuàng)建者OpenAI投資100億美元

2023-02-06 16:50:11

3040

ChatGPT 的背后：OpenAI 創(chuàng)始人Sam Altman如何用微軟的數(shù)十億美元打造了全球最熱門技術(shù)

內(nèi)容來自MoPaaS編者按：ChatGPT產(chǎn)生的影響還在繼續(xù)，ChatGPT以及其創(chuàng)造者OpenAI背后的故事卻鮮為人知。OpenAI是怎樣偏離其初心堅(jiān)持商業(yè)化？憑什么Altman可以讓微軟早期押注

2023-02-13 14:28:25

1450

VisCPM：邁向多語言多模態(tài)大模型時(shí)代

隨著 GPT-4 和 Stable Diffusion 等模型多模態(tài)能力的突飛猛進(jìn)，多模態(tài)大模型已經(jīng)成為大模型邁向通用人工智能（AGI）目標(biāo)的下一個前沿焦點(diǎn)。總體而言，面向圖像和文本的多模態(tài)生成能力

2023-07-10 10:05:01

1255

更強(qiáng)更通用：智源「悟道3.0」Emu多模態(tài)大模型開源，在多模態(tài)序列中「補(bǔ)全一切」

當(dāng)前學(xué)界和工業(yè)界都對多模態(tài)大模型研究熱情高漲。去年，谷歌的 Deepmind 發(fā)布了多模態(tài)視覺語言模型 Flamingo ，它使用單一視覺語言模型處理多項(xiàng)任務(wù)，在多模態(tài)大模型領(lǐng)域保持較高

2023-07-16 20:45:02

1370

UniVL-DR: 多模態(tài)稠密向量檢索模型

for Multi-Modal Retrieval 背景介紹盡管當(dāng)前主流搜索引擎主要面向文本數(shù)據(jù)，然而多媒體內(nèi)容的增長一直是互聯(lián)網(wǎng)上最顯著趨勢之一，各種研究表明用戶更喜歡搜索結(jié)果中出現(xiàn)生動的多模態(tài)內(nèi)容。因而，針對于多

2023-08-06 22:00:03

1796

基于Transformer多模態(tài)先導(dǎo)性工作

多模態(tài)（Multimodality）是指在信息處理、傳遞和表達(dá)中涉及多種不同的感知模態(tài)或信息來源。這些感知模態(tài)可以包括語言、視覺、聽覺、觸覺等，它們共同作用來傳遞更豐富、更全面的信息。在多模態(tài)系統(tǒng)中

2023-08-21 09:49:52

1518

DreamLLM：多功能多模態(tài)大型語言模型，你的DreamLLM~

由于固有的模態(tài)缺口，如CLIP語義主要關(guān)注模態(tài)共享信息，往往忽略了可以增強(qiáng)多模態(tài)理解的模態(tài)特定知識。因此，這些研究并沒有充分認(rèn)識到多模式創(chuàng)造和理解之間潛在的學(xué)習(xí)協(xié)同作用，只顯示出創(chuàng)造力的微小提高，并且在多模式理解方面仍然存在不足。

2023-09-25 17:26:43

1532

多模態(tài)大模型企業(yè)，智子引擎全國總部落戶南京江北

智子引擎主要從事新一代人工智能低層引擎和多模態(tài)大模型的研究開發(fā)和商業(yè)化運(yùn)營。本項(xiàng)目開發(fā)了應(yīng)用水平多模態(tài)chatgpt產(chǎn)品“元乘象ChatImg”。元乘象ChatImg的媒介數(shù)為100億級。

2023-10-10 11:03:17

1667

基于視覺的多模態(tài)觸覺感知系統(tǒng)

傳統(tǒng)的多模態(tài)/多任務(wù)觸覺感知系統(tǒng)通過集成多種傳感單元來達(dá)到多模態(tài)觸覺信息的解耦，但其往往導(dǎo)致系統(tǒng)結(jié)構(gòu)的復(fù)雜性，以及需要應(yīng)對來自不同刺激間的干擾。

2023-10-18 11:24:48

2013

探究編輯多模態(tài)大語言模型的可行性

不同于單模態(tài)模型編輯，多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單模態(tài)模型編輯入手，將單模態(tài)模型編輯拓展到多模態(tài)模型編輯，主要從以下三個方面：可靠性（Reliability），穩(wěn)定性（Locality）和泛化性（Generality）。

2023-11-09 14:53:22

1018

因安全和數(shù)據(jù)問題，微軟短暫禁用ChatGPT

對此，微軟方面解釋說：“暫時(shí)關(guān)閉chatgpt是在測試大型語言模型系統(tǒng)的過程中發(fā)生的錯誤。”據(jù)微軟發(fā)言人透露，微軟方面正在測試端點(diǎn)控制器系統(tǒng)，無意中打開給所有員工，并在發(fā)現(xiàn)錯誤后立即恢復(fù)服務(wù)。

2023-11-10 14:31:18

1214

微軟內(nèi)部禁止員工使用ChatGPT

近期消息報(bào)道，微軟內(nèi)部禁止員工使用OpenAI產(chǎn)品ChatGPT。最新的微軟內(nèi)部網(wǎng)站消息顯示，：“出于安全和數(shù)據(jù)方面的考慮，許多AI工具不再供員工使用。”

2023-11-10 15:39:30

1330

微軟發(fā)布定制AI芯片Maia 100，力求減少高昂成本

微軟azure芯片部門副總經(jīng)理rani borkar表示，微軟在“bing”和“office ai”產(chǎn)品中測試了該芯片。微軟的主要人工智能合作伙伴、chatgpt開發(fā)者openai也在測試芯片。

2023-11-16 14:54:15

1161

用語言對齊多模態(tài)信息，北大騰訊等提出LanguageBind，刷新多個榜單

目前的 VL 預(yù)訓(xùn)練方法通常僅適用于視覺和語言模態(tài)，而現(xiàn)實(shí)世界中的應(yīng)用場景往往包含更多的模態(tài)信息，如深度圖、熱圖像等。如何整合和分析不同模態(tài)的信息，并且能夠在多個模態(tài)之間建立準(zhǔn)確的語義對應(yīng)關(guān)系，成為了多模態(tài)領(lǐng)域的一個新的挑戰(zhàn)。

2023-11-23 15:46:30

1616

任意文本、視覺、音頻混合生成，多模態(tài)有了強(qiáng)大的基礎(chǔ)引擎CoDi-2

研究者表示，CoDi-2 標(biāo)志著在開發(fā)全面的多模態(tài)基礎(chǔ)模型領(lǐng)域取得了重大突破。今年 5 月，北卡羅來納大學(xué)教堂山分校、微軟提出一種可組合擴(kuò)散（Composable Diffusion，簡稱

2023-12-03 20:20:02

1089

大模型+多模態(tài)的3種實(shí)現(xiàn)方法

我們知道，預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就，然而其明顯的劣勢是不支持其他模態(tài)（包括圖像、語音、視頻模態(tài)）的輸入和輸出，那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息，讓其變得更強(qiáng)大、更通用呢？本節(jié)將介紹“大模型+多模態(tài)”的3種實(shí)現(xiàn)方法。

2023-12-13 13:55:04

3109

人工智能領(lǐng)域多模態(tài)的概念和應(yīng)用場景

隨著人工智能技術(shù)的不斷發(fā)展，多模態(tài)成為了一個備受關(guān)注的研究方向。多模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和信息進(jìn)行融合，以實(shí)現(xiàn)更加準(zhǔn)確、高效的人工智能應(yīng)用。本文將詳細(xì)介紹多模態(tài)的概念、研究內(nèi)容和應(yīng)用場景，并探討人工智能領(lǐng)域多模態(tài)的未來發(fā)展趨勢。

2023-12-15 14:28:44

13428

成都匯陽投資關(guān)于多模態(tài)驅(qū)動應(yīng)用前景廣闊，上游算力迎機(jī)會!

【Gemini 大模型主打多模態(tài)，性能對標(biāo) GPT-4】當(dāng)?shù)貢r(shí)間12月6日，谷歌公司宣布推出其規(guī)模最大、功能最強(qiáng)的多模態(tài)大模型 Gemini, 其最強(qiáng)大的 TPU (張量處理單元)系統(tǒng)

2023-12-18 13:08:45

1066

從Google多模態(tài)大模型看后續(xù)大模型應(yīng)該具備哪些能力

前段時(shí)間Google推出Gemini多模態(tài)大模型，展示了不凡的對話能力和多模態(tài)能力，其表現(xiàn)究竟如何呢？

2023-12-28 11:19:52

2300

自動駕駛和多模態(tài)大語言模型的發(fā)展歷程

多模態(tài)大語言模型(MLLM) 最近引起了廣泛的關(guān)注，其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合，通過多模態(tài)對齊使它們能夠更高效地執(zhí)行各種任務(wù)，包括圖像分類、將文本與相應(yīng)的視頻對齊以及語音檢測。

2023-12-28 11:45:21

1381

微軟推出Copilot安卓應(yīng)用類似ChatGPT功能

微軟在安卓系統(tǒng)上的Copilot應(yīng)用程序與ChatGPT非常相似，可以訪問聊天機(jī)器人功能，通過DALL-E 3生成圖像，并可以為電子郵件和文檔起草文本。它還包括免費(fèi)訪問OpenAI最新的GPT-4模型，如果你使用ChatGPT，你必須付費(fèi)。

2023-12-28 16:59:19

1804

什么是多模態(tài)？多模態(tài)的難題是什么？

單模態(tài)大模型，通常大于100M～1B參數(shù)。具有較強(qiáng)的通用性，比如對圖片中任意物體進(jìn)行分割，或者生成任意內(nèi)容的圖片或聲音。極大降低了場景的定制成本。

2024-01-17 10:03:12

6919

機(jī)器人基于開源的多模態(tài)語言視覺大模型

ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作模型，只用單機(jī)就可以訓(xùn)練。

2024-01-19 11:43:08

944

如何在測試中使用ChatGPT

Dimitar Panayotov 在 2023 年 QA Challenge Accepted 大會上分享了他如何在測試中使用 ChatGPT。

2024-02-20 13:57:01

1390

微軟和OpenAI面臨關(guān)于ChatGPT和Copilot的更多訴訟指控

這三家媒體指責(zé) OpenAI 聊天機(jī)器人 ChatGPT（微軟Copilot也使用此項(xiàng)技術(shù)）在訓(xùn)練過程中，未經(jīng)授權(quán)便擅自拷貝了發(fā)布于自家網(wǎng)站的文章。他們宣稱，若用戶知曉 ChatGPT 所侵犯的版權(quán)行為，那么該聊天機(jī)器人的熱度恐難持續(xù)。

2024-02-29 11:28:55

1007

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

李未可科技多模態(tài) AI 大模型正式發(fā)布，積極推進(jìn) AI 在終端的場景應(yīng)用 ? 4月18日，2024中國生成式AI大會上李未可科技正式發(fā)布為眼鏡等未來終端定向優(yōu)化等自研WAKE-AI多模態(tài)大模型，具備

2024-04-18 17:01:29

1092

微軟Copilot：與OpenAI ChatGPT類似的AI助手

科技媒體Windows Latest今日發(fā)表文章，詳細(xì)介紹了Copilot應(yīng)用的使用心得，指出其設(shè)計(jì)理念與OpenAI的ChatGPT頗為相似。

2024-05-23 14:36:29

1248

國內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和多模態(tài)GPT4o API調(diào)用開發(fā)教程！

1. 前言 ChatGPT-4o API 是 OpenAI 提供的強(qiáng)大工具，可用于自然語言處理和多模態(tài)任務(wù)。在國內(nèi)直聯(lián)使用這些服務(wù)需要一些配置和技巧。本文將詳細(xì)介紹GPT-4o模型以及如何獲取

2024-06-08 00:33:53

8043

云知聲推出山海多模態(tài)大模型

在人工智能技術(shù)的浩瀚星海中，多模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創(chuàng)新之姿，推出了其匠心獨(dú)運(yùn)的山海多模態(tài)大模型，正式宣告“Her時(shí)代”的帷幕緩緩拉開。

2024-08-27 15:20:21

844

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進(jìn)行融合，通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實(shí)現(xiàn)更加智能化的信息處理。簡單來說，多模態(tài)大模型可以可以理解多種不同模態(tài)的輸入數(shù)據(jù)，并輸出相應(yīng)反饋結(jié)果，例如圖像理解，語音識別，視覺問題等。

2024-10-18 09:39:38

2713

一文理解多模態(tài)大語言模型——下

/understanding-multimodal-llms ? 《一文理解多模態(tài)大語言模型 - 上》介紹了什么是多模態(tài)大語言模型，以及構(gòu)建多模態(tài) LLM 有兩種主要方式之一：統(tǒng)一嵌入解碼器架構(gòu)(Unified Embedding Decoder Architecture)。本

2024-12-03 15:18:04

1110

商湯日日新多模態(tài)大模型權(quán)威評測第一

剛剛，商湯科技日日新SenseNova多模態(tài)大模型，在權(quán)威綜合評測權(quán)威平臺OpenCompass的多模態(tài)評測中取得榜單第一。

2024-12-20 10:39:31

1573

?？低暟l(fā)布多模態(tài)大模型文搜存儲系列產(chǎn)品

多模態(tài)大模型為安防行業(yè)帶來重大技術(shù)革新，基于觀瀾大模型技術(shù)體系，?？低晫⒋髤?shù)量、大樣本量的圖文多模態(tài)大模型與嵌入式智能硬件深度融合，發(fā)布多模態(tài)大模型文搜存儲系列產(chǎn)品——文搜NVR、文搜CVR。

2025-02-18 10:33:56

1125

安泰功率放大器如何配合激光測振儀進(jìn)行霧化器模態(tài)測試

霧化器是一種常見的設(shè)備，廣泛應(yīng)用于醫(yī)療、農(nóng)業(yè)、環(huán)保等領(lǐng)域。為了確保霧化器的工作效果，需要進(jìn)行模態(tài)測試。而功率放大器作為作為一種精密的測試設(shè)備，可以配合激光測振儀一起有效地進(jìn)行霧化器模態(tài)測試。霧化器

2025-03-10 11:29:56

583

?多模態(tài)交互技術(shù)解析

多模態(tài)交互多模態(tài)交互（ Multimodal Interaction ）是指通過多種感官通道（如視覺、聽覺、觸覺等）或多種交互方式（如語音、手勢、觸控、眼動等）與計(jì)算機(jī)系統(tǒng)進(jìn)行自然、協(xié)同的信息交互

2025-03-17 15:12:44

3955

端到端自動駕駛多模態(tài)軌跡生成方法GoalFlow解析

自動駕駛軌跡規(guī)劃往往采用直接回歸軌跡的方法，這種方式雖在測試中能取得不錯的性能，可直接輸出當(dāng)前場景下最有可能的軌跡或控制，但它難以對自動駕駛場景中常見的多模態(tài)動作分布進(jìn)行有效建模。

2025-03-18 17:59:05

1322

汽車多模態(tài)交互測試：智能交互的深度驗(yàn)證

在汽車智能座艙測試的關(guān)鍵進(jìn)程中，北京沃華慧通測控技術(shù)有限公司展現(xiàn)出了獨(dú)特的價(jià)值與優(yōu)勢。作為一家專注于測控技術(shù)領(lǐng)域的企業(yè)，沃華慧通在智能座艙測試方面積累了豐富的經(jīng)驗(yàn)和專業(yè)的技術(shù)能力。其研發(fā)的測試設(shè)備能夠精準(zhǔn)模擬各種復(fù)雜的車載環(huán)境，對智能座艙的多模態(tài)交互系統(tǒng)進(jìn)行全面、深入的測試。

2025-06-25 09:00:50

1299

商湯科技多模態(tài)通用智能戰(zhàn)略思考

時(shí)間是最好的試金石，AI領(lǐng)域尤其如此。當(dāng)行業(yè)熱議大模型走向時(shí)，商湯早已錨定“多模態(tài)通用智能”——這是我們以深厚研究積累和實(shí)踐反復(fù)驗(yàn)證的可行路徑。

2025-08-14 09:33:34

1085

淺析多模態(tài)標(biāo)注對大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例

?在人工智能邁向AGI通用智能的關(guān)鍵道路上，大模型正從單一的文本理解者，演進(jìn)為能同時(shí)看、聽、讀、想的“多面手”。驅(qū)動這一進(jìn)化的核心燃料，正是高質(zhì)量的多模態(tài)數(shù)據(jù)，而將原始數(shù)據(jù)轉(zhuǎn)化為“機(jī)器可讀教材

2025-09-05 13:49:27

1266