蘋果發(fā)布開源多模態(tài)大語言模型Ferret

科技媒體 VentureBeat?報(bào)道稱，蘋果公司在 2023 年 10 月低調(diào)發(fā)布了一款名為 Ferret 的開源多模態(tài)大語言模型，這是蘋果與哥倫比亞大學(xué)研究人員的合作成果。當(dāng)時(shí)發(fā)布的內(nèi)容包括了代碼和權(quán)重（僅限研究用途，不包含商業(yè)許可），但并未引起太多關(guān)注。

隨著近期?Mistral 的開源 MoE 模型成為焦點(diǎn)，以及谷歌的 Gemini 模型即將在 Pixel Pro 上亮相，未來還將進(jìn)入 Android 系統(tǒng)，越來越多人開始關(guān)注本地 LLMs 為小型設(shè)備提供支持的潛力。

近日，專注于醫(yī)療領(lǐng)域開源 AI 的歐洲非營利組織負(fù)責(zé)人 Bart de Witte 在 X 平臺(tái)上分享了他的驚訝：“我之前竟然沒發(fā)現(xiàn)這個(gè)。” 他表示，“蘋果在 10 月份加入了開源 AI 圈子。Ferret 的推出展現(xiàn)了蘋果對影響深遠(yuǎn)的 AI 研究的承諾，鞏固了它在多模態(tài) AI 領(lǐng)域的領(lǐng)先地位…… 另外，我很期待有一天 Local Large Language Models (LLLMs) 能作為重新設(shè)計(jì)的 iOS 的一部分，在我的 iPhone 上運(yùn)行?！?/p>

蘋果公司 AI/ML 研究科學(xué)家 Zhe Gan 在 10 月份發(fā)布的一條推文中解釋了 Ferret 的用途 —— 一個(gè)可以在圖像中 "以任何粒度對任何地方的任何東西進(jìn)行參照和定位" 的系統(tǒng)。它還可以通過使用圖像中任何形狀的區(qū)域來做到這一點(diǎn)。

簡單地說，該模型可以分析圖像上繪制的區(qū)域，確定其中對用戶查詢有用的元素，并將其識(shí)別出來，在檢測到的元素周圍繪制一個(gè)邊界框。然后，它就可以將識(shí)別出的元素用作查詢的一部分，并以典型的方式作出響應(yīng)。

例如，高亮顯示圖像中的動(dòng)物圖片并詢問 LLM 這是什么動(dòng)物，LLM 可以確定該動(dòng)物的種類，并確定用戶所指的是動(dòng)物群中的某只動(dòng)物。然后，它還可以利用圖像中檢測到的其他項(xiàng)目的上下文，提供進(jìn)一步的回復(fù)。

GitHub：https://github.com/apple/ml-ferret
論文：https://arxiv.org/abs/2310.07704

Ferret 擁有 (7B, 13B) 兩個(gè)版本，為了增強(qiáng) Ferret 模型的能力蘋果特別收集了一個(gè) GRIT 數(shù)據(jù)集。它包含了 1.1M 個(gè)樣本，這些樣本包含了豐富的層次空間知識(shí)。

盡管蘋果以往以其產(chǎn)品和技術(shù)的封閉性著稱，但現(xiàn)在它通過發(fā)布開源 LLM 模型，正逐漸改變這一形象，展現(xiàn)出其在 AI 領(lǐng)域的活躍參與和創(chuàng)新精神。這不僅對蘋果自身，也對整個(gè) AI 領(lǐng)域來說，都是一個(gè)值得關(guān)注的重要發(fā)展方向。

VentureBeat 撰稿人 Ben Dickson 寫道：“2023 年最讓你意外的人工智能進(jìn)展是什么？對我來說，是蘋果發(fā)布了開源 LLMs（雖然是非商業(yè)許可）?！?他指出，蘋果一貫以來是封閉系統(tǒng)、圍墻花園開發(fā)、保密、嚴(yán)格的保密協(xié)議、發(fā)布極少細(xì)節(jié)、并為其產(chǎn)品申請每一項(xiàng)小的專利的代表。

審核編輯：黃飛

閱讀全文

蘋果(207801) 蘋果(207801)
AI(298911) AI(298911)
大模型(5063) 大模型(5063)
LLM(1284) LLM(1284)

如何利用Transformers了解視覺語言模型

將模型稱為 “視覺語言” 模型是什么意思？一個(gè)結(jié)合了視覺和語言模態(tài)的模型？但這到底是什么意思呢？

2023-03-03 09:49:37

1578

基于AX650N/AX630C部署多模態(tài)大模型InternVL2-1B

InternVL2是由上海人工智能實(shí)驗(yàn)室OpenGVLab發(fā)布的一款多模態(tài)大模型，中文名稱為“書生·萬象”。該模型在多學(xué)科問答（MMMU）等任務(wù)上表現(xiàn)出色，并且具備處理多種模態(tài)數(shù)據(jù)的能力。

2024-11-18 17:32:54

2632

一文理解多模態(tài)大語言模型——上

/understanding-multimodal-llms 在過去幾個(gè)月中， OpenVINO? 架構(gòu)師 Yury閱讀了眾多有關(guān)多模態(tài)大語言模型的論文和博客，在此基礎(chǔ)上，推薦了一篇解讀多模態(tài)大語言模型的最佳文章《Understand Multimodal LLMs》--

2024-12-02 18:29:02

2077

愛芯通元NPU適配Qwen2.5-VL-3B視覺多模態(tài)大模型

熟悉愛芯通元NPU的網(wǎng)友很清楚，從去年開始我們在端側(cè)多模態(tài)大模型適配上一直處于主動(dòng)緊跟的節(jié)奏。先后適配了國內(nèi)最早開源的多模態(tài)大模MiniCPM V 2.0，上海人工智能實(shí)驗(yàn)室的書生多模態(tài)大模型

2025-04-21 10:56:46

2691

“悟道3.0”系列大模型全面開源，有助于AI應(yīng)用普及！

新階段，此次發(fā)布的一系列成果包括“悟道·天鷹”（Aquila）語言大模型系列、天秤（FlagEval）開源大模型評測體系與開放平臺(tái)、“悟道 · 視界”視覺大模型系列，以及一系列多模態(tài)模型成果。 ? 悟道3.0 全面開源意味著什么 ? 悟道·天鷹語言大模型是首

2023-06-14 00:06:00

2753

千億參數(shù)多模態(tài)大模型，“紫東太初”規(guī)?；瘧?yīng)用加速

、文本、圖像等單模態(tài)大模型研究和應(yīng)用的基礎(chǔ)上，向多模態(tài)大模型攻關(guān)，并于2021年7月正式發(fā)布了全球首個(gè)千億參數(shù)多模態(tài)大模型紫東太初。 ? 2023年6月16日，中國科學(xué)院自動(dòng)化研究所和武漢人工智能研究院發(fā)布紫東太初2.0。2023年8月，中科院

2023-12-08 00:09:00

3531

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書

的大語言模型設(shè)計(jì)技術(shù)人員閱讀，主要包括大語言模型的優(yōu)化方法、Agent系統(tǒng)調(diào)優(yōu)以及模型的安全技術(shù)。展望篇分析了大語言模型的發(fā)展前景，介紹了多模態(tài)應(yīng)用知識(shí)、尺度定律、編碼壓縮以及與圖靈機(jī)的關(guān)系。從目錄結(jié)構(gòu)和內(nèi)容可看出此書適合不同知識(shí)基礎(chǔ)的大語言模型從業(yè)人員閱讀，也體現(xiàn)了循序漸進(jìn)的學(xué)習(xí)過程。

2024-07-21 13:35:17

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

的，與上下文語境無關(guān)，因此不適用于一詞多義的情況。例如，“蘋果”在“我去吃個(gè)蘋果”與“這個(gè)蘋果手機(jī)好用嗎”這兩個(gè)句子中的語義明顯不同，但靜態(tài)詞向量語言模型僅利用同一個(gè)向量表示詞的語義，難以刻畫同一個(gè)詞在

2024-05-05 12:17:03

【大語言模型：原理與工程實(shí)踐】探索《大語言模型原理與工程實(shí)踐》

的未來發(fā)展方向進(jìn)行了展望，包括跨領(lǐng)域、跨模態(tài)和自動(dòng)提示生成能力方向，為讀者提供了對未來技術(shù)發(fā)展的深刻見解?！洞?b class="flag-6" style="color: red">語言模型原理與工程實(shí)踐》是一本內(nèi)容豐富、深入淺出的技術(shù)書籍。它不僅為讀者提供了大語言模型

2024-04-30 15:35:24

基于米爾瑞芯微RK3576開發(fā)板的Qwen2-VL-3B模型NPU多模態(tài)部署評測

關(guān)鍵詞：瑞芯微 RK3576、NPU（神經(jīng)網(wǎng)絡(luò)處理器）、端側(cè)小語言模型（SLM）、多模態(tài) LLM、邊緣 AI 部署、開發(fā)板、RKLLM隨著大語言模型（LLM）技術(shù)的快速迭代，從云端集中式部署到端側(cè)

2025-08-29 18:08:27

簡單的模型進(jìn)行流固耦合的模態(tài)分析

　　本次分享，對一個(gè)簡單的模型進(jìn)行流固耦合的模態(tài)分析，有限元科技小編主要給大家演示如何使用Hypermesh與Nastran對流固耦合的結(jié)構(gòu)進(jìn)行模態(tài)分析，以及了解聲腔對結(jié)構(gòu)模態(tài)的影響?！　∩钲谑?/div>

2020-07-07 17:15:39

米爾RK3576部署端側(cè)多模態(tài)多輪對話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

細(xì)化需求，系統(tǒng)需實(shí)時(shí)調(diào)整響應(yīng)策略 1.2 多輪對話系統(tǒng)鳥瞰：三顆“核心”協(xié)同驅(qū)動(dòng)RK3576 多模態(tài)交互對話方案基于 RKLLM 的核心運(yùn)作，依賴于圖像視覺編碼器、大語言模型與對話管家這三大模塊的協(xié)同

2025-09-05 17:25:10

體驗(yàn)MiniCPM-V 2.6 多模態(tài)能力

多模態(tài)組網(wǎng)

jf_23871869發(fā)布于 2025-01-20 13:40:48

Transformer模型的多模態(tài)學(xué)習(xí)應(yīng)用

隨著Transformer在視覺中的崛起，Transformer在多模態(tài)中應(yīng)用也是合情合理的事情，甚至以后可能會(huì)有更多的類似的paper。

2021-03-25 09:29:59

11785

基于層次注意力機(jī)制的多模態(tài)圍堵情感識(shí)別模型

識(shí)別模型。在音頻模態(tài)中加人頻率注意力機(jī)制學(xué)習(xí)頻域上下文信息，利用多模態(tài)注意力機(jī)制將視頻特征與音頻特征進(jìn)行融合，依據(jù)改進(jìn)的損失函數(shù)對模態(tài)缺失問題進(jìn)行優(yōu)化，提高模型的魯棒性以及情感識(shí)別的性能。在公開數(shù)據(jù)集上的實(shí)

2021-04-01 11:20:51

簡述文本與圖像領(lǐng)域的多模態(tài)學(xué)習(xí)有關(guān)問題

模型中的幾個(gè)分支角度，簡述文本與圖像領(lǐng)域的多模態(tài)學(xué)習(xí)有關(guān)問題。 1. 引言近年來，計(jì)算機(jī)視覺和自然語言處理方向均取得了很大進(jìn)展。而融合二者的多模態(tài)深度學(xué)習(xí)也越來越受到關(guān)注，在基于圖像和視頻的字幕生成、視覺問答（VQA）、

2021-08-26 16:29:52

7520

基于預(yù)訓(xùn)練視覺-語言模型的跨模態(tài)Prompt-Tuning

、新加坡國立大學(xué) 鏈接：https://arxiv.org/pdf/2109.11797.pdf 提取摘要預(yù)訓(xùn)練的視覺語言模型（VL-PTMs）在將自然語言融入圖像數(shù)據(jù)中顯示出有前景的能力，促進(jìn)

2021-10-09 15:10:42

3888

支持Python和Java的BigCode開源輕量級語言模型

BigCode 是一個(gè)開放的科學(xué)合作組織，致力于開發(fā)大型語言模型。近日他們開源了一個(gè)名為 SantaCoder 的語言模型，該模型擁有 11 億個(gè)參數(shù)

2023-01-17 14:29:53

1365

一個(gè)真實(shí)閑聊多模態(tài)數(shù)據(jù)集TikTalk

隨著大量預(yù)訓(xùn)練語言模型在文本對話任務(wù)中的出色表現(xiàn)，以及多模態(tài)的發(fā)展，在對話中引入多模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。

2023-02-09 09:31:26

3236

中文多模態(tài)對話數(shù)據(jù)集

隨著大量預(yù)訓(xùn)練語言模型在文本對話任務(wù)中的出色表現(xiàn)，以及多模態(tài)的發(fā)展，在對話中引入多模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。目前已經(jīng)提出了各種各樣的多模態(tài)對話數(shù)據(jù)集，主要來自電影、電視劇、社交媒體平臺(tái)等

2023-02-22 11:03:01

2185

微軟多模態(tài)ChatGPT的常見測試介紹

研究者將一個(gè)基于 Transformer 的語言模型作為通用接口，并將其與感知模塊對接。他們在網(wǎng)頁規(guī)模的多模態(tài)語料庫上訓(xùn)練模型，語料庫包括了文本數(shù)據(jù)、任意交錯(cuò)的圖像和文本、以及圖像字幕對。

2023-03-13 11:23:00

1250

利用大語言模型做多模態(tài)任務(wù)

大型語言模型LLM（Large Language Model）具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力，但其只能處理文本數(shù)據(jù)。

2023-05-10 16:53:15

1926

如何利用LLM做多模態(tài)任務(wù)？

大型語言模型LLM（Large Language Model）具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力，但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力，但目前還未開放多模態(tài)輸入接口并且不會(huì)透露任何模型上技術(shù)細(xì)節(jié)。因此，現(xiàn)階段，如何利用LLM做一些多模態(tài)任務(wù)還是有一定的研究價(jià)值的。

2023-05-11 17:09:16

1571

多模態(tài)GPT：國內(nèi)發(fā)布一款可以在線使用的多模態(tài)聊天機(jī)器人！

基于開源多模態(tài)模型 OpenFlamingo，作者使用公開數(shù)據(jù)集創(chuàng)建了各種視覺指令數(shù)據(jù)，包括視覺問答、圖像字幕、視覺推理、文本 OCR 和視覺對話。此外，還使用僅包含語言指令數(shù)據(jù)的語言模型組件進(jìn)行了訓(xùn)練。

2023-05-12 09:55:03

1724

邱錫鵬團(tuán)隊(duì)提出具有內(nèi)生跨模態(tài)能力的SpeechGPT，為多模態(tài)LLM指明方向

大型語言模型（LLM）在各種自然語言處理任務(wù)上表現(xiàn)出驚人的能力。與此同時(shí)，多模態(tài)大型語言模型，如 GPT-4、PALM-E 和 LLaVA，已經(jīng)探索了 LLM 理解多模態(tài)信息的能力。然而，當(dāng)前

2023-05-22 14:38:06

1333

多模態(tài)大模型產(chǎn)業(yè)高峰論壇成功舉辦 ChatImg2.0、軟通天璇2.0 MaaS平臺(tái)重磅發(fā)布

5月30日，“多模態(tài)大模型產(chǎn)業(yè)高峰論壇”在軟通動(dòng)力總部舉行。近百位專家學(xué)者、行業(yè)大咖和產(chǎn)業(yè)精英齊聚一堂，共同探討多模態(tài)大模型的產(chǎn)業(yè)機(jī)遇和未來發(fā)展。論壇上，元乘象 ChatImg2.0、軟通天璇2.0 MaaS平臺(tái)重磅發(fā)布。同時(shí)，進(jìn)行了多項(xiàng)產(chǎn)業(yè)合作簽約，共同推動(dòng)多模態(tài)大模型產(chǎn)業(yè)落地。

2023-05-31 10:14:43

1258

單張消費(fèi)級顯卡微調(diào)多模態(tài)大模型

把大模型的訓(xùn)練門檻打下來！我們在單張消費(fèi)級顯卡上實(shí)現(xiàn)了多模態(tài)大模型（LaVIN-7B, LaVIN-13B）的適配和訓(xùn)練

2023-06-30 10:43:28

3981

VisCPM：邁向多語言多模態(tài)大模型時(shí)代

隨著 GPT-4 和 Stable Diffusion 等模型多模態(tài)能力的突飛猛進(jìn)，多模態(tài)大模型已經(jīng)成為大模型邁向通用人工智能（AGI）目標(biāo)的下一個(gè)前沿焦點(diǎn)。總體而言，面向圖像和文本的多模態(tài)生成能力

2023-07-10 10:05:01

1255

更強(qiáng)更通用：智源「悟道3.0」Emu多模態(tài)大模型開源，在多模態(tài)序列中「補(bǔ)全一切」

當(dāng)前學(xué)界和工業(yè)界都對多模態(tài)大模型研究熱情高漲。去年，谷歌的 Deepmind 發(fā)布了多模態(tài)視覺語言模型 Flamingo ，它使用單一視覺語言模型處理多項(xiàng)任務(wù)，在多模態(tài)大模型領(lǐng)域保持較高

2023-07-16 20:45:02

1370

耀世星輝發(fā)布多模態(tài)模型AI創(chuàng)作平臺(tái)悅靈犀

多模態(tài)模型AI創(chuàng)作平臺(tái)悅靈犀。悅靈犀是一款多模態(tài)模型的AGI創(chuàng)作平臺(tái)，依托悅享人工智能大模型"北辰星悅"智能云服務(wù)，提供企業(yè)級穩(wěn)定可靠的AI創(chuàng)作與繪畫服務(wù)。作為新一代移動(dòng)互聯(lián)網(wǎng)基礎(chǔ)設(shè)施生態(tài)服務(wù)商，耀世星輝始終圍繞 "平臺(tái)+ 內(nèi)容 + 場景+AI +產(chǎn)業(yè)" 的發(fā)展戰(zhàn)略

2023-07-18 21:17:38

1216

UniVL-DR: 多模態(tài)稠密向量檢索模型

for Multi-Modal Retrieval 背景介紹盡管當(dāng)前主流搜索引擎主要面向文本數(shù)據(jù)，然而多媒體內(nèi)容的增長一直是互聯(lián)網(wǎng)上最顯著趨勢之一，各種研究表明用戶更喜歡搜索結(jié)果中出現(xiàn)生動(dòng)的多模態(tài)內(nèi)容。因而，針對于多

2023-08-06 22:00:03

1796

2023年發(fā)布的25個(gè)開源大型語言模型總結(jié)

大型語言模型(llm)是一種人工智能(AI)，在大量文本和代碼數(shù)據(jù)集上進(jìn)行訓(xùn)練。它們可以用于各種任務(wù)，包括生成文本、翻譯語言和編寫不同類型的創(chuàng)意內(nèi)容。今年開始，人們對開源LLM越來越感興趣。這些模型

2023-08-01 00:21:27

1468

中科大&字節(jié)提出UniDoc：統(tǒng)一的面向文字場景的多模態(tài)大模型

如上圖所示，UniDoc基于預(yù)訓(xùn)練的視覺大模型及大語言模型，將文字的檢測、識(shí)別、spotting(圖中未畫出)、多模態(tài)理解等四個(gè)任務(wù)，通過多模態(tài)指令微調(diào)的方式，統(tǒng)一到一個(gè)框架中。具體地，輸入一張圖像以及一條指令（可以是檢測、識(shí)別、spotting、語義理解）

2023-08-31 15:29:19

2395

騰訊發(fā)布混元大語言模型

騰訊發(fā)布混元大語言模型騰訊全球數(shù)字生態(tài)大會(huì)上騰訊正式發(fā)布了混元大語言模型，參數(shù)規(guī)模超千億，預(yù)訓(xùn)練語料超2萬億tokens。作為騰訊自研的通用大語言模型，混元大語言模型具有中文創(chuàng)作能力、任務(wù)執(zhí)行

2023-09-07 10:23:54

1586

DreamLLM：多功能多模態(tài)大型語言模型，你的DreamLLM~

由于固有的模態(tài)缺口，如CLIP語義主要關(guān)注模態(tài)共享信息，往往忽略了可以增強(qiáng)多模態(tài)理解的模態(tài)特定知識(shí)。因此，這些研究并沒有充分認(rèn)識(shí)到多模式創(chuàng)造和理解之間潛在的學(xué)習(xí)協(xié)同作用，只顯示出創(chuàng)造力的微小提高，并且在多模式理解方面仍然存在不足。

2023-09-25 17:26:43

1532

北大&華為提出：多模態(tài)基礎(chǔ)大模型的高效微調(diào)

深度學(xué)習(xí)的大模型時(shí)代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個(gè)明顯缺點(diǎn)

2023-11-08 16:20:25

2318

探究編輯多模態(tài)大語言模型的可行性

不同于單模態(tài)模型編輯，多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單模態(tài)模型編輯入手，將單模態(tài)模型編輯拓展到多模態(tài)模型編輯，主要從以下三個(gè)方面：可靠性（Reliability），穩(wěn)定性（Locality）和泛化性（Generality）。

2023-11-09 14:53:22

1018

用語言對齊多模態(tài)信息，北大騰訊等提出LanguageBind，刷新多個(gè)榜單

目前的 VL 預(yù)訓(xùn)練方法通常僅適用于視覺和語言模態(tài)，而現(xiàn)實(shí)世界中的應(yīng)用場景往往包含更多的模態(tài)信息，如深度圖、熱圖像等。如何整合和分析不同模態(tài)的信息，并且能夠在多個(gè)模態(tài)之間建立準(zhǔn)確的語義對應(yīng)關(guān)系，成為了多模態(tài)領(lǐng)域的一個(gè)新的挑戰(zhàn)。

2023-11-23 15:46:30

1616

大模型+多模態(tài)的3種實(shí)現(xiàn)方法

我們知道，預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就，然而其明顯的劣勢是不支持其他模態(tài)（包括圖像、語音、視頻模態(tài)）的輸入和輸出，那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息，讓其變得更強(qiáng)大、更通用呢？本節(jié)將介紹“大模型+多模態(tài)”的3種實(shí)現(xiàn)方法。

2023-12-13 13:55:04

3109

從Google多模態(tài)大模型看后續(xù)大模型應(yīng)該具備哪些能力

前段時(shí)間Google推出Gemini多模態(tài)大模型，展示了不凡的對話能力和多模態(tài)能力，其表現(xiàn)究竟如何呢？

2023-12-28 11:19:52

2300

自動(dòng)駕駛和多模態(tài)大語言模型的發(fā)展歷程

多模態(tài)大語言模型(MLLM) 最近引起了廣泛的關(guān)注，其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合，通過多模態(tài)對齊使它們能夠更高效地執(zhí)行各種任務(wù)，包括圖像分類、將文本與相應(yīng)的視頻對齊以及語音檢測。

2023-12-28 11:45:21

1381

機(jī)器人基于開源的多模態(tài)語言視覺大模型

ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作模型，只用單機(jī)就可以訓(xùn)練。

2024-01-19 11:43:08

944

韓國Kakao宣布開發(fā)多模態(tài)大語言模型“蜜蜂”

韓國互聯(lián)網(wǎng)巨頭Kakao最近宣布開發(fā)了一種名為“蜜蜂”(Honeybee)的多模態(tài)大型語言模型。這種創(chuàng)新模型能夠同時(shí)理解和處理圖像和文本數(shù)據(jù)，為更豐富的交互和查詢響應(yīng)提供了可能性。

2024-01-19 16:11:20

1271

字節(jié)發(fā)布機(jī)器人領(lǐng)域首個(gè)開源視覺-語言操作大模型，激發(fā)開源VLMs更大潛能

對此，ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作模型，只用單機(jī)就可以訓(xùn)練。使用簡單、少量的微調(diào)就可以把 VLM 變成 Robotics VLM，從而適用于語言交互的機(jī)器人操作任務(wù)。

2024-01-23 16:02:17

1291

Meta發(fā)布CodeLlama70B開源大模型

Meta發(fā)布CodeLlama70B開源大模型 Meta發(fā)布了開源大模型CodeLlama70B，號稱是CodeLlama系列體量最大、性能最強(qiáng)的大模型。 Code Llama 70B 有一個(gè)很出色

2024-01-31 10:30:18

1895

大模型開源開放評測體系司南正式發(fā)布

近日，大模型開源開放評測體系司南（OpenCompass2.0）正式發(fā)布，旨在為大語言模型、多模態(tài)模型等各類模型提供一站式評測服務(wù)。OpenCompass2.0的發(fā)布，將為模型技術(shù)創(chuàng)新提供重要的技術(shù)支撐。

2024-02-05 11:28:12

1816

Sora爆紅，多模態(tài)大模型是下一發(fā)展階段

“大語言模型為 AI 產(chǎn)業(yè)帶來新的生機(jī)，然而語言模型的應(yīng)用場景有限。要全面打開生成式 AI 的想象力，還是要依托多模態(tài)大模型?！盜DC 中國研究總監(jiān)盧言霞近日表示。Sora在文生視頻領(lǐng)域真正邁出

2024-02-20 16:13:26

860

MWC2024：高通推出全新AI Hub及前沿多模態(tài)大模型

2024年世界移動(dòng)通信大會(huì)（MWC）上，高通再次展現(xiàn)其技術(shù)領(lǐng)導(dǎo)力，通過發(fā)布全新的高通AI Hub和展示前沿的多模態(tài)大模型技術(shù)，推動(dòng)了5G和AI技術(shù)的融合創(chuàng)新。

2024-02-26 16:59:50

1850

螞蟻推出20億參數(shù)多模態(tài)遙感模型SkySense

據(jù)了解，負(fù)責(zé)開發(fā)的百靈團(tuán)隊(duì)利用自身擁有的19億遙感影像數(shù)據(jù)集進(jìn)行了預(yù)訓(xùn)練，從而生成了具有20.6億參數(shù)的SkySense大模型。官方稱其為全球范圍內(nèi)參數(shù)規(guī)模最大、任務(wù)覆蓋最全且識(shí)別精度最高的多模態(tài)遙感大模型。

2024-02-28 15:53:12

1441

螞蟻集團(tuán)推出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense

近日，螞蟻集團(tuán)聯(lián)合武漢大學(xué)宣布成功研發(fā)出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense。這一創(chuàng)新模型由螞蟻集團(tuán)的AI創(chuàng)新研發(fā)部門NextEvo與武漢大學(xué)共同完成，是迄今為止國際上參數(shù)規(guī)模最大、覆蓋任務(wù)最全、識(shí)別精度最高的多模態(tài)遙感大模型。

2024-03-04 11:22:23

1538

蘋果發(fā)布300億參數(shù)MM1多模態(tài)大模型

近日，科技巨頭蘋果公司在一篇由多位專家共同撰寫的論文中，正式公布了其最新的多模態(tài)大模型研究成果——MM1。這款具有高達(dá)300億參數(shù)的多模態(tài)模型系列，由密集模型和混合專家（MoE）變體組成，標(biāo)志著蘋果在人工智能領(lǐng)域的又一重大突破。

2024-03-19 11:19:30

1467

蘋果發(fā)布研究論文：揭示Ferret-UI AI系統(tǒng)，破解MLLMs移動(dòng)應(yīng)用理解難題

目前圍繞人工智能（AI）技術(shù)，出現(xiàn)了如ChatGPT這樣的大語言模型（LLMs），這些模型擅長處理文本資料。然而，對于像圖片、視頻和聲音等多媒體類型的非文本n內(nèi)容，就需要擴(kuò)大AI模型的適用范圍，相應(yīng)地，多模態(tài)大語言模型（MLLMs）也就應(yīng)運(yùn)而生。

2024-04-10 10:17:13

839

AI機(jī)器人迎來多模態(tài)模型

配備 GR00T 模型的機(jī)器人由于需要“吸收消化”外界的多模態(tài)信息，還要快速完成理解、決策、行動(dòng)等一系列動(dòng)作，因此對于算力的需求是巨量的。

2024-04-12 10:39:46

628

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

李未可科技多模態(tài) AI 大模型正式發(fā)布，積極推進(jìn) AI 在終端的場景應(yīng)用 ? 4月18日，2024中國生成式AI大會(huì)上李未可科技正式發(fā)布為眼鏡等未來終端定向優(yōu)化等自研WAKE-AI多模態(tài)大模型，具備

2024-04-18 17:01:29

1092

商湯科技發(fā)布5.0多模態(tài)大模型，綜合能力全面對標(biāo)GPT-4 Turbo

商湯科技發(fā)布5.0多模態(tài)大模型，綜合能力全面對標(biāo)GPT-4 Turbo 4月23日，商湯科技董事長兼CEO徐立在2024商湯技術(shù)交流日上發(fā)布了行業(yè)首個(gè)云、端、邊全棧大模型產(chǎn)品矩陣，能夠滿足不同規(guī)模

2024-04-24 16:49:55

1827

商湯科技聯(lián)合海通證券發(fā)布業(yè)內(nèi)首個(gè)面向金融行業(yè)的多模態(tài)全棧式大模型

4月23日，商湯科技正式推出“日日新SenseNova 5.0”大模型體系，并與海通證券聯(lián)合發(fā)布業(yè)內(nèi)首個(gè)面向金融行業(yè)的多模態(tài)全棧式大模型。

2024-04-26 09:48:21

1064

人大系初創(chuàng)公司智子引擎發(fā)布全新多模態(tài)大模型Awaker 1.0

人大系初創(chuàng)公司智子引擎近日震撼發(fā)布了新一代多模態(tài)大模型Awaker 1.0，這一里程碑式的成果標(biāo)志著公司在通用人工智能（AGI）領(lǐng)域取得了重要突破。與前代ChatImg序列模型相比，Awaker 1.0憑借其獨(dú)特的MOE架構(gòu)和業(yè)界領(lǐng)先的自主更新能力，成功躋身為首個(gè)實(shí)現(xiàn)“真正”自主更新的多模態(tài)大模型。

2024-05-06 09:59:37

1106

商湯科技與海通證券攜手發(fā)布金融行業(yè)首個(gè)多模態(tài)全棧式大模型

商湯科技與海通證券聯(lián)合研發(fā)并發(fā)布了金融行業(yè)內(nèi)首個(gè)面向多業(yè)務(wù)場景的多模態(tài)全棧式大模型。雙方計(jì)劃將這一先進(jìn)技術(shù)應(yīng)用于智能問答、合規(guī)風(fēng)控、代碼輔助以及辦公助手等關(guān)鍵業(yè)務(wù)領(lǐng)域，以實(shí)現(xiàn)大模型技術(shù)的全面落地。

2024-05-06 10:16:48

868

商湯科技聯(lián)合海通證券發(fā)布多模態(tài)全棧式大模型

商湯科技近日隆重推出了其最新研發(fā)的“日日新SenseNova 5.0”大模型體系，并與海通證券攜手，共同發(fā)布了業(yè)內(nèi)首個(gè)專為金融行業(yè)量身打造的多模態(tài)全棧式大模型。此次強(qiáng)強(qiáng)聯(lián)合旨在加速大模型技術(shù)在智能

2024-05-07 14:15:29

869

商湯科技發(fā)布“商量”粵語版大模型

商湯科技近日發(fā)布了針對粵語用戶量身定制的商量語言大模型和商量多模態(tài)大模型。這兩款模型即日起向企業(yè)用戶開放API接口，同時(shí)Web版和App版也將很快向粵語區(qū)用戶免費(fèi)推出，以滿足廣大用戶的多樣化需求。

2024-05-31 10:52:01

1965

智譜AI發(fā)布全新多模態(tài)開源模型GLM-4-9B

近日，智譜AI在人工智能領(lǐng)域取得重大突破，成功推出全新開源模型GLM-4-9B。這款模型以其卓越的多模態(tài)能力，再次刷新了業(yè)界對于大型語言模型的認(rèn)識(shí)。

2024-06-07 09:17:16

1488

基于AX650N芯片部署MiniCPM-V 2.0高效端側(cè)多模態(tài)大模型

今年4月份，面壁智能&清華大學(xué)自然語言處理實(shí)驗(yàn)室推出MiniCPM系列的最新多模態(tài)版本MiniCPM-V 2.0。該模型基于MiniCPM 2.4B和SigLip-400M構(gòu)建，共擁有

2024-07-15 09:34:48

2226

Meta不會(huì)在歐盟提供新的多模態(tài)AI模型

科技巨頭Meta近日宣布了一項(xiàng)重要決策，其即將推出的創(chuàng)新多模態(tài)Llama模型將不會(huì)在歐盟地區(qū)發(fā)布。這一決定背后，是Meta對歐洲復(fù)雜且不可預(yù)測的監(jiān)管環(huán)境的深刻考量，也為Meta與歐盟監(jiān)管機(jī)構(gòu)之間的緊張關(guān)系再添一筆。

2024-07-19 16:04:57

1071

依圖多模態(tài)大模型伙伴CTO精研班圓滿舉辦

大模型在不同行業(yè)領(lǐng)域的應(yīng)用前景;7月19日， “依圖科技多模態(tài)大模型伙伴CTO精研班”在杭州圓滿舉辦，讓更多的伙伴們深度體驗(yàn)了依圖多模態(tài)大模型產(chǎn)品，全面了解了依圖多模態(tài)大模型技術(shù)及其場景化解決方案。

2024-07-23 15:16:48

892

云知聲推出山海多模態(tài)大模型

在人工智能技術(shù)的浩瀚星海中，多模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創(chuàng)新之姿，推出了其匠心獨(dú)運(yùn)的山海多模態(tài)大模型，正式宣告“Her時(shí)代”的帷幕緩緩拉開。

2024-08-27 15:20:21

844

Meta發(fā)布多模態(tài)LLAMA 3.2人工智能模型

Meta Platforms近日宣布了一項(xiàng)重要技術(shù)突破，成功推出了多模態(tài)LLAMA 3.2人工智能模型。這一創(chuàng)新模型不僅能夠深度解析文本信息，還實(shí)現(xiàn)了對圖像內(nèi)容的精準(zhǔn)理解，標(biāo)志著Meta在AI多模態(tài)處理領(lǐng)域邁出了堅(jiān)實(shí)的一步。

2024-09-27 11:44:14

982

云知聲山海多模態(tài)大模型UniGPT-mMed登頂MMMU測評榜首

近日，多模態(tài)人工智能模型基準(zhǔn)評測集MMMU更新榜單，云知聲山海多模態(tài)大模型UniGPT-mMed以通用能力、醫(yī)療專業(yè)能力雙雙排名第一的優(yōu)異成績登頂榜首，力壓GPT-4V，充分彰顯其硬核實(shí)力。

2024-10-12 14:09:10

1077

蘋果發(fā)布300億參數(shù)多模態(tài)AI大模型MM1.5

蘋果近日推出了全新的多模態(tài)AI大模型MM1.5，該模型擁有高達(dá)300億的參數(shù)規(guī)模，是在前代MM1架構(gòu)的基礎(chǔ)上進(jìn)一步發(fā)展而來的。

2024-10-14 15:50:14

910

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進(jìn)行融合，通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實(shí)現(xiàn)更加智能化的信息處理。簡單來說，多模態(tài)大模型可以可以理解多種不同模態(tài)的輸入數(shù)據(jù)，并輸出相應(yīng)反饋結(jié)果，例如圖像理解，語音識(shí)別，視覺問題等。

2024-10-18 09:39:38

2713

搭建開源大語言模型服務(wù)的方法

本文我們將總結(jié)5種搭建開源大語言模型服務(wù)的方法，每種都附帶詳細(xì)的操作步驟，以及各自的優(yōu)缺點(diǎn)。

2024-10-29 09:17:09

1225

一文理解多模態(tài)大語言模型——下

/understanding-multimodal-llms ? 《一文理解多模態(tài)大語言模型 - 上》介紹了什么是多模態(tài)大語言模型，以及構(gòu)建多模態(tài) LLM 有兩種主要方式之一：統(tǒng)一嵌入解碼器架構(gòu)(Unified Embedding Decoder Architecture)。本

2024-12-03 15:18:04

1110

亥步多模態(tài)醫(yī)療大模型發(fā)布：人工智能引領(lǐng)醫(yī)療新紀(jì)元

當(dāng)下，人工智能（AI）正以不可阻擋之勢滲透到各行各業(yè)，包括醫(yī)療行業(yè)。12月14日，2024中國醫(yī)學(xué)人工智能大會(huì)的召開。會(huì)上，一款名為“亥步”的多模態(tài)醫(yī)療大模型的正式發(fā)布。

2024-12-19 17:56:05

845

商湯日日新多模態(tài)大模型權(quán)威評測第一

剛剛，商湯科技日日新SenseNova多模態(tài)大模型，在權(quán)威綜合評測權(quán)威平臺(tái)OpenCompass的多模態(tài)評測中取得榜單第一。

2024-12-20 10:39:31

1573

阿里云發(fā)布開源多模態(tài)推理模型QVQ-72B-Preview

近日，阿里云宣布了一項(xiàng)重大技術(shù)突破，正式發(fā)布了業(yè)界首個(gè)開源多模態(tài)推理模型——QVQ-72B-Preview。這一模型的問世，標(biāo)志著阿里云在AI技術(shù)領(lǐng)域的又一次重要飛躍

2024-12-27 10:28:13

902

字節(jié)跳動(dòng)發(fā)布OmniHuman 多模態(tài)框架

2 月 6 日消息，字節(jié)跳動(dòng)近日發(fā)布了一項(xiàng)重大成果 ——OmniHuman 多模態(tài)框架，其優(yōu)勢在于其強(qiáng)大的視頻生成能力。用戶只需提供一張任意尺寸和人物占比的單張圖片，再結(jié)合一段輸入音頻，就能生成

2025-02-07 17:50:41

1263

一文詳解視覺語言模型

視覺語言模型（VLM）是一種多模態(tài)、生成式 AI 模型，能夠理解和處理視頻、圖像和文本。

2025-02-12 11:13:18

3479

?？低?b class="flag-6" style="color: red">發(fā)布多模態(tài)大模型文搜存儲(chǔ)系列產(chǎn)品

多模態(tài)大模型為安防行業(yè)帶來重大技術(shù)革新，基于觀瀾大模型技術(shù)體系，?？低晫⒋髤?shù)量、大樣本量的圖文多模態(tài)大模型與嵌入式智能硬件深度融合，發(fā)布多模態(tài)大模型文搜存儲(chǔ)系列產(chǎn)品——文搜NVR、文搜CVR。

2025-02-18 10:33:56

1125

階躍星辰開源多模態(tài)模型，天數(shù)智芯迅速適配

近日，頭部大模型創(chuàng)業(yè)公司階躍星辰在行業(yè)內(nèi)引起了軒然大波，宣布正式開源兩款Step系列多模態(tài)模型——Step-Video-T2V視頻生成模型和Step-Audio語音交互模型。這一消息迅速引發(fā)了行業(yè)

2025-02-19 14:30:21

900

?VLM（視覺語言模型）?詳細(xì)解析

視覺語言模型（Visual Language Model, VLM）是一種結(jié)合視覺（圖像/視頻）和語言（文本）處理能力的多模態(tài)人工智能模型，能夠理解并生成與視覺內(nèi)容相關(guān)的自然語言。以下是關(guān)于VLM

2025-03-17 15:32:40

7974

商湯“日日新”融合大模型登頂大語言與多模態(tài)雙榜單

據(jù)弗若斯特沙利文(Frost & Sullivan, 簡稱“沙利文”)聯(lián)合頭豹研究院發(fā)布的《2025年中國大模型年度評測》結(jié)果顯示：在語言和多模態(tài)核心能力測評中，商湯“日日新”融合大模型斬獲國內(nèi)第一梯隊(duì)成績。

2025-03-18 10:35:04

1028

百度發(fā)布文心大模型4.5和文心大模型X1

文心大模型4.5是百度自主研發(fā)的新一代原生多模態(tài)基礎(chǔ)大模型，通過多個(gè)模態(tài)聯(lián)合建模實(shí)現(xiàn)協(xié)同優(yōu)化，多模態(tài)理解能力優(yōu)秀;具備更精進(jìn)的語言能力，理解、生成、邏輯、記憶能力全面提升，去幻覺、邏輯推理、代碼能力顯著提升。

2025-03-18 16:29:31

748

移遠(yuǎn)通信智能模組全面接入多模態(tài)AI大模型，重塑智能交互新體驗(yàn)

智能模組產(chǎn)品已全面接入火山引擎豆包VLM（視覺語言）多模態(tài)AI大模型。這一突破性進(jìn)展表明，搭載移遠(yuǎn)任意智能模組的終端設(shè)備，均可無縫融合多模態(tài)AI大模型的強(qiáng)大功能，為

2025-03-20 19:03:54

707

移遠(yuǎn)通信智能模組全面接入多模態(tài)AI大模型，重塑智能交互新體驗(yàn)

全系智能模組產(chǎn)品已全面接入火山引擎豆包VLM（視覺語言）多模態(tài)AI大模型。這一突破性進(jìn)展表明，搭載移遠(yuǎn)任意智能模組的終端設(shè)備，均可無縫融合多模態(tài)AI大模型的強(qiáng)大功能，為用戶帶來更智能、便捷、人性化的產(chǎn)品體驗(yàn)。 ? ? ? 一鍵接入

2025-03-21 14:12:14

457

?？低?b class="flag-6" style="color: red">發(fā)布多模態(tài)大模型AI融合巡檢超腦

基于?？涤^瀾大模型技術(shù)體系，?？低曂瞥鲂乱淮?b class="flag-6" style="color: red">多模態(tài)大模型AI融合巡檢超腦，全面升級人、車、行為、事件等算法，為行業(yè)帶來全新的多模態(tài)大模型巡檢體驗(yàn)，以更準(zhǔn)確、更高效的智慧巡檢，為各行各業(yè)的安全運(yùn)行和發(fā)展保駕護(hù)航。

2025-04-17 17:12:21

1438

基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL多模態(tài)理解模型

多模態(tài)理解模型是讓AI像人類一樣，通過整合多維度信息（如視覺、語言、聽覺等），理解數(shù)據(jù)背后的語義、情感、邏輯或場景，從而完成推理、決策等任務(wù)。

2025-04-18 09:30:31

2803

商湯日日新SenseNova融合模態(tài)大模型國內(nèi)首家獲得最高評級的大模型

近日，中國信息通信研究院（以下簡稱“中國信通院”）完成可信AI多模態(tài)大模型首輪評估。商湯日日新SenseNova融合模態(tài)大模型在所有模型中，獲得當(dāng)前最高評級——4+級，并成為國內(nèi)首家獲得最高評級

2025-06-11 11:57:47

1248

潤和軟件榮登2025多模態(tài)AI大模型排行榜單

近日，《互聯(lián)網(wǎng)周刊》聯(lián)合eNET研究院、德本咨詢、中國社會(huì)科學(xué)院信息化研究中心共同發(fā)布了“2025多模態(tài)AI大模型”榜單。江蘇潤和軟件股份有限公司（以下簡稱“潤和軟件”）自主研發(fā)的“潤知”知識(shí)處理

2025-06-25 14:37:04

1494

飛凌嵌入式RK3576多模態(tài)大模型圖像理解助手，讓嵌入式設(shè)備“看懂”世界

（LLM）+視覺語言模型（VLM）多模態(tài)架構(gòu)，推出多模態(tài)大模型圖像理解助手，為嵌入式設(shè)備打造 “智能視覺中樞”，讓終端設(shè)備能夠真正 “看懂” 復(fù)雜的世界。

2025-07-25 11:09:06

1534

“端云＋多模態(tài)”新范式：《移遠(yuǎn)通信AI大模型技術(shù)方案白皮書》正式發(fā)布

7月28日，移遠(yuǎn)通信聯(lián)合智次方研究院正式發(fā)布《AI大模型技術(shù)方案白皮書》（以下簡稱“白皮書”）。這份白皮書系統(tǒng)梳理了AI大模型的技術(shù)特點(diǎn)、產(chǎn)業(yè)發(fā)展態(tài)勢與多元應(yīng)用場景，以及移遠(yuǎn)通信“端云+多模態(tài)”AI

2025-07-28 13:08:10

1062

淺析多模態(tài)標(biāo)注對大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例

?在人工智能邁向AGI通用智能的關(guān)鍵道路上，大模型正從單一的文本理解者，演進(jìn)為能同時(shí)看、聽、讀、想的“多面手”。驅(qū)動(dòng)這一進(jìn)化的核心燃料，正是高質(zhì)量的多模態(tài)數(shù)據(jù)，而將原始數(shù)據(jù)轉(zhuǎn)化為“機(jī)器可讀教材

2025-09-05 13:49:27

1267

商湯日日新V6.5多模態(tài)大模型登頂全球權(quán)威榜單

根據(jù)權(quán)威評測平臺(tái)OpenCompass多模態(tài)大模型學(xué)術(shù)榜單（Multi-modal Academic Leaderboard）最新數(shù)據(jù)顯示，商湯「日日新 V6.5」（SenseNova-V6.5

2025-09-10 09:55:14

599

中科曙光助力紫東太初4.0大模型重磅發(fā)布

近日，全球首個(gè)“深度推理+多模態(tài)”大模型——“紫東太初”4.0在2025東湖國際人工智能高峰論壇上正式發(fā)布。中科曙光作為核心生態(tài)伙伴，依托中國首個(gè)AI計(jì)算開放架構(gòu)，為“紫東太初”4.0提供圖文多模態(tài)模型訓(xùn)推、大語言模型訓(xùn)推等全鏈路智能算力支持。

2025-09-24 09:33:56

526

亞馬遜云科技上線Amazon Nova多模態(tài)嵌入模型

Embeddings多模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線，這是一款專為Agentic RAG與語義搜索應(yīng)用打造的頂尖多模態(tài)嵌入模型。該模型是首個(gè)通過單一模型支持文本、文檔、圖像、視頻與音頻

2025-10-29 17:15:16

174

格靈深瞳多模態(tài)大模型Glint-ME讓圖文互搜更精準(zhǔn)

在電商、安防等場景下，圖文互搜應(yīng)用廣泛。隨著以CLIP為代表的多模態(tài)表征方法相繼提出，過去單一模態(tài)搜索(文搜文、圖搜圖)被突破，模型可以同時(shí)理解文本、圖像、音頻乃至視頻，實(shí)現(xiàn)跨模態(tài)檢索。

2025-11-02 15:56:39

1462

商湯科技正式發(fā)布并開源全新多模態(tài)模型架構(gòu)NEO

商湯科技正式發(fā)布并開源了與南洋理工大學(xué)S-Lab合作研發(fā)的全新多模態(tài)模型架構(gòu) —— NEO，為日日新SenseNova 多模態(tài)模型奠定了新一代架構(gòu)的基石。

2025-12-08 11:19:10

861

沐曦股份曦云C系列GPU Day 0適配智譜GLM-4.6V多模態(tài)大模型

12月8日智譜AI發(fā)布并開源 GLM-4.6V 系列多模態(tài)大模型，沐曦股份曦云C系列GPU完成Day 0適配。

2025-12-17 14:28:41

381

多模態(tài)大模型驅(qū)動(dòng)的復(fù)雜環(huán)境精準(zhǔn)導(dǎo)航避障系統(tǒng)平臺(tái)的應(yīng)用

多模態(tài)大模型驅(qū)動(dòng)的復(fù)雜環(huán)境精準(zhǔn)導(dǎo)航避障系統(tǒng)平臺(tái)的應(yīng)用

2025-12-22 13:15:45

140

多模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng)的應(yīng)用與未來發(fā)展

? ? 多模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng) ? ?北京華盛恒輝多模態(tài)感知大模型驅(qū)動(dòng)的密閉空間自主勘探系統(tǒng)，是融合多模態(tài)大模型與自主機(jī)器人技術(shù)的創(chuàng)新型方案。該系統(tǒng)整合視覺、激光雷達(dá)、聲學(xué)等多源

2025-12-29 11:27:56

120

格靈深瞳多模態(tài)大模型榮登InfoQ 2025中國技術(shù)力量年度榜單

靈感實(shí)驗(yàn)室聯(lián)合LLaVA社區(qū)發(fā)布的多模態(tài)大模型LLaVA-OneVision-1.5，實(shí)現(xiàn)了訓(xùn)練數(shù)據(jù)、代碼和模型權(quán)重的全鏈路開源，在多項(xiàng)公開多模態(tài)基準(zhǔn)上表現(xiàn)優(yōu)于同等規(guī)模的Qwen2.5-VL。

2026-01-05 10:05:04

212

商湯科技日日新V6.5榮獲2025年多模態(tài)大模型全國第一

近日，權(quán)威大模型評測基準(zhǔn) SuperCLUE 發(fā)布《中文多模態(tài)視覺語言模型測評基準(zhǔn)12月報(bào)告》，商湯日日新V6.5（SenseNova V6.5 Pro）以75.35的總分位列國內(nèi)第一，斬獲金牌，并在視覺推理維度上拿下國內(nèi)最高分。

2026-01-06 14:44:29

156

已全部加載完成

91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲日韩欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

搜索歷史

蘋果發(fā)布開源多模態(tài)大語言模型Ferret

評論