科技媒體 VentureBeat?報(bào)道稱,蘋果公司在 2023 年 10 月低調(diào)發(fā)布了一款名為 Ferret 的開源多模態(tài)大語言模型,這是蘋果與哥倫比亞大學(xué)研究人員的合作成果。當(dāng)時(shí)發(fā)布的內(nèi)容包括了代碼和權(quán)重(僅限研究用途,不包含商業(yè)許可),但并未引起太多關(guān)注。
隨著近期?Mistral 的開源 MoE 模型成為焦點(diǎn),以及谷歌的 Gemini 模型即將在 Pixel Pro 上亮相,未來還將進(jìn)入 Android 系統(tǒng),越來越多人開始關(guān)注本地 LLMs 為小型設(shè)備提供支持的潛力。
近日,專注于醫(yī)療領(lǐng)域開源 AI 的歐洲非營利組織負(fù)責(zé)人 Bart de Witte 在 X 平臺(tái)上分享了他的驚訝:“我之前竟然沒發(fā)現(xiàn)這個(gè)。” 他表示,“蘋果在 10 月份加入了開源 AI 圈子。Ferret 的推出展現(xiàn)了蘋果對影響深遠(yuǎn)的 AI 研究的承諾,鞏固了它在多模態(tài) AI 領(lǐng)域的領(lǐng)先地位…… 另外,我很期待有一天 Local Large Language Models (LLLMs) 能作為重新設(shè)計(jì)的 iOS 的一部分,在我的 iPhone 上運(yùn)行?!?/p>
蘋果公司 AI/ML 研究科學(xué)家 Zhe Gan 在 10 月份發(fā)布的一條推文中解釋了 Ferret 的用途 —— 一個(gè)可以在圖像中 "以任何粒度對任何地方的任何東西進(jìn)行參照和定位" 的系統(tǒng)。它還可以通過使用圖像中任何形狀的區(qū)域來做到這一點(diǎn)。
簡單地說,該模型可以分析圖像上繪制的區(qū)域,確定其中對用戶查詢有用的元素,并將其識(shí)別出來,在檢測到的元素周圍繪制一個(gè)邊界框。然后,它就可以將識(shí)別出的元素用作查詢的一部分,并以典型的方式作出響應(yīng)。
例如,高亮顯示圖像中的動(dòng)物圖片并詢問 LLM 這是什么動(dòng)物,LLM 可以確定該動(dòng)物的種類,并確定用戶所指的是動(dòng)物群中的某只動(dòng)物。然后,它還可以利用圖像中檢測到的其他項(xiàng)目的上下文,提供進(jìn)一步的回復(fù)。

GitHub:https://github.com/apple/ml-ferret
論文:https://arxiv.org/abs/2310.07704
Ferret 擁有 (7B, 13B) 兩個(gè)版本,為了增強(qiáng) Ferret 模型的能力蘋果特別收集了一個(gè) GRIT 數(shù)據(jù)集。它包含了 1.1M 個(gè)樣本,這些樣本包含了豐富的層次空間知識(shí)。
盡管蘋果以往以其產(chǎn)品和技術(shù)的封閉性著稱,但現(xiàn)在它通過發(fā)布開源 LLM 模型,正逐漸改變這一形象,展現(xiàn)出其在 AI 領(lǐng)域的活躍參與和創(chuàng)新精神。這不僅對蘋果自身,也對整個(gè) AI 領(lǐng)域來說,都是一個(gè)值得關(guān)注的重要發(fā)展方向。
VentureBeat 撰稿人 Ben Dickson 寫道:“2023 年最讓你意外的人工智能進(jìn)展是什么?對我來說,是蘋果發(fā)布了開源 LLMs(雖然是非商業(yè)許可)?!?他指出,蘋果一貫以來是封閉系統(tǒng)、圍墻花園開發(fā)、保密、嚴(yán)格的保密協(xié)議、發(fā)布極少細(xì)節(jié)、并為其產(chǎn)品申請每一項(xiàng)小的專利的代表。
審核編輯:黃飛
?
電子發(fā)燒友App



















































評論