91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟視覺語言模型有顯著超越人類的表現(xiàn)

如意 ? 來源:cnBeta.COM ? 作者:cnBeta.COM ? 2021-01-19 14:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

視覺語言(Vision-Language,VL)系統(tǒng)允許為文本查詢搜索相關(guān)圖像(或反之),并使用自然語言描述圖像的內(nèi)容。一般來說,一個VL系統(tǒng)使用一個圖像編碼模塊和一個視覺語言融合模塊。微軟研究部門最近開發(fā)了一種新的圖像編碼對象屬性檢測模型,稱為VinVL(Visual features in Vision-Language),有著顯著超越人類的表現(xiàn)。

當(dāng)VinVL與OSCAR和vivo等VL融合模塊結(jié)合后,微軟新的VL系統(tǒng)能夠在競爭最激烈的VL排行榜上取得第一,包括視覺問題回答(VQA)、微軟COCO圖像字幕和新穎對象字幕(nocaps)。微軟研究團(tuán)隊(duì)還強(qiáng)調(diào),在nocaps排行榜上,這種新的VL系統(tǒng)在CIDEr(92.5對85.3)方面的表現(xiàn)明顯超過了人類的同形式表現(xiàn)。

微軟解釋道:

VinVL在改善VL理解的圖像編碼方面表現(xiàn)出了巨大的潛力。我們新開發(fā)的圖像編碼模型可以使廣泛的VL任務(wù)受益,正如本文中的例子所說明的那樣。盡管我們獲得了很有希望的結(jié)果,比如在圖像字幕基準(zhǔn)上超越了人類的表現(xiàn),但我們的模型絕不是達(dá)到VL理解的人類水平的智能。未來有趣的工作方向包括 (1)利用海量圖像分類/標(biāo)記數(shù)據(jù),進(jìn)一步擴(kuò)大對象屬性檢測預(yù)訓(xùn)練的規(guī)模;(2)將跨模態(tài)VL表征學(xué)習(xí)的方法擴(kuò)展到構(gòu)建感知基礎(chǔ)的語言模型,可以像人類一樣將視覺概念建立在自然語言中,反之亦然。

微軟VinVL正在被整合到Azure認(rèn)知服務(wù)中,Azure認(rèn)知服務(wù)為微軟的各種服務(wù)提供支撐,如Seeing AI、Office和LinkedIn中的圖像字幕等。微軟研究團(tuán)隊(duì)還將向公眾發(fā)布VinVL模型和源代碼。
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6741

    瀏覽量

    107874
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42336
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3755

    瀏覽量

    52118
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁、文章等)進(jìn)行預(yù)訓(xùn)練,學(xué)會
    的頭像 發(fā)表于 02-02 16:36 ?924次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    “明牌”對局,自變量開源模型超越pi0

    “明牌”對局,自變量開源模型超越pi0
    的頭像 發(fā)表于 01-10 12:00 ?5599次閱讀
    “明牌”對局,自變量開源<b class='flag-5'>模型</b><b class='flag-5'>超越</b>pi0

    VLA與世界模型什么不同?

    Language Action,VLA),另一些則致力于構(gòu)建并應(yīng)用世界模型(World Model)。這兩種路徑什么不同? 什么是VLA,什么是世界模型 先說說VLA。VLA是英文Vision-Language-Action
    的頭像 發(fā)表于 12-17 09:13 ?638次閱讀
    VLA與世界<b class='flag-5'>模型</b><b class='flag-5'>有</b>什么不同?

    模型中常提的快慢思考會對自動駕駛產(chǎn)生什么影響?

    提出的“快慢系統(tǒng)”理論啟發(fā),旨在讓自動駕駛系統(tǒng)模擬人類的思考與決策過程。理想汽車結(jié)合端到端與VLM模型,推出了業(yè)界首個在車端部署的雙系統(tǒng)方案,并成功將VLM視覺語言
    的頭像 發(fā)表于 11-22 10:59 ?2508次閱讀
    大<b class='flag-5'>模型</b>中常提的快慢思考會對自動駕駛產(chǎn)生什么影響?

    VLA和世界模型,誰才是自動駕駛的最優(yōu)解?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)發(fā)展,其實(shí)現(xiàn)路徑也呈現(xiàn)出兩種趨勢,一邊是以理想、小鵬、小米為代表的VLA(視覺語言—行動)模型路線;另一邊則是以華為、蔚來為主導(dǎo)的世界模型
    的頭像 發(fā)表于 11-05 08:55 ?792次閱讀
    VLA和世界<b class='flag-5'>模型</b>,誰才是自動駕駛的最優(yōu)解?

    iTOF技術(shù),多樣化的3D視覺應(yīng)用

    視覺傳感器對于機(jī)器信息獲取至關(guān)重要,正在從二維(2D)發(fā)展到三維(3D),在某些方面模仿并超越人類視覺能力,從而推動創(chuàng)新應(yīng)用。3D 視覺
    發(fā)表于 09-05 07:24

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    /AR頭顯和3D視覺技術(shù)的顯著進(jìn)步,當(dāng)前只需極低成本即可采集大量帶有精確人手關(guān)節(jié)標(biāo)注的第一人稱人類操作視頻。
    的頭像 發(fā)表于 08-21 09:56 ?1105次閱讀
    基于大規(guī)模<b class='flag-5'>人類</b>操作數(shù)據(jù)預(yù)訓(xùn)練的VLA<b class='flag-5'>模型</b>H-RDT

    【HZ-T536開發(fā)板免費(fèi)體驗(yàn)】3 - Cangjie Magic調(diào)用視覺語言模型(VLM)真香,是不是可以沒有YOLO和OCR了?

    和管理 Agent 的專用語言。它允許開發(fā)人員通過結(jié)構(gòu)化的系統(tǒng)提示詞、工具和各類協(xié)作策略來增強(qiáng) Agent 的功能。 今天我們就嘗試在開發(fā)板上利用質(zhì)譜AI的視覺語言模型(VLM)
    發(fā)表于 08-01 22:15

    【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】3、開源大語言模型部署

    的系統(tǒng)和芯片架構(gòu)。 3、拉取/運(yùn)行大語言模型 ollama的使用方法和docker很像。 返回到ollama的編譯路徑,找到ollama可執(zhí)行文件 執(zhí)行 ./ollama run qwen3:0.6b
    發(fā)表于 07-19 15:45

    【教程】使用NS1串口服務(wù)器對接智普清言免費(fèi)AI大語言模型

    許多功能,本文將介紹如何使用NS1模塊的HTTP功能對接智普清言免費(fèi)大語言模型(glm-4-flash-250414)的API。NS1的功能框架如下:NS1的H
    的頭像 發(fā)表于 06-12 19:33 ?800次閱讀
    【教程】使用NS1串口服務(wù)器對接智普清言免費(fèi)AI大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    使用瑞薩MPU芯片RZ/V2H部署DeepSeek-R1模型

    DeepSeek大語言模型(LLM)可用于理解人類語言的交互方式,思考,并給出合適的回應(yīng)。
    的頭像 發(fā)表于 05-15 14:40 ?1018次閱讀
    使用瑞薩MPU芯片RZ/V2H部署DeepSeek-R1<b class='flag-5'>模型</b>

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語言模型

    在當(dāng)今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1319次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL多模態(tài)理解模型

    多模態(tài)理解模型是讓AI像人類一樣,通過整合多維度信息(如視覺、語言、聽覺等),理解數(shù)據(jù)背后的語義、情感、邏輯或場景,從而完成推理、決策等任務(wù)。
    的頭像 發(fā)表于 04-18 09:30 ?3034次閱讀
    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL多模態(tài)理解<b class='flag-5'>模型</b>

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能
    的頭像 發(fā)表于 03-17 15:32 ?8881次閱讀
    ?VLM(<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    ??低暟l(fā)布視覺模型周界攝像機(jī)

    上周,我們發(fā)布了視覺模型系列攝像機(jī),其中有大模型加持的周界系列攝像機(jī),誤報率下降90%以上。
    的頭像 發(fā)表于 03-11 18:12 ?1818次閱讀