91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

格靈深瞳視覺(jué)基礎(chǔ)模型Glint-MVT升級(jí)

格靈深瞳 ? 來(lái)源:格靈深瞳 ? 2025-07-31 11:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,格靈深瞳靈感實(shí)驗(yàn)室和華為倫敦研究所發(fā)布最新版視覺(jué)基礎(chǔ)模型——Glint-MVT v1.5(RICE)。

格靈深瞳此前有6篇論文亮相國(guó)際頂級(jí)學(xué)術(shù)舞臺(tái)ICCV 2025,涵蓋視覺(jué)基座模型、人臉3D重建等領(lǐng)域,其中最新版MVT的相關(guān)論文不僅入選,還被接收為Highlight論文。

先看升級(jí)后的核心要點(diǎn):

1技術(shù)創(chuàng)新性方面:新版MVT提出了一種區(qū)域局部感知增強(qiáng)的視覺(jué)特征學(xué)習(xí)方法。

2下游任務(wù)表現(xiàn)方面:在OCR和分割等任務(wù)上效果優(yōu)于v1.1版和AIMv2、SigLIP2。

3此外,團(tuán)隊(duì)還構(gòu)建了共4億圖像、20億局部區(qū)域、4億文字區(qū)域的預(yù)訓(xùn)練數(shù)據(jù)集。

概括來(lái)說(shuō),MVT v1.5的最大升級(jí)在于:強(qiáng)化了模型對(duì)圖像細(xì)節(jié)和文字特征的捕捉和表達(dá)能力,在精細(xì)任務(wù)上表現(xiàn)更優(yōu)。

以往的視覺(jué)-文本對(duì)比學(xué)習(xí)模型,如OpenAI的CLIP模型和谷歌的改進(jìn)版SigLIP模型等,更側(cè)重全局圖像特征(對(duì)圖像內(nèi)容的概括性描述),核心的訓(xùn)練邏輯是 “全局對(duì)齊”,讓模型理解圖像的整體語(yǔ)義,并和文本的整體語(yǔ)義相對(duì)應(yīng)。

但這類模型對(duì)圖像局部區(qū)域的細(xì)節(jié)信息表達(dá)較少,難以滿足需要精細(xì)處理圖像的任務(wù),例如OCR和圖像分割等。

針對(duì)這一問(wèn)題,新版MVT提出一種區(qū)域局部感知增強(qiáng)的視覺(jué)特征學(xué)習(xí)方法。

在技術(shù)方案上,格靈深瞳團(tuán)隊(duì)利用專家分割模型和OCR模型,對(duì)無(wú)標(biāo)注數(shù)據(jù)進(jìn)行處理,產(chǎn)生十億級(jí)局部區(qū)域,并通過(guò)聚類產(chǎn)生偽標(biāo)簽。也就是說(shuō),通過(guò)分割-OCR-聚類的技術(shù)流程,團(tuán)隊(duì)將無(wú)標(biāo)注數(shù)據(jù)轉(zhuǎn)化為帶偽標(biāo)簽的大規(guī)模訓(xùn)練集,節(jié)約了標(biāo)注成本,提升了自主學(xué)習(xí)能力。

25a2de24-6957-11f0-a6aa-92fbcf53809c.png

同時(shí),團(tuán)隊(duì)設(shè)計(jì)了區(qū)域Transformer層,用來(lái)提取局部區(qū)域特征和支持?jǐn)?shù)據(jù)擴(kuò)展的區(qū)域鑒別損失,使得團(tuán)隊(duì)能在億級(jí)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,突破了在大規(guī)模樣本上進(jìn)行高效訓(xùn)練的技術(shù)挑戰(zhàn)。

基于以上技術(shù)攻關(guān),MVT v1.5增強(qiáng)了局部特征和文字特征。相較于傳統(tǒng)的全局圖像特征模型,新版MVT在檢測(cè)分割、OCR等對(duì)應(yīng)的下游任務(wù)表現(xiàn)上得到提升,有效性得到驗(yàn)證。

25b9774c-6957-11f0-a6aa-92fbcf53809c.png

以文字OCR任務(wù)為例,從下圖可以看出,MVT v1.5(RICE)的多項(xiàng)分?jǐn)?shù)高于CLIP和SigLIP等模型。

文字OCR任務(wù)和全局理解任務(wù):

25c3e510-6957-11f0-a6aa-92fbcf53809c.png

引用分割:

25d64200-6957-11f0-a6aa-92fbcf53809c.png

檢測(cè)分割任務(wù):

25e81732-6957-11f0-a6aa-92fbcf53809c.png

單目標(biāo)跟蹤任務(wù):

25fcf4ae-6957-11f0-a6aa-92fbcf53809c.png

從技術(shù)創(chuàng)新到下游任務(wù),格靈深瞳并非單純追求學(xué)術(shù)表現(xiàn),而是注重技術(shù)成果轉(zhuǎn)化應(yīng)用,通過(guò)提升任務(wù)表現(xiàn)推動(dòng)AI在多元場(chǎng)景中真正落地。

MVT v1.5背后的技術(shù)團(tuán)隊(duì)——格靈深瞳靈感實(shí)驗(yàn)室,是國(guó)內(nèi)計(jì)算機(jī)視覺(jué)領(lǐng)域的深耕者。靈感實(shí)驗(yàn)室聚焦于視覺(jué)及相關(guān)模態(tài)特征表達(dá)與應(yīng)用,主要研究方向包括:視覺(jué)基礎(chǔ)大模型、多模態(tài)大模型、圖文多模態(tài)表征、大規(guī)模分布式訓(xùn)練等。下一步,團(tuán)隊(duì)將錨定視頻理解領(lǐng)域,發(fā)布最新模型成果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111329
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3749

    瀏覽量

    52089
  • 格靈深瞳
    +關(guān)注

    關(guān)注

    1

    文章

    90

    瀏覽量

    5952

原文標(biāo)題:請(qǐng)查收一份“高光”研究成果:格靈深瞳Glint-MVT升級(jí),局部和文字特征再增強(qiáng)

文章出處:【微信號(hào):shentongzhineng,微信公眾號(hào):格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    2025年度關(guān)鍵詞回顧

    過(guò)去一年,深耕視覺(jué)算法與多模態(tài)大模型,自研視覺(jué)
    的頭像 發(fā)表于 02-24 17:17 ?1151次閱讀

    亮相摩爾線程首屆MUSA開(kāi)發(fā)者大會(huì)

    Studio,通過(guò)自研的視覺(jué)模型基座Glint-M
    的頭像 發(fā)表于 12-26 14:52 ?397次閱讀

    受邀參加光合組織2025人工智能創(chuàng)新大會(huì)

    12月17-19日,光合組織2025人工智能創(chuàng)新大會(huì)(HAIC 2025)將在江蘇昆山舉行。作為海光產(chǎn)業(yè)生態(tài)合作組織(光合組織)的成員單位,將在現(xiàn)場(chǎng)展示智慧金融整體解決方案和
    的頭像 發(fā)表于 12-17 15:26 ?663次閱讀

    榮獲量子位2025人工智能年度領(lǐng)航企業(yè)

    12月10日,量子位發(fā)布“2025人工智能年度榜單”。入選“2025人工智能年度領(lǐng)航企業(yè)”。
    的頭像 發(fā)表于 12-17 15:23 ?527次閱讀

    受邀參加百度世界2025大會(huì)

    11月13日,百度世界2025大會(huì)將在北京國(guó)家會(huì)議中心二期舉行。在分論壇環(huán)節(jié),靈感實(shí)驗(yàn)室負(fù)責(zé)人馮子勇、
    的頭像 發(fā)表于 11-14 15:47 ?625次閱讀

    邀您相約百度世界2025大會(huì)

    11月13日,百度世界2025大會(huì)將在北京國(guó)家會(huì)議中心二期舉行,主題為“效果涌現(xiàn) | AI In Action”。在公開(kāi)課環(huán)節(jié),副總裁羅楷、研發(fā)副總裁閆梓禎將分別圍繞金融
    的頭像 發(fā)表于 11-12 16:57 ?887次閱讀

    與奧瑞德達(dá)成戰(zhàn)略合作

    近日,與奧瑞德光電股份有限公司達(dá)成戰(zhàn)略合作。雙方將重點(diǎn)圍繞大模型技術(shù)應(yīng)用及解決方案,整合各自優(yōu)勢(shì),向國(guó)內(nèi)外客戶提供高效能的智能算力服
    的頭像 發(fā)表于 10-11 17:32 ?1776次閱讀

    視覺(jué)基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)

    此前,8月28-30日,2025百度云智大會(huì)在北京舉辦。在算力平臺(tái)專題論壇上,技術(shù)副總裁、算法研究院院長(zhǎng)馮子勇分享了《視覺(jué)基座:通向
    的頭像 發(fā)表于 09-05 17:13 ?1680次閱讀
    <b class='flag-5'>格</b><b class='flag-5'>靈</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b><b class='flag-5'>視覺(jué)</b>基礎(chǔ)<b class='flag-5'>模型</b><b class='flag-5'>Glint-MVT</b>的發(fā)展脈絡(luò)

    加入海光產(chǎn)業(yè)生態(tài)合作組織

    近日,正式加入海光產(chǎn)業(yè)生態(tài)合作組織(簡(jiǎn)稱“光合組織”),成為該組織成員單位。
    的頭像 發(fā)表于 08-25 16:10 ?833次閱讀

    智慧金融產(chǎn)品家族全新升級(jí)

    智能體時(shí)代,如何打造能用、好用、有持續(xù)成長(zhǎng)性的智慧金融產(chǎn)品?這是探索 AI+金融深度融合的實(shí)踐方向。
    的頭像 發(fā)表于 08-19 17:53 ?1294次閱讀

    智慧體育產(chǎn)品全新升級(jí)

    智慧體育產(chǎn)品家族,近期迎來(lái)全新升級(jí)。
    的頭像 發(fā)表于 08-14 11:51 ?1434次閱讀

    與您相約WAIC 2025

    7月26-29日,2025世界人工智能大會(huì)(WAIC)將在上海世博中心和世博展覽館舉行。將在第一現(xiàn)場(chǎng),聯(lián)合華為昇騰、百度、飛騰等生態(tài)合作伙伴,展示金融全系列整體解決方案、墨刃A
    的頭像 發(fā)表于 07-26 16:14 ?1110次閱讀

    六篇論文入選ICCV 2025

    近日,國(guó)際頂級(jí)會(huì)議ICCV 2025(計(jì)算機(jī)視覺(jué)國(guó)際大會(huì))公布論文錄用結(jié)果,團(tuán)隊(duì)共有6篇論文入選。
    的頭像 發(fā)表于 07-07 18:23 ?1548次閱讀

    亮相AICon 2025全球人工智能開(kāi)發(fā)與應(yīng)用大會(huì)

    此前,6月27-28日,由極客邦科技旗下InfoQ中國(guó)主辦的“AICon全球人工智能開(kāi)發(fā)與應(yīng)用大會(huì)”在北京舉辦。作為行業(yè)領(lǐng)先的視覺(jué)AI公司,
    的頭像 發(fā)表于 07-05 16:15 ?1465次閱讀

    與百度智能云達(dá)成戰(zhàn)略合作,共筑AI算力新基建

    力底座,推動(dòng)政務(wù)、金融、公共安全等領(lǐng)域的智能化升級(jí)。 百度智能云泛科技業(yè)務(wù)部總經(jīng)理張瑋,銷售副總裁蘆斌代表雙方簽約,百度集團(tuán)執(zhí)行副總
    的頭像 發(fā)表于 04-27 10:20 ?1303次閱讀