91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

格靈深瞳視覺(jué)基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)

格靈深瞳 ? 來(lái)源:格靈深瞳 ? 2025-09-05 17:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

此前,8月28-30日,2025百度云智大會(huì)在北京舉辦。在算力平臺(tái)專題論壇上,格靈深瞳技術(shù)副總裁、算法研究院院長(zhǎng)馮子勇分享了《視覺(jué)基座:通向世界模型之路——格靈深瞳Glint-MVT讓AI看懂世界》主題演講,從熱點(diǎn)話題“世界模型”引入,介紹格靈深瞳自研視覺(jué)基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)和技術(shù)亮點(diǎn),講述視覺(jué)模型基座如何讓AI理解復(fù)雜世界。

此次分享的主角:Glint-MVT(Margin-based pretrained Vision Transformer),是格靈深瞳靈感實(shí)驗(yàn)室自研的視覺(jué)基礎(chǔ)模型。自2023年發(fā)布MVT v1.0以來(lái),模型逐步迭代,在今年7月發(fā)布了MVT v1.5,同時(shí)MVT v2.0也籌備中。

MVT的誕生:引入間隔Softmax函數(shù)

MVT最大的技術(shù)創(chuàng)新性在于,團(tuán)隊(duì)?wèi)?yīng)用基于間隔的Softmax損失函數(shù)進(jìn)行模型訓(xùn)練。Softmax損失函數(shù)主要應(yīng)用于分類訓(xùn)練,而基于間隔的Softmax(Margin-based Softmax),可以讓模型提取的特征更具區(qū)分度,提升視覺(jué)編碼器的能力。

靈感團(tuán)隊(duì)將這一函數(shù)特性應(yīng)用在視覺(jué)基礎(chǔ)模型訓(xùn)練上,推出MVT v1.0,構(gòu)建起視覺(jué)理解的堅(jiān)實(shí)基礎(chǔ)。

在MVT v1.0訓(xùn)練過(guò)程中,團(tuán)隊(duì)通過(guò)特征聚類的方法,為4億無(wú)標(biāo)注圖片打上偽標(biāo)簽,形成100萬(wàn)個(gè)類別。為解決偽標(biāo)簽類別太多和標(biāo)簽噪聲的問(wèn)題,團(tuán)隊(duì)提出了標(biāo)簽采樣的方法,不僅大量減少卡間通信時(shí)延,還降低了標(biāo)簽噪聲對(duì)訓(xùn)練精度的影響,帶來(lái)訓(xùn)練效果和模型性能的雙重提升。

從MVT v1.0到 v1.1:突破單標(biāo)簽限制

在圖像識(shí)別過(guò)程中,一幅圖像通常包含多個(gè)物體,對(duì)應(yīng)著多個(gè)標(biāo)簽。因此,格靈深瞳將單標(biāo)簽升級(jí)為多標(biāo)簽,提升圖像編碼器的表達(dá)能力,由此得到MVT v1.1。

MVT v1.1可識(shí)別圖像中的多個(gè)物體,這一能力提升源自損失函數(shù)的優(yōu)化。靈感團(tuán)隊(duì)在1.0版softmax公式的基礎(chǔ)上進(jìn)行簡(jiǎn)單修改,讓多個(gè)正標(biāo)簽參與計(jì)算;在工程上,由讀取一個(gè)正類別的中心特征變成讀取固定多個(gè)正類別的中心特征。

MVT v1.5:局部和文字特征再增強(qiáng)

隨著下游任務(wù)對(duì)預(yù)訓(xùn)練模型能力的更高要求,靈感團(tuán)隊(duì)增強(qiáng)了模型對(duì)局部特征和文字特征的表達(dá)能力,推出MVT v1.5。

7f3286ea-87ea-11f0-8c8f-92fbcf53809c.png

RegionAttention技術(shù)方法示意圖

在實(shí)現(xiàn)方法上,團(tuán)隊(duì)利用專家分割模型和OCR模型,生成局部數(shù)據(jù)偽標(biāo)簽,得到20億局部區(qū)域和4億文字區(qū)域。同時(shí),團(tuán)隊(duì)提出了RegionAttention的方法——利用Mask Attention機(jī)制,更高效地提取局部區(qū)域特征。從檢測(cè)、分割等下游任務(wù)表現(xiàn)上看,MVT v1.5的多項(xiàng)分?jǐn)?shù)高于SigLIP等模型。

7f923040-87ea-11f0-8c8f-92fbcf53809c.png

MVT v1.5(RICE)在OCR任務(wù)上的表現(xiàn)

靈感團(tuán)隊(duì)將MVT v1.5應(yīng)用到VLM開源框架LLaVA-NeXT和LLaVA-OneVision中。對(duì)比其他視覺(jué)編碼器,如OpenAI的CLIP、谷歌的SigLIP、蘋果的DFN5B和AIMv2,MVT v1.5在OCR任務(wù)上表現(xiàn)更優(yōu)。這表明MVT v1.5在局部和文字特征上具有更好的表達(dá)能力。

MVT v2.x:圖片視頻統(tǒng)一支持

人類和環(huán)境的交互以及任務(wù)完成,不只是一張張離散的圖片,而是一個(gè)時(shí)空連續(xù)的視頻流。下一步,靈感團(tuán)隊(duì)計(jì)劃對(duì)視頻進(jìn)行高效編碼,推出統(tǒng)一支持圖片視頻的視覺(jué)編碼器MVT v2.x,提升視頻特征表達(dá)能力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39691

    瀏覽量

    301294
  • 百度
    +關(guān)注

    關(guān)注

    9

    文章

    2377

    瀏覽量

    94845
  • 格靈深瞳
    +關(guān)注

    關(guān)注

    1

    文章

    90

    瀏覽量

    5952

原文標(biāo)題:格靈深瞳如何打造視覺(jué)模型基座?Glint-MVT成長(zhǎng)記

文章出處:【微信號(hào):shentongzhineng,微信公眾號(hào):格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    2025年度關(guān)鍵詞回顧

    過(guò)去一年,深耕視覺(jué)算法與多模態(tài)大模型,自研視覺(jué)
    的頭像 發(fā)表于 02-24 17:17 ?1151次閱讀

    亮相摩爾線程首屆MUSA開發(fā)者大會(huì)

    Studio,通過(guò)自研的視覺(jué)模型基座Glint-M
    的頭像 發(fā)表于 12-26 14:52 ?397次閱讀

    榮獲量子位2025人工智能年度領(lǐng)航企業(yè)

    12月10日,量子位發(fā)布“2025人工智能年度榜單”。入選“2025人工智能年度領(lǐng)航企業(yè)”。
    的頭像 發(fā)表于 12-17 15:23 ?530次閱讀

    受邀參加百度世界2025大會(huì)

    11月13日,百度世界2025大會(huì)將在北京國(guó)家會(huì)議中心二期舉行。在分論壇環(huán)節(jié),靈感實(shí)驗(yàn)室負(fù)責(zé)人馮子勇、
    的頭像 發(fā)表于 11-14 15:47 ?628次閱讀

    邀您相約百度世界2025大會(huì)

    11月13日,百度世界2025大會(huì)將在北京國(guó)家會(huì)議中心二期舉行,主題為“效果涌現(xiàn) | AI In Action”。在公開課環(huán)節(jié),副總裁羅楷、研發(fā)副總裁閆梓禎將分別圍繞金融
    的頭像 發(fā)表于 11-12 16:57 ?890次閱讀

    與奧瑞德達(dá)成戰(zhàn)略合作

    近日,與奧瑞德光電股份有限公司達(dá)成戰(zhàn)略合作。雙方將重點(diǎn)圍繞大模型技術(shù)應(yīng)用及解決方案,整合各自優(yōu)勢(shì),向國(guó)內(nèi)外客戶提供高效能的智能算力服
    的頭像 發(fā)表于 10-11 17:32 ?1776次閱讀

    加入海光產(chǎn)業(yè)生態(tài)合作組織

    近日,正式加入海光產(chǎn)業(yè)生態(tài)合作組織(簡(jiǎn)稱“光合組織”),成為該組織成員單位。
    的頭像 發(fā)表于 08-25 16:10 ?833次閱讀

    智慧金融產(chǎn)品家族全新升級(jí)

    智能體時(shí)代,如何打造能用、好用、有持續(xù)成長(zhǎng)性的智慧金融產(chǎn)品?這是探索 AI+金融深度融合的實(shí)踐方向。
    的頭像 發(fā)表于 08-19 17:53 ?1294次閱讀

    智慧體育產(chǎn)品全新升級(jí)

    智慧體育產(chǎn)品家族,近期迎來(lái)全新升級(jí)。
    的頭像 發(fā)表于 08-14 11:51 ?1434次閱讀

    視覺(jué)基礎(chǔ)模型Glint-MVT升級(jí)

    近日,靈感實(shí)驗(yàn)室和華為倫敦研究所發(fā)布最新版視覺(jué)基礎(chǔ)模型——
    的頭像 發(fā)表于 07-31 11:01 ?1480次閱讀
    <b class='flag-5'>格</b><b class='flag-5'>靈</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b><b class='flag-5'>視覺(jué)</b>基礎(chǔ)<b class='flag-5'>模型</b><b class='flag-5'>Glint-MVT</b>升級(jí)

    與您相約WAIC 2025

    7月26-29日,2025世界人工智能大會(huì)(WAIC)將在上海世博中心和世博展覽館舉行。將在第一現(xiàn)場(chǎng),聯(lián)合華為昇騰、百度、飛騰等生態(tài)合作伙伴,展示金融全系列整體解決方案、墨刃A
    的頭像 發(fā)表于 07-26 16:14 ?1110次閱讀

    六篇論文入選ICCV 2025

    近日,國(guó)際頂級(jí)會(huì)議ICCV 2025(計(jì)算機(jī)視覺(jué)國(guó)際大會(huì))公布論文錄用結(jié)果,團(tuán)隊(duì)共有6篇論文入選。
    的頭像 發(fā)表于 07-07 18:23 ?1548次閱讀

    亮相AICon 2025全球人工智能開發(fā)與應(yīng)用大會(huì)

    此前,6月27-28日,由極客邦科技旗下InfoQ中國(guó)主辦的“AICon全球人工智能開發(fā)與應(yīng)用大會(huì)”在北京舉辦。作為行業(yè)領(lǐng)先的視覺(jué)AI公司,
    的頭像 發(fā)表于 07-05 16:15 ?1466次閱讀

    與百度智能云達(dá)成戰(zhàn)略合作,共筑AI算力新基建

    力底座,推動(dòng)政務(wù)、金融、公共安全等領(lǐng)域的智能化升級(jí)。 百度智能云泛科技業(yè)務(wù)部總經(jīng)理張瑋,銷售副總裁蘆斌代表雙方簽約,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖,
    的頭像 發(fā)表于 04-27 10:20 ?1303次閱讀

    亮相第三屆北京人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展大會(huì)

    有限公司承辦。作為國(guó)內(nèi)AI視覺(jué)領(lǐng)域的領(lǐng)軍企業(yè),受邀參加,并重點(diǎn)展示了自主研發(fā)的“
    的頭像 發(fā)表于 03-04 18:22 ?1035次閱讀