91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ICCV 2023 | 超越SAM!EntitySeg:更少的數(shù)據(jù),更高的分割質量

智能感知與物聯(lián)網(wǎng)技術研究所 ? 來源:未知 ? 2023-10-02 10:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

稠密圖像分割問題一直在計算機視覺領域中備受關注。無論是在 Adobe 旗下的 Photoshop 等重要產(chǎn)品中,還是其他實際應用場景中,分割模型的泛化和精度都被賦予了極高的期望。對于這些分割模型來說,需要在不同的圖像領域、新的物體類別以及各種圖像分辨率和質量下都能夠保持魯棒性。為了解決這個問題,早在 SAM[6] 模型一年之前,一種不考慮類別的實體分割任務 [1] 被提出,作為評估模型泛化能力的一種統(tǒng)一標準。

在本文中,High-Quality Entity Segmentation 對分割問題進行了全新的探索,從以下三個方面取得了顯著的改進:

1. 更優(yōu)的分割質量:正如上圖所示,EntitySeg 在數(shù)值指標和視覺表現(xiàn)方面都相對于 SAM 有更大的優(yōu)勢。令人驚訝的是,這種優(yōu)勢是基于僅占訓練數(shù)據(jù)量千分之一的數(shù)據(jù)訓練取得的。

2. 更少的高質量數(shù)據(jù)需求:相較于 SAM 使用的千萬級別的訓練數(shù)據(jù)集,EntitySeg 數(shù)據(jù)集僅含有 33,227 張圖像。盡管數(shù)據(jù)量相差千倍,但 EntitySeg 卻取得了可媲美的性能,這要歸功于其標注質量,為模型提供了更高質量的數(shù)據(jù)支持。

3. 更一致的輸出細粒度(基于實體標準):從輸出的分割圖中,我們可以清晰地看到 SAM 輸出了不同粒度的結果,包括細節(jié)、部分和整體(如瓶子的蓋子、商標、瓶身)。然而,由于 SAM 需要對不同部分的人工干預處理,這對于自動化輸出分割的應用而言并不理想。相比之下,EntitySeg 的輸出在粒度上更加一致,并且能夠輸出類別標簽,對于后續(xù)任務更加友好。

在闡述了這項工作對稠密分割技術的新突破后,接下來的內容中介紹 EntitySeg 數(shù)據(jù)集的特點以及提出的算法 CropFormer。

wKgaomUs_uaAD2aRAACSqit3Alw707.png

論文鏈接:https://arxiv.org/abs/2211.05776

代碼鏈接:

https://github.com/qqlu/Entity/blob/main/Entityv2/README.md

主頁鏈接:

http://luqi.info/entityv2.github.io/

根據(jù) Marr 計算機視覺教科書中的理論,人類的識別系統(tǒng)是無類別的。即使對于一些不熟悉的實體,我們也能夠根據(jù)相似性進行識別。因此,不考慮類別的實體分割更貼近人類識別系統(tǒng),不僅可以作為一種更基礎的任務,還可以輔助于帶有類別分割任務 [2]、開放詞匯分割任務 [3] 甚至圖像編輯任務 [4]。與全景分割任務相比,實體分割將“thing”和“stuff”這兩個大類進行了統(tǒng)一,更加符合人類最基本的識別方式。

wKgaomUs_uaAaVeYAAAl6LOgh3c146.png ?

EntitySeg數(shù)據(jù)集

由于缺乏現(xiàn)有的實體分割數(shù)據(jù),作者在其工作 [1] 使用了現(xiàn)有的 COCO、ADE20K 以及 Cityscapes 全景分割數(shù)據(jù)集驗證了實體任務下模型的泛化能力。然而,這些數(shù)據(jù)本身是在有類別標簽的體系下標注的(先建立一個類別庫,在圖片中搜尋相關的類別進行定位標注),這種標注過程并不符合實體分割任務的初衷——圖像中每一個區(qū)域均是有效的,哪怕這些區(qū)域無法用言語來形容或者被 Blur 掉,都應該被定位標注。

此外,受限于提出年代的設備,COCO 等數(shù)據(jù)集的圖片域以及圖片分辨率也相對單一。因此基于現(xiàn)有數(shù)據(jù)集下訓練出的實體分割模型也并不能很好地體現(xiàn)實體分割任務所帶來的泛化能力。最后,原作者團隊在提出實體分割任務的概念后進一步貢獻了高質量細粒度實體分割數(shù)據(jù)集 EntitySeg 及其對應方法。EntitySeg 數(shù)據(jù)集是由 Adobe 公司 19 萬美元贊助標注完成,已經(jīng)開源貢獻給學術界使用。

項目主頁:

http://luqi.info/entityv2.github.io/數(shù)據(jù)集有三個重要特性:1. 數(shù)據(jù)集匯集了來自公開數(shù)據(jù)集和學術網(wǎng)絡的 33,227 張圖片。這些圖片涵蓋了不同的領域,包括風景、室內外場景、卡通畫、簡筆畫、電腦游戲和遙感場景等。2. 標注過程在無類別限制下進行的掩膜標注,并且可以覆蓋整幅圖像。3. 圖片分辨率更高,標注更精細。如上圖所示,即使相比 COCO 和 ADE20K 數(shù)據(jù)集的原始低分辨率圖片及其標注,EntitySeg 的實體標注更全且更精細。最后,為了讓 EntitySeg 數(shù)據(jù)集更好地服務于學術界,11580 張圖片在標注實體掩膜之后,以開放標簽的形式共標注了 643 個類別。EntitySeg、COCO 以及 ADE20K 數(shù)據(jù)集的統(tǒng)計特性對比如下:wKgaomUs_uaADlXLAAEABS33bTg176.png通過和 COCO 以及 ADE20K 的數(shù)據(jù)對比,可以看出 EntitySeg 數(shù)據(jù)集圖片分辨率更高(平均圖片尺寸 2700)、實體數(shù)量更多(每張圖平均 18.1 個實體)、掩膜標注更為復雜(實體平均復雜度 0.719)。極限情況下,EntitySeg 的圖片尺寸可達到 10000 以上。與 SAM 數(shù)據(jù)集不同,EntitySeg 更加強調小而精,試圖做到對圖片中的每個實體得到最為精細的邊緣標注。此外,EntitySeg 保留了圖片和對應標注的原始尺寸,更有利于高分辨率分割模型的學術探索。基于 EntitySeg 數(shù)據(jù)集,作者衡量了現(xiàn)有分割模型在不同分割任務(無類別實體分割,語義分割,實例分割以及全景分割)的性能以及和 SAM 在 zero-shot 實體級別的分割能力。

wKgaomUs_uaARWVxAAEMAsNKrjY791.png

wKgaomUs_uaAU8AmAACkTHk6Ig4993.png

wKgaomUs_ueAGTK_AAAuhh9-KLM590.png ?

CropFormer算法框架

除此之外,高分辨率圖片和精細化掩膜給分割任務帶來了新的挑戰(zhàn)。為了節(jié)省硬件內存需求,分割模型需要壓縮高分辨率圖片及標注進行訓練和測試進而導致分割質量的降低。為了解決這一問題,作者提出了 CropFormer 框架來解決高分辨率圖片分割問題。CropFormer 受到 Video-Mask2Former [5] 的啟發(fā), 利用一組 query 連結壓縮為低分辨率的全圖和保持高分辨率的裁剪圖的相同實體。因此,CropFormer 可以同時保證圖片全局和區(qū)域細節(jié)屬性。CropFormer 是根據(jù) EntitySeg 高質量數(shù)據(jù)集的特點提出的針對高分辨率圖像的實例/實體分割任務的 baseline 方法,更加迎合當前時代圖片質量的需求。wKgaomUs_ueAKPi7AAH2IXUrEjs806.png

最后在補充材料中,作者展示了更多的 EntitySeg 數(shù)據(jù)集以及 CropFormer 的可視化結果。下圖為更多數(shù)據(jù)標注展示:

下圖為 CropFormer 模型測試結果:

參考文獻

[1] Open-World Entity Segmentation. TAPMI 2022.[2] CA-SSL: Class-agnostic Semi-Supervised Learning for Detection and Segmentation. ECCV 2022.[3] Open-Vocabulary Panoptic Segmentation with MaskCLIP. ICML 2023.[4] SceneComposer: Any-Level Semantic Image Synthesis. CVPR 2023.[5] Masked-attention Mask Transformer for Universal Image Segmentation. CVPR 2022.

[6] Segment Anything. ICCV 2023.


原文標題:ICCV 2023 | 超越SAM!EntitySeg:更少的數(shù)據(jù),更高的分割質量

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:ICCV 2023 | 超越SAM!EntitySeg:更少的數(shù)據(jù),更高的分割質量

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    鈣鈦礦/硅疊層電池首次通過IEC濕凍測試:基于pH調控的共SAM策略

    自組裝單分子層(SAM)作為空穴傳輸層(HTL)廣泛應用于高效鈣鈦礦太陽能電池,尤其是在鈣鈦礦-硅疊層器件中。然而,SAM前驅體分子在溶液中容易自組裝形成膠體聚集體,嚴重影響了所制備HTL薄膜
    的頭像 發(fā)表于 03-06 09:03 ?74次閱讀
    鈣鈦礦/硅疊層電池首次通過IEC濕凍測試:基于pH調控的共<b class='flag-5'>SAM</b>策略

    《Altium Designeder 25電路設計精講實踐》SAM V71章節(jié)有感

    全篇讀完,作為軟件的配套教程十分的得心應手,每級菜單都配有圖文并茂,實操方便,理解也能到位。其中 閱讀《AD25電路設計精進實踐》中SAM V71仿真開發(fā)板章節(jié),對照書本實際操作一番,對AD25從
    發(fā)表于 02-27 15:52

    Atmel SAM C20系列微控制器:工業(yè)自動化的理想之選

    Atmel SAM C20系列微控制器:工業(yè)自動化的理想之選 在工業(yè)自動化、家電及其他5V應用領域,微控制器的性能和功能至關重要。Atmel推出的SAM C20系列微控制器,憑借其強大的性能、豐富
    的頭像 發(fā)表于 02-26 15:50 ?108次閱讀

    Atmel | SMART SAM3S系列MCU:高集成與低功耗的完美結合

    Atmel | SMART SAM3S系列MCU:高集成與低功耗的完美結合 在電子設計領域,一款性能卓越、功能豐富且功耗低的微控制器(MCU)往往是工程師們的理想之選。Atmel | SMART
    的頭像 發(fā)表于 02-11 16:30 ?384次閱讀

    深入解析AT91SAM7SE512/256/32:強大的ARM基Flash MCU

    深入解析AT91SAM7SE512/256/32:強大的ARM基Flash MCU 在嵌入式系統(tǒng)設計領域,選擇一款性能卓越、功能豐富且穩(wěn)定可靠的微控制器(MCU)至關重要。AT91SAM
    的頭像 發(fā)表于 02-09 17:30 ?349次閱讀

    SAM(通用圖像分割基礎模型)丨基于BM1684X模型部署指南

    前言SAM是Meta提出的一個分割一切的提示型模型,其在1100萬張圖像上訓練了超過10億個掩碼,實現(xiàn)了強大的零樣本泛化,突破了分割界限。本例程對SAM官方開源倉庫的模型和算法進行移植
    的頭像 發(fā)表于 01-12 16:17 ?314次閱讀
    <b class='flag-5'>SAM</b>(通用圖像<b class='flag-5'>分割</b>基礎模型)丨基于BM1684X模型部署指南

    水浸超聲掃描顯微鏡(C-SAM)與其他無損檢測技術對比分析

    無損檢測技術是現(xiàn)代工業(yè)質量控制與安全評估中不可或缺的一環(huán),它能夠在不對材料或構件造成破壞的前提下,檢測其內部或表面的缺陷,從而保障產(chǎn)品的可靠性與安全性。在各種無損檢測方法中,水浸超聲掃描顯微鏡
    的頭像 發(fā)表于 12-04 14:08 ?316次閱讀
    水浸超聲掃描顯微鏡(C-<b class='flag-5'>SAM</b>)與其他無損檢測技術對比分析

    傳音TEX AI團隊斬獲ICCV 2025大型視頻目標分割挑戰(zhàn)賽雙料亞軍

    近日,國際計算機視覺大會(ICCV 2025)舉辦了第七屆大型視頻目標分割挑戰(zhàn)賽(LSVOS Challenge),傳音TEX AI團隊憑借自主研發(fā)的創(chuàng)新技術方案,在復雜視頻目標分割和語言指引視頻
    的頭像 發(fā)表于 10-31 09:42 ?567次閱讀
    傳音TEX AI團隊斬獲<b class='flag-5'>ICCV</b> 2025大型視頻目標<b class='flag-5'>分割</b>挑戰(zhàn)賽雙料亞軍

    ?SAM G55音頻開發(fā)板技術解析與應用指南

    Microchip Technology SAM G55音頻Curiosity開發(fā)板(EV78Y10A)是一款用于基于SAM G55微控制器的音頻應用的演示和開發(fā)平臺。SAM G55 MCU是高性能
    的頭像 發(fā)表于 10-13 15:11 ?635次閱讀
    ?<b class='flag-5'>SAM</b> G55音頻開發(fā)板技術解析與應用指南

    手機板 layout 走線跨分割問題

    的layout,比如手機、筆記本。信號的跨分割處理已經(jīng)不在是不能跨分割了。 在這類產(chǎn)品中成本是很重要的,所以層數(shù)都是能少就少。 這種情況下,如何分辨那些信號是可以跨分割的,跨分割的信號
    發(fā)表于 09-16 14:56

    Zettabyte任命Sam Lawn為全球首席財務官

    專注于GPU基礎設施、AIDC優(yōu)化軟件與Neo-Cloud計算的全棧AI解決方案提供商Zettabyte已任命Sam Lawn為全球首席財務官,該任命即刻生效。
    的頭像 發(fā)表于 08-30 15:12 ?1176次閱讀

    格靈深瞳六篇論文入選ICCV 2025

    近日,國際頂級會議ICCV 2025(計算機視覺國際大會)公布論文錄用結果,格靈深瞳團隊共有6篇論文入選。
    的頭像 發(fā)表于 07-07 18:23 ?1563次閱讀

    Nullmax端到端自動駕駛最新研究成果入選ICCV 2025

    近日,國際計算機視覺大會 ICCV 2025 正式公布論文錄用結果,Nullmax 感知團隊在端到端自動駕駛方向的最新研究成果《HiP-AD: Hierarchical
    的頭像 發(fā)表于 07-05 15:40 ?1816次閱讀
    Nullmax端到端自動駕駛最新研究成果入選<b class='flag-5'>ICCV</b> 2025

    理想汽車八篇論文入選ICCV 2025

    近日,ICCV 2025(國際計算機視覺大會)公布論文錄用結果,理想汽車共有8篇論文入選,其中5篇來自自動駕駛團隊,3篇來自基座模型團隊。ICCV作為計算機視覺領域的頂級學術會議,每兩年舉辦一次
    的頭像 發(fā)表于 07-03 13:58 ?1122次閱讀

    超聲波T-SAM與C-SAM模式的區(qū)別

    本文介紹了超聲波的T-SAM與C-SAM兩種模式的區(qū)別。
    的頭像 發(fā)表于 05-21 15:26 ?1604次閱讀
    超聲波T-<b class='flag-5'>SAM</b>與C-<b class='flag-5'>SAM</b>模式的區(qū)別