RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ICCV 2023 | 超越SAM!EntitySeg:更少的數(shù)據(jù),更高的分割質(zhì)量

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:未知 ? 2023-10-02 10:40 ? 次閱讀

稠密圖像分割問(wèn)題一直在計(jì)算機(jī)視覺(jué)領(lǐng)域中備受關(guān)注。無(wú)論是在 Adobe 旗下的 Photoshop 等重要產(chǎn)品中,還是其他實(shí)際應(yīng)用場(chǎng)景中,分割模型的泛化和精度都被賦予了極高的期望。對(duì)于這些分割模型來(lái)說(shuō),需要在不同的圖像領(lǐng)域、新的物體類別以及各種圖像分辨率和質(zhì)量下都能夠保持魯棒性。為了解決這個(gè)問(wèn)題,早在 SAM[6] 模型一年之前,一種不考慮類別的實(shí)體分割任務(wù) [1] 被提出,作為評(píng)估模型泛化能力的一種統(tǒng)一標(biāo)準(zhǔn)。

在本文中,High-Quality Entity Segmentation 對(duì)分割問(wèn)題進(jìn)行了全新的探索,從以下三個(gè)方面取得了顯著的改進(jìn):

1. 更優(yōu)的分割質(zhì)量:正如上圖所示,EntitySeg 在數(shù)值指標(biāo)和視覺(jué)表現(xiàn)方面都相對(duì)于 SAM 有更大的優(yōu)勢(shì)。令人驚訝的是,這種優(yōu)勢(shì)是基于僅占訓(xùn)練數(shù)據(jù)量千分之一的數(shù)據(jù)訓(xùn)練取得的。

2. 更少的高質(zhì)量數(shù)據(jù)需求:相較于 SAM 使用的千萬(wàn)級(jí)別的訓(xùn)練數(shù)據(jù)集,EntitySeg 數(shù)據(jù)集僅含有 33,227 張圖像。盡管數(shù)據(jù)量相差千倍,但 EntitySeg 卻取得了可媲美的性能,這要?dú)w功于其標(biāo)注質(zhì)量,為模型提供了更高質(zhì)量的數(shù)據(jù)支持。

3. 更一致的輸出細(xì)粒度(基于實(shí)體標(biāo)準(zhǔn)):從輸出的分割圖中,我們可以清晰地看到 SAM 輸出了不同粒度的結(jié)果,包括細(xì)節(jié)、部分和整體(如瓶子的蓋子、商標(biāo)、瓶身)。然而,由于 SAM 需要對(duì)不同部分的人工干預(yù)處理,這對(duì)于自動(dòng)化輸出分割的應(yīng)用而言并不理想。相比之下,EntitySeg 的輸出在粒度上更加一致,并且能夠輸出類別標(biāo)簽,對(duì)于后續(xù)任務(wù)更加友好。

在闡述了這項(xiàng)工作對(duì)稠密分割技術(shù)的新突破后,接下來(lái)的內(nèi)容中介紹 EntitySeg 數(shù)據(jù)集的特點(diǎn)以及提出的算法 CropFormer。

wKgaomUs_uaAD2aRAACSqit3Alw707.png

論文鏈接:https://arxiv.org/abs/2211.05776

代碼鏈接:

https://github.com/qqlu/Entity/blob/main/Entityv2/README.md

主頁(yè)鏈接:

http://luqi.info/entityv2.github.io/

根據(jù) Marr 計(jì)算機(jī)視覺(jué)教科書中的理論,人類的識(shí)別系統(tǒng)是無(wú)類別的。即使對(duì)于一些不熟悉的實(shí)體,我們也能夠根據(jù)相似性進(jìn)行識(shí)別。因此,不考慮類別的實(shí)體分割更貼近人類識(shí)別系統(tǒng),不僅可以作為一種更基礎(chǔ)的任務(wù),還可以輔助于帶有類別分割任務(wù) [2]、開(kāi)放詞匯分割任務(wù) [3] 甚至圖像編輯任務(wù) [4]。與全景分割任務(wù)相比,實(shí)體分割將“thing”和“stuff”這兩個(gè)大類進(jìn)行了統(tǒng)一,更加符合人類最基本的識(shí)別方式。

wKgaomUs_uaAaVeYAAAl6LOgh3c146.png ?

EntitySeg數(shù)據(jù)集

由于缺乏現(xiàn)有的實(shí)體分割數(shù)據(jù),作者在其工作 [1] 使用了現(xiàn)有的 COCO、ADE20K 以及 Cityscapes 全景分割數(shù)據(jù)集驗(yàn)證了實(shí)體任務(wù)下模型的泛化能力。然而,這些數(shù)據(jù)本身是在有類別標(biāo)簽的體系下標(biāo)注的(先建立一個(gè)類別庫(kù),在圖片中搜尋相關(guān)的類別進(jìn)行定位標(biāo)注),這種標(biāo)注過(guò)程并不符合實(shí)體分割任務(wù)的初衷——圖像中每一個(gè)區(qū)域均是有效的,哪怕這些區(qū)域無(wú)法用言語(yǔ)來(lái)形容或者被 Blur 掉,都應(yīng)該被定位標(biāo)注。

此外,受限于提出年代的設(shè)備,COCO 等數(shù)據(jù)集的圖片域以及圖片分辨率也相對(duì)單一。因此基于現(xiàn)有數(shù)據(jù)集下訓(xùn)練出的實(shí)體分割模型也并不能很好地體現(xiàn)實(shí)體分割任務(wù)所帶來(lái)的泛化能力。最后,原作者團(tuán)隊(duì)在提出實(shí)體分割任務(wù)的概念后進(jìn)一步貢獻(xiàn)了高質(zhì)量細(xì)粒度實(shí)體分割數(shù)據(jù)集 EntitySeg 及其對(duì)應(yīng)方法。EntitySeg 數(shù)據(jù)集是由 Adobe 公司 19 萬(wàn)美元贊助標(biāo)注完成,已經(jīng)開(kāi)源貢獻(xiàn)給學(xué)術(shù)界使用。

項(xiàng)目主頁(yè):

http://luqi.info/entityv2.github.io/數(shù)據(jù)集有三個(gè)重要特性:1. 數(shù)據(jù)集匯集了來(lái)自公開(kāi)數(shù)據(jù)集和學(xué)術(shù)網(wǎng)絡(luò)的 33,227 張圖片。這些圖片涵蓋了不同的領(lǐng)域,包括風(fēng)景、室內(nèi)外場(chǎng)景、卡通畫、簡(jiǎn)筆畫、電腦游戲和遙感場(chǎng)景等。2. 標(biāo)注過(guò)程在無(wú)類別限制下進(jìn)行的掩膜標(biāo)注,并且可以覆蓋整幅圖像。3. 圖片分辨率更高,標(biāo)注更精細(xì)。如上圖所示,即使相比 COCO 和 ADE20K 數(shù)據(jù)集的原始低分辨率圖片及其標(biāo)注,EntitySeg 的實(shí)體標(biāo)注更全且更精細(xì)。最后,為了讓 EntitySeg 數(shù)據(jù)集更好地服務(wù)于學(xué)術(shù)界,11580 張圖片在標(biāo)注實(shí)體掩膜之后,以開(kāi)放標(biāo)簽的形式共標(biāo)注了 643 個(gè)類別。EntitySeg、COCO 以及 ADE20K 數(shù)據(jù)集的統(tǒng)計(jì)特性對(duì)比如下:wKgaomUs_uaADlXLAAEABS33bTg176.png通過(guò)和 COCO 以及 ADE20K 的數(shù)據(jù)對(duì)比,可以看出 EntitySeg 數(shù)據(jù)集圖片分辨率更高(平均圖片尺寸 2700)、實(shí)體數(shù)量更多(每張圖平均 18.1 個(gè)實(shí)體)、掩膜標(biāo)注更為復(fù)雜(實(shí)體平均復(fù)雜度 0.719)。極限情況下,EntitySeg 的圖片尺寸可達(dá)到 10000 以上。與 SAM 數(shù)據(jù)集不同,EntitySeg 更加強(qiáng)調(diào)小而精,試圖做到對(duì)圖片中的每個(gè)實(shí)體得到最為精細(xì)的邊緣標(biāo)注。此外,EntitySeg 保留了圖片和對(duì)應(yīng)標(biāo)注的原始尺寸,更有利于高分辨率分割模型的學(xué)術(shù)探索。基于 EntitySeg 數(shù)據(jù)集,作者衡量了現(xiàn)有分割模型在不同分割任務(wù)(無(wú)類別實(shí)體分割,語(yǔ)義分割,實(shí)例分割以及全景分割)的性能以及和 SAM 在 zero-shot 實(shí)體級(jí)別的分割能力。

wKgaomUs_uaARWVxAAEMAsNKrjY791.png

wKgaomUs_uaAU8AmAACkTHk6Ig4993.png

wKgaomUs_ueAGTK_AAAuhh9-KLM590.png ?

CropFormer算法框架

除此之外,高分辨率圖片和精細(xì)化掩膜給分割任務(wù)帶來(lái)了新的挑戰(zhàn)。為了節(jié)省硬件內(nèi)存需求,分割模型需要壓縮高分辨率圖片及標(biāo)注進(jìn)行訓(xùn)練和測(cè)試進(jìn)而導(dǎo)致分割質(zhì)量的降低。為了解決這一問(wèn)題,作者提出了 CropFormer 框架來(lái)解決高分辨率圖片分割問(wèn)題。CropFormer 受到 Video-Mask2Former [5] 的啟發(fā), 利用一組 query 連結(jié)壓縮為低分辨率的全圖和保持高分辨率的裁剪圖的相同實(shí)體。因此,CropFormer 可以同時(shí)保證圖片全局和區(qū)域細(xì)節(jié)屬性。CropFormer 是根據(jù) EntitySeg 高質(zhì)量數(shù)據(jù)集的特點(diǎn)提出的針對(duì)高分辨率圖像的實(shí)例/實(shí)體分割任務(wù)的 baseline 方法,更加迎合當(dāng)前時(shí)代圖片質(zhì)量的需求。wKgaomUs_ueAKPi7AAH2IXUrEjs806.png

最后在補(bǔ)充材料中,作者展示了更多的 EntitySeg 數(shù)據(jù)集以及 CropFormer 的可視化結(jié)果。下圖為更多數(shù)據(jù)標(biāo)注展示:

下圖為 CropFormer 模型測(cè)試結(jié)果:

參考文獻(xiàn)

[1] Open-World Entity Segmentation. TAPMI 2022.[2] CA-SSL: Class-agnostic Semi-Supervised Learning for Detection and Segmentation. ECCV 2022.[3] Open-Vocabulary Panoptic Segmentation with MaskCLIP. ICML 2023.[4] SceneComposer: Any-Level Semantic Image Synthesis. CVPR 2023.[5] Masked-attention Mask Transformer for Universal Image Segmentation. CVPR 2022.

[6] Segment Anything. ICCV 2023.


原文標(biāo)題:ICCV 2023 | 超越SAM!EntitySeg:更少的數(shù)據(jù),更高的分割質(zhì)量

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:ICCV 2023 | 超越SAM!EntitySeg:更少的數(shù)據(jù),更高的分割質(zhì)量

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    GB/T6451-2023

    電力變壓器技術(shù)參數(shù)要求,2023版,有需要的看一下。還有其它的,咋帶附件?
    發(fā)表于 11-04 15:49

    畫面分割器怎么調(diào)試

    畫面分割器,通常指的是視頻畫面分割器,它是一種可以將一個(gè)視頻信號(hào)分割成多個(gè)小畫面的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、視頻會(huì)議、多畫面顯示等場(chǎng)景。調(diào)試畫面分割器是一個(gè)技術(shù)性很強(qiáng)的工作,需
    的頭像 發(fā)表于 10-17 09:32 ?364次閱讀

    畫面分割器怎么連接

    器的基本原理 畫面分割器的工作原理是通過(guò)數(shù)字信號(hào)處理技術(shù),將多個(gè)視頻信號(hào)源(如攝像頭、DVR等)的圖像數(shù)據(jù)進(jìn)行處理,然后在一個(gè)監(jiān)視器上以分割的形式顯示出來(lái)。這些分割可以是1畫面、4畫面
    的頭像 發(fā)表于 10-17 09:29 ?297次閱讀

    使用更少的輸入來(lái)監(jiān)控誤差信號(hào)

    電子發(fā)燒友網(wǎng)站提供《使用更少的輸入來(lái)監(jiān)控誤差信號(hào).pdf》資料免費(fèi)下載
    發(fā)表于 09-20 09:04 ?0次下載
    使用<b class='flag-5'>更少</b>的輸入來(lái)監(jiān)控誤差信號(hào)

    圖像語(yǔ)義分割的實(shí)用性是什么

    圖像語(yǔ)義分割是一種重要的計(jì)算機(jī)視覺(jué)任務(wù),它旨在將圖像中的每個(gè)像素分配到相應(yīng)的語(yǔ)義類別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動(dòng)駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。 一、圖像語(yǔ)義分割的基本原理 1.1
    的頭像 發(fā)表于 07-17 09:56 ?415次閱讀

    圖像分割和語(yǔ)義分割的區(qū)別與聯(lián)系

    圖像分割和語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域中兩個(gè)重要的概念,它們?cè)趫D像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像分割簡(jiǎn)介 圖像分割是將圖像劃分為多個(gè)區(qū)域或?qū)ο蟮倪^(guò)程。這些區(qū)域或?qū)ο缶哂邢嗨频膶傩?/div>
    的頭像 發(fā)表于 07-17 09:55 ?907次閱讀

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

    在機(jī)器學(xué)習(xí)中,數(shù)據(jù)分割是一項(xiàng)至關(guān)重要的任務(wù),它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評(píng)估。本文將從多個(gè)方面詳細(xì)探討機(jī)器學(xué)習(xí)中數(shù)據(jù)分割的方法,包括常見(jiàn)的
    的頭像 發(fā)表于 07-10 16:10 ?1695次閱讀

    圖像分割與語(yǔ)義分割中的CNN模型綜述

    圖像分割與語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語(yǔ)義含義的區(qū)域或?qū)ο蟆>矸e神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心模型,在圖像分割與語(yǔ)義分割中發(fā)揮著至關(guān)重要的
    的頭像 發(fā)表于 07-09 11:51 ?827次閱讀

    天馬榮獲海微科技頒發(fā)“2023年度優(yōu)秀質(zhì)量獎(jiǎng)”和“2023年度保供獎(jiǎng)”

    近日,天馬榮獲海微科技頒發(fā)的“2023年度優(yōu)秀質(zhì)量獎(jiǎng)”和“2023年度保供獎(jiǎng)”,頒獎(jiǎng)儀式在深圳天馬產(chǎn)業(yè)基地研發(fā)樓舉行。頒獎(jiǎng)嘉賓由海微科技供應(yīng)商質(zhì)量負(fù)責(zé)人張浩武擔(dān)任,出席頒獎(jiǎng)儀式的嘉賓有
    的頭像 發(fā)表于 06-17 16:16 ?695次閱讀

    天馬榮獲小米“2023年度質(zhì)量獎(jiǎng)”

    近日,天馬微電子股份有限公司(以下簡(jiǎn)稱“天馬”)在武漢天馬OLED基地隆重舉行頒獎(jiǎng)儀式,榮獲小米公司頒發(fā)的“2023年度質(zhì)量獎(jiǎng)”。這一榮譽(yù)的獲得,不僅是對(duì)天馬在產(chǎn)品質(zhì)量和技術(shù)創(chuàng)新方面卓越表現(xiàn)的肯定,也標(biāo)志著天馬與小米作為重要戰(zhàn)略
    的頭像 發(fā)表于 03-11 10:26 ?1297次閱讀

    天馬微電子榮獲小米“2023年度質(zhì)量獎(jiǎng)”

    近日,天馬榮獲小米“2023年度質(zhì)量獎(jiǎng)”,頒獎(jiǎng)儀式在武漢天馬OLED基地舉行。
    的頭像 發(fā)表于 03-08 16:42 ?1056次閱讀

    華為首次超越蘋果成為國(guó)內(nèi)平板電腦市場(chǎng)出貨量第一

    近日,國(guó)際數(shù)據(jù)公司(IDC)發(fā)布了2023年第四季度中國(guó)平板電腦季度跟蹤報(bào)告,其中顯示,華為首次超越蘋果成為國(guó)內(nèi)平板電腦市場(chǎng)出貨量第一。
    的頭像 發(fā)表于 02-22 09:19 ?846次閱讀
    華為首次<b class='flag-5'>超越</b>蘋果成為國(guó)內(nèi)平板電腦市場(chǎng)出貨量第一

    傳音控股為晶能光電頒發(fā)2023年度“卓越質(zhì)量獎(jiǎng)”

    近日,素有“非洲手機(jī)之王”之稱的傳音控股(Transsion)為晶能光電隆重頒發(fā)了2023年度“卓越質(zhì)量獎(jiǎng)”,
    的頭像 發(fā)表于 01-18 16:23 ?509次閱讀

    一種新的分割模型Stable-SAM

    SAM、HQ-SAM、Stable-SAM在提供次優(yōu)提示時(shí)的性能比較,Stable-SAM明顯優(yōu)于其他算法。這里也推薦工坊推出的新課程《如何將深度學(xué)習(xí)模型部署到實(shí)際工程中?
    的頭像 發(fā)表于 12-29 14:35 ?665次閱讀
    一種新的<b class='flag-5'>分割</b>模型Stable-<b class='flag-5'>SAM</b>

    【愛(ài)芯派 Pro 開(kāi)發(fā)板試用體驗(yàn)】+ 圖像分割和填充的Demo測(cè)試

    框架SAM 這個(gè)例子使用了Meta AI發(fā)布的圖像識(shí)別和分割框架SAM(Segment Anything,分割一切對(duì)象模型)。自SA項(xiàng)目自2023
    發(fā)表于 12-26 11:22
    RM新时代网站-首页