RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

跨圖像關(guān)系型KD方法語義分割任務(wù)-CIRKD

科技綠洲 ? 來源:地平線HorizonRobotics ? 作者:地平線HorizonRobot ? 2022-05-10 11:30 ? 次閱讀

語義分割任務(wù)作為計算機(jī)視覺中的基礎(chǔ)任務(wù)之一,其目的是對圖像中的每一個像素進(jìn)行分類。該任務(wù)也被廣泛應(yīng)用于實(shí)踐,例如自動駕駛和醫(yī)學(xué)圖像分割?,F(xiàn)有流行的用于語義分割任務(wù)的模型,例如DeepLab和PSPNet系列,雖然獲得了很好的分割精度,但是所需的算力成本較高。本文考慮使用知識蒸餾(Knowledge Distillation,KD)算法來緩解這個問題。KD作為模型壓縮里的一項(xiàng)重要技術(shù),其核心思想是將教師模型中學(xué)習(xí)的知識作為監(jiān)督信號來訓(xùn)練學(xué)生模型,使得學(xué)生模型得到更好的性能。雖然現(xiàn)有的語義分割知識蒸餾方法能夠?qū)W(xué)生網(wǎng)絡(luò)的性能進(jìn)行提升,但是這些方法通常是從單張圖像中提取知識,忽略了跨圖像之間的關(guān)系信息也是一種有價值的知識。

最近,地平線-中科院提出了一種新穎的跨圖像關(guān)系型KD方法用于語義分割任務(wù)-CIRKD。該方法嘗試在語義分割任務(wù)中建模pixel-to-pixel和pixel-to-region這兩種對比關(guān)系作為KD的監(jiān)督信號。本文主要從方法介紹以及實(shí)驗(yàn)結(jié)果對提出的CIRKD進(jìn)行講解。

KD作為一種思想已被廣泛應(yīng)用,尤其是圖像分類任務(wù)。但是先前的工作表明直接將圖像分類KD方法直接遷移到語義分割任務(wù)是不可行的,因?yàn)樗鼈儧]有考慮到語義分割的結(jié)構(gòu)化信息。一些經(jīng)典的語義分割KD工作于是去嘗試捕捉到一些上下文信息來建模結(jié)構(gòu)化知識,比如pixel相似度,pixel與region向量的相似度關(guān)系,但是這些方法通常在單張圖像內(nèi)部進(jìn)行信息提取,難以捕捉到更加廣泛的上下文依賴。

于是,我們提出一種跨圖像的知識蒸餾方法來建模圖像間的依賴,從而使得網(wǎng)絡(luò)能夠捕捉到更加豐富的結(jié)構(gòu)化信息。具體地,本工作建模數(shù)據(jù)集中的全部圖像之間建模pixel-to-pixel以及pixel-to-region的對比關(guān)系作為知識。動機(jī)在于一個好的教師模型可以產(chǎn)生更好的全局pixel依賴以及特征空間。CIRKD引導(dǎo)學(xué)生模型去模仿教師網(wǎng)絡(luò)產(chǎn)生的更好的結(jié)構(gòu)化語義關(guān)系,因此提升了語義分割表現(xiàn)。

具體方法

本方法分別從mini-batch和memory的角度對結(jié)構(gòu)化關(guān)系進(jìn)行建模。

1. 基于mini-batch的pixel-to-pixel蒸餾

首先是在batch中建模關(guān)系,將圖像產(chǎn)生的特征圖在spatial維度上進(jìn)行分離,產(chǎn)生pixel-wise的特征向量。針對某一個pixel點(diǎn)的特征向量作為錨樣本,其他pixel點(diǎn)特征向量(包括當(dāng)前圖像和其他圖像)作為對比樣本,可以得到相似度矩陣?;诖朔椒ǎ诮處煻撕蛯W(xué)生端都可以產(chǎn)生對應(yīng)的相似度矩陣,然后通過KL散度進(jìn)行逼近,使得學(xué)生可以學(xué)到教師的相似度矩陣:

poYBAGJ525qAV7JAAAAy64ChKUc424.png

一個batch內(nèi)的圖像進(jìn)行兩兩之間的關(guān)系矩陣求取和遷移:

poYBAGJ527CAAyFHAAA1Stteods108.png

整個過程的示意圖如下所示:

pYYBAGJ528GAQjDoAAHaRgVd67I107.png

2. 基于memory的pixel-to-pixel蒸餾

相對于基于mini-batch的對比性關(guān)系求取,這里采用一個memory bank來存儲對比向量,使得每一個錨樣本都可以得到充足的對比樣本。針對某一個pixel點(diǎn)的特征向量作為錨樣本,每次訓(xùn)練隨機(jī)從memory bank中采樣大量的pixel特征向量來構(gòu)造對比樣本,通過相乘分別得到教師和學(xué)生的相似度矩陣:

poYBAGJ529OAE_USAAAgpjlUVbo449.png

使用KL散度的誤差形式將教師和學(xué)生的pixel-to-pixel相似度矩陣進(jìn)行對齊:

poYBAGJ52-GADE-EAAAujL9aVrM879.png

3. 基于memory的pixel-to-region蒸餾

離散化的pixel特征向量不能充分在捕捉到圖像內(nèi)容,因此本方法利用memory對region向量進(jìn)行存儲。region向量產(chǎn)生自對來自相同類別的pixel向量做一個平均。針對某一個pixel點(diǎn)的特征向量作為錨樣本,每次訓(xùn)練隨機(jī)從memory bank中采樣大量的region特征向量來構(gòu)造對比樣本,通過相乘分別得到教師和學(xué)生的相似度矩陣:

poYBAGJ52_CAABezAAAizUQO_X0194.png

使用KL散度的誤差形式將教師和學(xué)生的pixel-to-region相似度矩陣進(jìn)行對齊:

poYBAGJ53BOAQU98AAAvFu0ENzY799.png

基于memory進(jìn)行KD的整體示意圖如下所示:

pYYBAGJ53COAEmR9AADeNdVcI4Q457.png

最終的訓(xùn)練誤差則是將以上3部分誤差相加在一起:

pYYBAGJ53E2ACKp9AAA1ksZPZzw949.png

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)在流行的Cityscapes場景分割數(shù)據(jù)集上進(jìn)行,相比于其他流行的語義分割KD方法,CIRKD獲得了一致最佳的表現(xiàn)。

pYYBAGJ53FaAKb6LAAFvt4MBG6g082.png

在一些case study上進(jìn)行可視化,本方法能夠得到最好的分割表現(xiàn)。
審核編輯:彭靜

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7002

    瀏覽量

    88938
  • 存儲
    +關(guān)注

    關(guān)注

    13

    文章

    4296

    瀏覽量

    85796
  • 地平線
    +關(guān)注

    關(guān)注

    0

    文章

    340

    瀏覽量

    14941
收藏 人收藏

    評論

    相關(guān)推薦

    目標(biāo)檢測和圖像語義分割領(lǐng)域性能評價指標(biāo)

    目標(biāo)檢測和圖像語義分割領(lǐng)域的性能評價指標(biāo)
    發(fā)表于 05-13 09:57

    基于內(nèi)容的圖像分割方法綜述

    方法、基于像素聚類的方法語義分割方法這3種類型并分別加以介紹對每類方法所包含的典型算法,尤其
    發(fā)表于 01-02 16:52 ?2次下載
    基于內(nèi)容的<b class='flag-5'>圖像</b><b class='flag-5'>分割</b><b class='flag-5'>方法</b>綜述

    聚焦語義分割任務(wù),如何用卷積神經(jīng)網(wǎng)絡(luò)處理語義圖像分割?

    CNN架構(gòu)圖像語義分割 圖像分割是根據(jù)圖像內(nèi)容對指定區(qū)域進(jìn)行標(biāo)記的計算機(jī)視覺
    發(fā)表于 09-17 15:21 ?564次閱讀

    語義分割算法系統(tǒng)介紹

    圖像語義分割圖像處理和是機(jī)器視覺技術(shù)中關(guān)于圖像理解的重要任務(wù)
    的頭像 發(fā)表于 11-05 10:34 ?6680次閱讀

    分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法

    隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展及其在語義分割領(lǐng)域的廣泛應(yīng)用,語義分割效果得到顯著提升。對基于深度神經(jīng)網(wǎng)絡(luò)的圖像
    發(fā)表于 03-19 14:14 ?21次下載
    分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>圖像</b><b class='flag-5'>語義</b><b class='flag-5'>分割</b><b class='flag-5'>方法</b>

    結(jié)合雙目圖像的深度信息層次特征的語義分割模型

    為改善單目圖像語義分割網(wǎng)絡(luò)對圖像深度變化區(qū)域的分割效果,提出一種結(jié)合雙目圖像的深度信息和
    發(fā)表于 03-19 14:35 ?21次下載
    結(jié)合雙目<b class='flag-5'>圖像</b>的深度信息<b class='flag-5'>跨</b>層次特征的<b class='flag-5'>語義</b><b class='flag-5'>分割</b>模型

    基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法

    對應(yīng)用于圖像語義分割的幾種深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行簡單介紹,接著詳細(xì)闡述了現(xiàn)有主流的基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義
    發(fā)表于 04-02 13:59 ?11次下載
    基于深度神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>圖像</b><b class='flag-5'>語義</b><b class='flag-5'>分割</b><b class='flag-5'>方法</b>

    基于SEGNET模型的圖像語義分割方法

    使用原始 SEGNET模型對圖像進(jìn)行語義分割時,未對圖像中相鄰像素點(diǎn)間的關(guān)系進(jìn)行考慮,導(dǎo)致同一目標(biāo)中像素點(diǎn)類別預(yù)測結(jié)果不一致。通過在 SEG
    發(fā)表于 05-27 14:54 ?15次下載

    圖像語義分割的概念與原理以及常用的方法

    (Graph partitioning segmentation methods),在深度學(xué)習(xí)(Deep learning, DL)“一統(tǒng)江湖”之前,圖像語義分割方面的工作可謂“百花齊放”。
    的頭像 發(fā)表于 04-20 10:01 ?4545次閱讀

    語義分割標(biāo)注:從認(rèn)知到實(shí)踐

    隨著人工智能技術(shù)的不斷發(fā)展,語義分割標(biāo)注已經(jīng)成為計算機(jī)視覺領(lǐng)域的一個熱門話題。語義分割是指將圖像中的每個像素分配給一個預(yù)定義的
    的頭像 發(fā)表于 04-30 21:20 ?1101次閱讀

    AI算法說-圖像分割

    語義分割是區(qū)分同類物體的分割任務(wù),實(shí)例分割是區(qū)分不同實(shí)例的分割
    的頭像 發(fā)表于 05-17 14:44 ?1316次閱讀
    AI算法說-<b class='flag-5'>圖像</b><b class='flag-5'>分割</b>

    PyTorch教程-14.9. 語義分割和數(shù)據(jù)集

    SageMaker Studio Lab 中打開筆記本 在 第 14.3 節(jié)-第 14.8 節(jié)討論對象檢測任務(wù)時,矩形邊界框用于標(biāo)記和預(yù)測圖像中的對象。本節(jié)將討論語義分割問題,重
    的頭像 發(fā)表于 06-05 15:44 ?641次閱讀
    PyTorch教程-14.9. <b class='flag-5'>語義</b><b class='flag-5'>分割</b>和數(shù)據(jù)集

    圖像分割語義分割中的CNN模型綜述

    圖像分割語義分割是計算機(jī)視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個具有特定
    的頭像 發(fā)表于 07-09 11:51 ?823次閱讀

    圖像分割語義分割的區(qū)別與聯(lián)系

    圖像分割語義分割是計算機(jī)視覺領(lǐng)域中兩個重要的概念,它們在圖像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像
    的頭像 發(fā)表于 07-17 09:55 ?900次閱讀

    圖像語義分割的實(shí)用性是什么

    圖像語義分割是一種重要的計算機(jī)視覺任務(wù),它旨在將圖像中的每個像素分配到相應(yīng)的語義類別中。這項(xiàng)技術(shù)
    的頭像 發(fā)表于 07-17 09:56 ?414次閱讀
    RM新时代网站-首页