RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語(yǔ)義分割25種損失函數(shù)綜述和展望

穎脈Imgtec ? 2024-10-22 08:04 ? 次閱讀

來(lái)源:AI公園

導(dǎo)讀

本綜述提供了對(duì)25種用于圖像分割的損失函數(shù)的全面且統(tǒng)一的回顧。我們提供了一種新穎的分類法,并詳細(xì)審查了這些損失函數(shù)如何在圖像分割中被定制和利用,強(qiáng)調(diào)了它們的重要特征和應(yīng)用,并進(jìn)行了系統(tǒng)的分類。

2e537ba0-9009-11ef-b5cd-92fbcf53809c.png

摘要

語(yǔ)義圖像分割,即將圖像中的每個(gè)像素分類到特定的類別中,是許多視覺(jué)理解系統(tǒng)中的重要組成部分。作為評(píng)估統(tǒng)計(jì)模型性能的主要標(biāo)準(zhǔn),損失函數(shù)對(duì)于塑造基于深度學(xué)習(xí)的分割算法的發(fā)展以及提高其整體性能至關(guān)重要。為了幫助研究人員為其特定應(yīng)用識(shí)別最優(yōu)的損失函數(shù),本綜述提供了對(duì)25種用于圖像分割的損失函數(shù)的全面且統(tǒng)一的回顧。我們提供了一種新穎的分類法,并詳細(xì)審查了這些損失函數(shù)如何在圖像分割中被定制和利用,強(qiáng)調(diào)了它們的重要特征和應(yīng)用,并進(jìn)行了系統(tǒng)的分類。此外,為了評(píng)估這些方法在現(xiàn)實(shí)世界場(chǎng)景中的有效性,我們提出了一些獨(dú)特而著名的損失函數(shù)在已建立的醫(yī)學(xué)和自然圖像數(shù)據(jù)集上的無(wú)偏評(píng)估。我們?cè)诒揪C述的最后指出了當(dāng)前的挑戰(zhàn)并揭示了未來(lái)的研究機(jī)會(huì)。最后,我們已經(jīng)整理了在我們的GitHub上具有開源實(shí)現(xiàn)的所審查的研究。

1、介紹

圖像分割在廣泛的視覺(jué)理解系統(tǒng)中扮演著基礎(chǔ)性的角色。其主要目標(biāo)是為給定的圖像生成密集預(yù)測(cè),即為每個(gè)像素分配一個(gè)預(yù)定義的類別標(biāo)簽(語(yǔ)義分割),或?qū)⒚總€(gè)像素與一個(gè)對(duì)象實(shí)例關(guān)聯(lián)起來(lái)(實(shí)例分割),或者是兩者的結(jié)合(全景分割),這有助于將具有相似語(yǔ)義的像素組織成有意義的高層次概念。分割技術(shù)在包括醫(yī)學(xué)影像分析、視頻監(jiān)控和增強(qiáng)現(xiàn)實(shí)[7]等眾多領(lǐng)域有著廣泛的應(yīng)用。從卷積神經(jīng)網(wǎng)絡(luò)(CNN)到Transformer,已經(jīng)提出了許多不同的模型架構(gòu)用于語(yǔ)義分割。然而,分割模型的最佳性能依賴于正確的網(wǎng)絡(luò)結(jié)構(gòu)選擇和適當(dāng)?shù)哪繕?biāo)函數(shù)。特別是,圖像分割研究的一個(gè)重要領(lǐng)域涉及開發(fā)方法以緩解各種挑戰(zhàn),包括類別不平衡、數(shù)據(jù)集稀缺以及噪聲、人類偏差和標(biāo)注者之間一致性差等問(wèn)題,通過(guò)廣泛提出的魯棒損失函數(shù)來(lái)允許模型參數(shù)的聯(lián)合優(yōu)化。此外,許多現(xiàn)代深度圖像分割技術(shù)容易在恢復(fù)細(xì)小連接、復(fù)雜結(jié)構(gòu)元素、精確邊界定位方面失敗,進(jìn)而導(dǎo)致圖像拓?fù)浣Y(jié)構(gòu)的不正確。由于研究界對(duì)解決這些問(wèn)題的興趣激增,對(duì)現(xiàn)有文獻(xiàn)進(jìn)行綜述對(duì)于社區(qū)來(lái)說(shuō)是有益且及時(shí)的,可以幫助熱情的研究人員和實(shí)踐者為手頭的分割任務(wù)找到最佳的目標(biāo)函數(shù)。具體而言,本綜述提供了25種為圖像分割應(yīng)用開發(fā)的損失函數(shù)的整體概述。我們對(duì)它們的設(shè)計(jì)進(jìn)行了分類,強(qiáng)調(diào)了現(xiàn)有方法的主要優(yōu)勢(shì)和不足,并回顧了來(lái)自自然圖像和醫(yī)學(xué)圖像分割等多個(gè)應(yīng)用的關(guān)鍵技術(shù)。我們?cè)趦蓚€(gè)流行的醫(yī)學(xué)和自然圖像數(shù)據(jù)集上對(duì)一些評(píng)審的方法進(jìn)行了比較實(shí)驗(yàn),并在GitHub上提供了它們的代碼和預(yù)訓(xùn)練權(quán)重。徹底搜索相關(guān)文獻(xiàn)后發(fā)現(xiàn),我們是第一個(gè)根據(jù)覆蓋用于語(yǔ)義分割領(lǐng)域的損失函數(shù)的研究。但是,與不同的是,我們提出了一種新的、詳細(xì)的和有組織的分類法,強(qiáng)調(diào)了任務(wù)特有的挑戰(zhàn),并基于評(píng)審文獻(xiàn)提供了如何解決這些挑戰(zhàn)的見解,這使得能夠結(jié)構(gòu)化地理解不同領(lǐng)域的研究進(jìn)展和局限性,涵蓋了2020年以后的研究成果。

此外,我們展示了廣泛的定性和定量實(shí)驗(yàn),驗(yàn)證了在自然圖像和醫(yī)學(xué)圖像分割中每個(gè)分類下的設(shè)計(jì)決策和性能。進(jìn)一步地,當(dāng)我們考慮損失函數(shù)如何影響基于CNN和Transformer的方法時(shí),我們認(rèn)為這項(xiàng)工作將突出新的研究機(jī)會(huì),為研究人員提供指導(dǎo),并激發(fā)計(jì)算機(jī)視覺(jué)界進(jìn)一步利用所涵蓋損失函數(shù)在分割領(lǐng)域的潛力的興趣。本綜述文章的一些關(guān)鍵貢獻(xiàn)可以概括如下:我們系統(tǒng)而深入地考察了圖像分割領(lǐng)域的損失函數(shù),并對(duì)這些方法進(jìn)行了對(duì)比和分析。特別地,以層次化和結(jié)構(gòu)化的方式涵蓋了語(yǔ)義分割中的25種損失函數(shù)。

? 我們的工作提供了對(duì)損失函數(shù)的分類學(xué)(圖1)分析,以及對(duì)其各個(gè)方面討論。

? 我們使用兩個(gè)知名的數(shù)據(jù)集——Cityscapes和Synapse多器官分割數(shù)據(jù)集,對(duì)所評(píng)審方法的選擇進(jìn)行了比較實(shí)驗(yàn)。

? 最后,我們解決了障礙和未解決的問(wèn)題,同時(shí)承認(rèn)新興模式,提出了未解答的問(wèn)題,并確定了未來(lái)研究可能的方向。

2e7afca2-9009-11ef-b5cd-92fbcf53809c.png

1.1 本綜述的動(dòng)機(jī)和獨(dú)特性

圖像分割方法在過(guò)去幾十年里經(jīng)歷了顯著的進(jìn)步。這些進(jìn)步從集成多分辨率和層次特征圖的主要方向,到利用邊界信息,再到在一個(gè)多任務(wù)學(xué)習(xí)框架中聯(lián)合優(yōu)化語(yǔ)義分割和補(bǔ)充任務(wù)。這些多樣化的策略旨在緩解分割中的一些挑戰(zhàn),如類別不平衡、錯(cuò)誤或不完整的邊界以及像素的重要性等。盡管在這一領(lǐng)域完全發(fā)展之前已經(jīng)有一篇綜述文章發(fā)表,但從那時(shí)起,該領(lǐng)域已經(jīng)取得了很大的進(jìn)展。另一方面,沒(méi)有綜述文章專注于分割中損失函數(shù)的應(yīng)用導(dǎo)向視角,這是推動(dòng)該研究方向前進(jìn)的核心方面。因此,社區(qū)中存在明顯的空白。更重要的是,損失函數(shù)在訓(xùn)練機(jī)器學(xué)習(xí)模型以準(zhǔn)確勾勒?qǐng)D像中感興趣區(qū)域的過(guò)程中扮演著關(guān)鍵工具的角色。在醫(yī)學(xué)領(lǐng)域,準(zhǔn)確的分割可以通過(guò)輔助疾病診斷和治療而產(chǎn)生挽救生命的影響。不同的損失函數(shù)可以極大地影響模型分割解剖結(jié)構(gòu)或檢測(cè)醫(yī)學(xué)圖像中異常的能力。

同樣,在自然圖像領(lǐng)域,如衛(wèi)星圖像或場(chǎng)景理解中,準(zhǔn)確的分割對(duì)于自動(dòng)駕駛汽車和環(huán)境監(jiān)測(cè)等應(yīng)用至關(guān)重要。損失函數(shù)的選擇也會(huì)影響這些領(lǐng)域中模型的性能。因此,在我們的綜述中,我們引導(dǎo)來(lái)自醫(yī)學(xué)和計(jì)算機(jī)視覺(jué)社區(qū)的讀者理解這些損失函數(shù)的目的和用例。此外,通過(guò)在卷積神經(jīng)網(wǎng)絡(luò)(CNN)和基于Transformer的方法背景下,跨涵蓋醫(yī)學(xué)和自然圖像的不同領(lǐng)域評(píng)估這些損失函數(shù),我們旨在展示它們?cè)趹?yīng)對(duì)挑戰(zhàn)性任務(wù)中的真實(shí)效能。對(duì)損失函數(shù)的全面考察預(yù)計(jì)會(huì)為讀者提供更廣闊的視角,以便就采用更合適的損失函數(shù)做出明智的決定。

1.2 搜索策略

我們?cè)谥T如DBLP、Google Scholar和Arxiv Sanity Preserver這樣的平臺(tái)上進(jìn)行了搜索,充分利用了它們生成定制搜索查詢和全面學(xué)術(shù)作品列表的能力。這些搜索涵蓋了廣泛的學(xué)術(shù)出版物,包括同行評(píng)審的期刊文章、會(huì)議或研討會(huì)提交的論文、非同行評(píng)審材料和預(yù)印本,所有這一切都是通過(guò)定制的搜索標(biāo)準(zhǔn)實(shí)現(xiàn)的。我們的具體搜索查詢?yōu)?loss* deep | segmentation*) (loss | segmentation*) (loss* | train* | segmentation* | model*) (loss* | function* | segmentation* | medical*)。我們對(duì)搜索結(jié)果進(jìn)行了篩選,去除了錯(cuò)誤數(shù)據(jù),并僅包括與語(yǔ)義分割模型相關(guān)的論文。最終,我們選擇了深入探討現(xiàn)有文獻(xiàn)中常用的不同損失函數(shù),或是為特定目的設(shè)計(jì)的損失函數(shù)。

1.3 論文組織結(jié)構(gòu)

本文其余部分的組織結(jié)構(gòu)如下。第2節(jié)中,我們提供了圖像分割中已建立損失函數(shù)的關(guān)鍵組件的詳細(xì)概述。此外,本節(jié)通過(guò)提出一種分類法來(lái)澄清目標(biāo)函數(shù)變體的分類,旨在表征技術(shù)創(chuàng)新和重要的應(yīng)用場(chǎng)景。對(duì)于每種損失函數(shù),我們介紹了其理論基礎(chǔ)和基本概念,以及整個(gè)領(lǐng)域面臨的開放挑戰(zhàn)和未來(lái)展望。第4節(jié)中,我們?cè)u(píng)估了幾種先前討論的損失函數(shù)變體在受歡迎的自然/醫(yī)學(xué)分割基準(zhǔn)上的表現(xiàn)。最后,第6節(jié)總結(jié)并結(jié)束了本綜述。

2、語(yǔ)義分割中的損失函數(shù)

我們將現(xiàn)有的語(yǔ)義分割損失函數(shù)研究分為三大類,依據(jù)它們的關(guān)注點(diǎn)和目標(biāo)(見圖1)。像素級(jí)損失函數(shù)在單個(gè)像素層面上運(yùn)作,旨在確保分割區(qū)域內(nèi)每個(gè)像素的準(zhǔn)確分類。這些損失函數(shù)獨(dú)立計(jì)算每個(gè)像素的預(yù)測(cè)值與其對(duì)應(yīng)的真實(shí)標(biāo)簽之間的差異。相比之下,區(qū)域級(jí)損失函數(shù)關(guān)注整體類別的分割,通過(guò)最大化預(yù)測(cè)分割掩碼與真實(shí)掩碼之間的對(duì)齊來(lái)實(shí)現(xiàn)這一點(diǎn)。這些方法強(qiáng)調(diào)重疊,優(yōu)先考慮對(duì)象分割的準(zhǔn)確性而非像素級(jí)細(xì)節(jié)。最后,邊界級(jí)損失函數(shù)專門針對(duì)分割任務(wù)中對(duì)象邊界的精度,有效地分離重疊的對(duì)象。這些損失致力于最小化預(yù)測(cè)邊界與真實(shí)邊界之間的距離或不相似度,從而促進(jìn)分割區(qū)域的細(xì)粒度對(duì)齊。通過(guò)將損失函數(shù)分為這三個(gè)級(jí)別,即像素級(jí)、區(qū)域級(jí)和邊界級(jí),該領(lǐng)域獲得了對(duì)提高語(yǔ)義分割性能所采用的各種策略的全面視角。為了保持全文的一致性,我們?cè)谠敿?xì)說(shuō)明各個(gè)損失函數(shù)之前建立了正式的符號(hào)表示,如表1所示。除非另有說(shuō)明,本文中的所有公式都將遵循這種符號(hào)表示。在接下來(lái)的小節(jié)中,我們將對(duì)每一類進(jìn)行更詳細(xì)的闡述。

2.1 像素級(jí)

語(yǔ)義分割中的像素級(jí)損失函數(shù)深入到單個(gè)像素層面,以實(shí)現(xiàn)對(duì)分割區(qū)域內(nèi)每個(gè)像素分類的高度準(zhǔn)確性。這些損失函數(shù)獨(dú)立計(jì)算每個(gè)像素的預(yù)測(cè)值與其對(duì)應(yīng)的真實(shí)標(biāo)簽之間的差異或誤差。它們?cè)谛枰?xì)粒度像素級(jí)準(zhǔn)確性的場(chǎng)景下表現(xiàn)出色,例如要求詳細(xì)對(duì)象識(shí)別和分割的任務(wù)。下面,我們將介紹幾個(gè)這方面知名的損失函數(shù)。

2.1.1 交叉熵?fù)p失

交叉熵(CE)衡量給定隨機(jī)變量的兩個(gè)概率分布之間的差異。在分割任務(wù)中,交叉熵?fù)p失被用來(lái)測(cè)量模型的預(yù)測(cè)與目標(biāo)標(biāo)簽匹配的程度。通過(guò)使用softmax函數(shù),模型生成像素級(jí)別的概率圖,表示每個(gè)像素屬于每個(gè)類別的可能性。然后,通過(guò)取每個(gè)像素目標(biāo)類別預(yù)測(cè)概率的負(fù)對(duì)數(shù)來(lái)計(jì)算交叉熵?fù)p失。當(dāng)目標(biāo)類別的預(yù)測(cè)概率接近1時(shí),交叉熵?fù)p失趨近于0。

2ea810de-9009-11ef-b5cd-92fbcf53809c.png

由于是一個(gè)獨(dú)熱編碼向量,只有目標(biāo)類別的預(yù)測(cè)概率會(huì)影響交叉熵?fù)p失。在處理不平衡數(shù)據(jù)集時(shí),對(duì)交叉熵?fù)p失的一種方法是對(duì)每個(gè)類別分配不同的權(quán)重。這可以幫助平衡各個(gè)類別對(duì)總體損失的影響,并提高模型在少數(shù)類別上的表現(xiàn)。一種分配權(quán)重的方法是使用逆類別頻率,這意味著每個(gè)類別的權(quán)重與其樣本數(shù)量成反比。因此,樣本較少的類別將具有較高的權(quán)重,而樣本較多的類別將具有較低的權(quán)重。

2ebd728a-9009-11ef-b5cd-92fbcf53809c.png

對(duì)于每個(gè)像素,使用目標(biāo)類別的權(quán)重。如果所有權(quán)重都設(shè)置為1,那么我們得到的就是普通的交叉熵?fù)p失。

2.1.2 TopK 損失

TopK損失是交叉熵?fù)p失的一種擴(kuò)展,它使得模型在每次迭代中只從最難分類的像素中學(xué)習(xí)。選擇目標(biāo)類別預(yù)測(cè)概率最低的前k%的像素,僅考慮這些像素的損失。它可以表示為:

2ed9564e-9009-11ef-b5cd-92fbcf53809c.png

其中,K是包含分配給目標(biāo)類別概率最低的k%像素的集合。

2.1.3 焦點(diǎn)損失(Focal Loss)

另一種處理數(shù)據(jù)不平衡的方法是使用焦點(diǎn)損失(Focal Loss)。焦點(diǎn)損失是交叉熵?fù)p失的一個(gè)修改版本,它為簡(jiǎn)單樣本和困難樣本分配不同的權(quán)重。在這里,困難樣本是指那些以高概率被錯(cuò)誤分類的樣本,而簡(jiǎn)單樣本則是指那些以高概率被正確分類的樣本。這有助于平衡簡(jiǎn)單樣本和困難樣本對(duì)總體損失的影響。焦點(diǎn)損失的公式可以表示為:

2eef1dc6-9009-11ef-b5cd-92fbcf53809c.png

其中,γ是一個(gè)非負(fù)可調(diào)的超參數(shù)。當(dāng)對(duì)所有樣本將γ設(shè)置為0時(shí),我們得到的就是普通的交叉熵?fù)p失。

2.1.4 距離圖衍生的交叉熵?fù)p失

許多語(yǔ)義分割模型在對(duì)象邊界處的表現(xiàn)會(huì)有所下降。為了讓模型更加關(guān)注難以分割的邊界區(qū)域,一個(gè)直接的方法是在對(duì)象邊界處對(duì)分割錯(cuò)誤施加更大的懲罰。為此,Caliva等人使用了距離圖。距離圖與圖像具有相同的形狀,每個(gè)像素被賦予其到最近邊界像素的最短距離。然后,距離圖 的倒數(shù)被用作交叉熵?fù)p失的權(quán)重,這樣靠近邊界的像素會(huì)獲得更高的權(quán)重,而遠(yuǎn)離邊界的像素則獲得較低的權(quán)重。這種方法有助于提高模型在邊界區(qū)域的分割精度,特別是在處理具有復(fù)雜邊界結(jié)構(gòu)的對(duì)象時(shí)更為有效。

2f08c8e8-9009-11ef-b5cd-92fbcf53809c.png

在距離圖 Φ 的倒數(shù)中添加常數(shù)1是為了避免梯度消失問(wèn)題。

2.2 區(qū)域級(jí)

區(qū)域級(jí)損失函數(shù)在語(yǔ)義分割任務(wù)中采取了更寬廣的視角。這些方法不是專注于每個(gè)像素,而是優(yōu)先考慮對(duì)象分割的整體準(zhǔn)確性。它們的目標(biāo)是確保預(yù)測(cè)的分割掩碼與更高層次的真實(shí)掩碼緊密匹配,捕捉對(duì)象形狀和布局的本質(zhì)。當(dāng)全局上下文和對(duì)象完整性比像素級(jí)準(zhǔn)確性更重要時(shí),區(qū)域級(jí)損失函數(shù)尤其有價(jià)值。

2.2.1 Dice 損失

Dice損失源自Dice系數(shù),這是一種衡量?jī)山M數(shù)據(jù)之間相似性的指標(biāo)。在圖像分割中,Dice損失通常用于評(píng)估預(yù)測(cè)分割掩碼與目標(biāo)分割掩碼之間的重疊程度。它定義為預(yù)測(cè)分割掩碼與真實(shí)分割掩碼交集的大小除以它們總和的大小。Dice損失是針對(duì)每個(gè)類別單獨(dú)計(jì)算的,然后報(bào)告平均值。它可以表示為:

2f26242e-9009-11ef-b5cd-92fbcf53809c.png

其中,Y 是二值分割預(yù)測(cè)掩碼,T是單個(gè)類別的二值分割目標(biāo)掩碼。Dice系數(shù)在語(yǔ)義分割中常用,因?yàn)樗子谟?jì)算,提供了一個(gè)單一值的性能概要,并且在精確率和召回率之間取得了良好的平衡。當(dāng)感興趣的物體較小或罕見且類別分布不平衡時(shí),Dice系數(shù)特別有用。Dice損失由Milletari等人提出,如方程7所示。它可以被視為一個(gè)松弛的、可微的Dice系數(shù)。具體的表達(dá)式為:

2f428b6e-9009-11ef-b5cd-92fbcf53809c.png

對(duì)于每個(gè)目標(biāo)類別分別計(jì)算,并使用所有類別的平均值。預(yù)測(cè)值不是被確定為0或1,而是被松弛為概率值[0,1]。這使得損失函數(shù)變得可微,并可以使用梯度下降方法進(jìn)行優(yōu)化。最后,從1中減去松弛的Dice系數(shù),使其成為一個(gè)需要最小化的損失函數(shù),而不是最大化。這是處理不平衡數(shù)據(jù)集的一個(gè)流行選擇,因?yàn)樗乐鼓P屯ㄟ^(guò)關(guān)注預(yù)測(cè)掩碼和真實(shí)掩碼之間的重疊區(qū)域而忽略少數(shù)類。

2.2.2 對(duì)數(shù)余弦Dice損失

Jadon將Dice損失包裹在一個(gè)對(duì)數(shù)余弦(log-cosh)函數(shù)中,該函數(shù)定義為:

2f5b437a-9009-11ef-b5cd-92fbcf53809c.png

其中 。對(duì)數(shù)余弦函數(shù)的導(dǎo)數(shù),即雙曲正切(tanh),是一個(gè)在±1范圍內(nèi)平滑變化的函數(shù)。對(duì)數(shù)余弦Dice損失在分割任務(wù)中提供了幾個(gè)關(guān)鍵優(yōu)勢(shì)。首先,它增強(qiáng)了平滑性和對(duì)外部異常點(diǎn)的魯棒性,減輕了噪聲標(biāo)注或圖像偽影的影響。這一特性確保了更加穩(wěn)定的訓(xùn)練過(guò)程,尤其是在數(shù)據(jù)易出現(xiàn)不規(guī)則情況時(shí)。其次,損失函數(shù)的內(nèi)在平滑性促進(jìn)了更優(yōu)的優(yōu)化過(guò)程,避免了傳統(tǒng)Dice損失中常見的尖銳梯度帶來(lái)的不穩(wěn)定影響。這一點(diǎn)在使用基于梯度的優(yōu)化方法(如隨機(jī)梯度下降SGD)時(shí)尤其有利。最后,對(duì)數(shù)余弦Dice損失在精確率和召回率之間找到了平衡,解決了Dice損失通常過(guò)于強(qiáng)調(diào)精確率而忽視召回率的問(wèn)題。這種平衡源于其平滑性,可能帶來(lái)更好的分割結(jié)果。在二分類分割的例子中,雖然Dice損失會(huì)嚴(yán)重懲罰假陽(yáng)性,但對(duì)數(shù)余弦Dice損失提供了一個(gè)更為均衡的方法,平滑了損失空間,降低了對(duì)外部異常點(diǎn)的敏感度,最終有助于更好地管理類別不平衡并同時(shí)提高精確率和召回率。

2.2.3 廣義Wasserstein Dice損失

Wasserstein距離,也被稱為Earth Mover’s Distance (EMD),是通過(guò)計(jì)算將一個(gè)概率分布轉(zhuǎn)換為另一個(gè)所需最小成本來(lái)確定兩個(gè)概率分布之間的距離。根據(jù)這一定義,Wasserstein距離要求找到一種“最優(yōu)傳輸”,以最小化從一個(gè)分布到另一個(gè)分布的轉(zhuǎn)換成本。當(dāng)可能路徑的數(shù)量有限時(shí),這個(gè)最小化問(wèn)題可以被表述為一個(gè)線性規(guī)劃問(wèn)題。在語(yǔ)義分割的背景下,F(xiàn)idon等人提出了使用Wasserstein距離來(lái)計(jì)算依賴于預(yù)測(cè)值和目標(biāo)值類別概率的損失項(xiàng)。在這種方法中,不同類別之間的轉(zhuǎn)換成本通過(guò)一個(gè)表示為的矩陣來(lái)描繪,從而可以對(duì)語(yǔ)義相似類別(如“左腎”和“右腎”)之間的錯(cuò)誤施加較輕的懲罰。因此,損失函數(shù)可以被設(shè)計(jì)成考慮類別間關(guān)系的形式。

2f793a1a-9009-11ef-b5cd-92fbcf53809c.png

其中, 表示第n個(gè)像素的預(yù)測(cè)類別概率。 表示代表第n個(gè)像素目標(biāo)類別的one-hot編碼向量。 是一個(gè)表示各類別之間轉(zhuǎn)換成本的矩陣,允許考慮到類別間的語(yǔ)義相似性。

2.2.4 IOU (Jaccard) 損失

IOU損失源自于交并比(Intersection over Union, IoU)度量,也稱為Jaccard指數(shù)。它被定義為預(yù)測(cè)分割掩碼與真實(shí)分割掩碼交集的大小除以它們并集的大小。2f9134d0-9009-11ef-b5cd-92fbcf53809c.png類似于Dice系數(shù),IOU也是針對(duì)每個(gè)類別進(jìn)行計(jì)算,并使用平均值(mIoU)。IOU損失由Rahman等人提出,可以被視為一種放松且可微的mIoU形式。

2faa1806-9009-11ef-b5cd-92fbcf53809c.png

2.2.5 Lovász-Softmax損失Lovász-Softmax損失是一種用于直接優(yōu)化IoU度量的替代函數(shù)。其基本思想是將每個(gè)類別的預(yù)測(cè)得分視為一組有序值,然后定義一個(gè)函數(shù)來(lái)衡量這些有序值與真實(shí)標(biāo)簽順序之間的差異。這種差異隨后作為訓(xùn)練過(guò)程中需要最小化的損失。研究表明,相比于使用交叉熵?fù)p失訓(xùn)練,Lovász-Softmax損失能夠獲得更好的mIoU分?jǐn)?shù)。2fc53096-9009-11ef-b5cd-92fbcf53809c.png其中,ΔJc(m(c))是應(yīng)用到使用hinge損失計(jì)算的IoU(Jaccard)損失上的Lovász hinge。

2.2.6 Tversky損失

Tversky損失源自Tversky指數(shù),這是一種兩個(gè)數(shù)據(jù)集之間不對(duì)稱的相似度度量。它是Dice系數(shù)和IoU的一種泛化,允許獨(dú)立地權(quán)衡假陽(yáng)性和假陰性的權(quán)重。它被定義為:2fe0b23a-9009-11ef-b5cd-92fbcf53809c.png其中,α 和 β 是假陰性和假陽(yáng)性的權(quán)重。當(dāng) α = β = 0.5 時(shí),Tversky指數(shù)退化為Dice系數(shù);當(dāng) α = β = 1 時(shí),它退化為IoU。受Tversky指數(shù)的啟發(fā),提出了Tversky損失:2ff76160-9009-11ef-b5cd-92fbcf53809c.png2.2.7 Focal Tversky損失類似于Focal損失,F(xiàn)ocal Tversky損失增加了難以分類像素的權(quán)重。301bc8fc-9009-11ef-b5cd-92fbcf53809c.png其中 表示類別c的Tversky損失。當(dāng) γ=1時(shí),F(xiàn)ocal Tversky損失等同于Tversky損失。Abraham等人推薦 γγ 的取值范圍為[1,3],這樣可以使模型更加關(guān)注于誤分類的像素。然而,當(dāng)訓(xùn)練接近收斂時(shí),F(xiàn)ocal Tversky損失會(huì)被抑制,從而阻止模型達(dá)到完全收斂。

2.2.8 敏感性特異性損失

敏感性和特異性術(shù)語(yǔ)廣泛用于評(píng)估機(jī)器學(xué)習(xí)模型的性能。敏感性,也稱為召回率,是指正確分類的正樣本預(yù)測(cè)數(shù)量與實(shí)際正樣本數(shù)量的比例。特異性是指真正負(fù)樣本被分類為負(fù)樣本的比例。這兩個(gè)術(shù)語(yǔ)定義如下:

30368c6e-9009-11ef-b5cd-92fbcf53809c.png

為了在數(shù)據(jù)不平衡的情況下控制假陰性(FNs)和假陽(yáng)性(FPs)之間的權(quán)衡,設(shè)計(jì)了敏感性特異性損失。該損失函數(shù)通過(guò)方程(18)中的參數(shù) w來(lái)調(diào)整分配給假陰性和假陽(yáng)性的權(quán)重,其定義如下:

30532fcc-9009-11ef-b5cd-92fbcf53809c.png

2.2.9 區(qū)域互信息損失(RMI)

盡管基于交叉熵的損失函數(shù)在像素級(jí)分類中非常有效,但它們忽略了圖像內(nèi)像素之間的相互依賴關(guān)系。這一局限性促使研究者探索替代方法,包括基于條件隨機(jī)場(chǎng)和像素親和力的方法。雖然這些技術(shù)在捕捉像素關(guān)系方面具有潛力,但它們通常需要更長(zhǎng)的計(jì)算時(shí)間,對(duì)視覺(jué)屬性的變化敏感,并且需要額外的內(nèi)存資源。區(qū)域互信息(Region Mutual Information, RMI)損失旨在通過(guò)利用圖像中像素之間的相互依賴關(guān)系,克服傳統(tǒng)像素級(jí)損失函數(shù)的固有局限性。RMI基于互信息(Mutual Information, MI),后者是在兩個(gè)隨機(jī)變量之間定義的,用于量化通過(guò)觀察一個(gè)變量可以獲得關(guān)于另一個(gè)變量的信息量。RMI考慮每個(gè)像素及其8個(gè)鄰近像素來(lái)表示該像素,從而使圖像中的每個(gè)像素成為9維(9-D)點(diǎn)。換句話說(shuō),每幅圖像被轉(zhuǎn)換為這些9-D點(diǎn)的多維分布。最終,通過(guò)互信息(MI)來(lái)最大化真實(shí)標(biāo)簽和模型預(yù)測(cè)的多維分布之間的相似度。為了簡(jiǎn)化計(jì)算,他們沒(méi)有直接計(jì)算這些多維分布之間的MI,而是提出計(jì)算它們之間的MI下界。此外,在構(gòu)建這些多維分布之前,他們采用降采樣策略來(lái)減少額外的內(nèi)存消耗。簡(jiǎn)化后的MI下界表達(dá)式如公式(21)所示:

30763cec-9009-11ef-b5cd-92fbcf53809c.png

其中表示給定 P的Y的后驗(yàn)協(xié)方差。關(guān)于如何近似Y的后驗(yàn)協(xié)方差的更多細(xì)節(jié),請(qǐng)參見主要文章。

2.2.10 魯棒T損失

魯棒T損失通過(guò)強(qiáng)調(diào)魯棒性采取了一種獨(dú)特的分割方法。它通過(guò)使用Student-t分布的負(fù)對(duì)數(shù)似然來(lái)實(shí)現(xiàn)這一點(diǎn),Student-t分布以其處理噪聲數(shù)據(jù)和異常值的能力而著稱。這種分布的特點(diǎn)是其尾部比常見的正態(tài)分布“更重”。這些重尾使Student-t分布在處理遠(yuǎn)離常規(guī)模式的數(shù)據(jù)點(diǎn)時(shí)表現(xiàn)出色。在常規(guī)的損失函數(shù)中,我們經(jīng)常使用均方誤差(Mean Squared Error, MSE),它來(lái)源于正態(tài)分布的負(fù)對(duì)數(shù)似然。魯棒T損失(Robust T-Loss, RTL)通過(guò)用Student-t分布替換正態(tài)分布來(lái)改變這一點(diǎn)。具體來(lái)說(shuō),Student-t分布由于其較重的尾部,能夠更好地處理數(shù)據(jù)中的異常值和噪聲,從而提高模型在面對(duì)不完美數(shù)據(jù)時(shí)的魯棒性和穩(wěn)定性。這種方法特別適用于那些數(shù)據(jù)質(zhì)量不可控或存在大量噪聲的應(yīng)用場(chǎng)景。

3090b2ac-9009-11ef-b5cd-92fbcf53809c.png

這里,p(yi | Σ; ν) 是基于Student-t分布的概率。這一變化使得損失函數(shù)對(duì)噪聲標(biāo)簽和異常值的影響更加具有抵抗力。魯棒T-Loss有一個(gè)關(guān)鍵參數(shù)ν,它控制著損失函數(shù)對(duì)不同水平噪聲的響應(yīng)方式。當(dāng)ν較低時(shí),損失類似于均方誤差(MSE),而在高值時(shí),它類似于平均絕對(duì)誤差(MAE)。魯棒T-Loss的一個(gè)顯著優(yōu)勢(shì)是在訓(xùn)練過(guò)程中學(xué)習(xí)到最優(yōu)的標(biāo)簽噪聲容忍度的能力。這使它區(qū)別于其他需要預(yù)先了解噪聲水平或進(jìn)行復(fù)雜計(jì)算的方法。通過(guò)直接將適應(yīng)過(guò)程融入反向傳播中,損失函數(shù)實(shí)際上教會(huì)了自己如何處理噪聲標(biāo)簽,從而消除了額外計(jì)算的需求。

2.3 邊界級(jí)

邊界級(jí)損失函數(shù):邊界級(jí)損失函數(shù)專注于分割任務(wù)中對(duì)象邊界的精確性。它們的主要目標(biāo)是銳化對(duì)象邊界并有效分離重疊的對(duì)象。這些損失函數(shù)通過(guò)最小化預(yù)測(cè)對(duì)象邊界與真實(shí)邊界之間的距離或不相似性來(lái)工作。在諸如圖像修復(fù)或場(chǎng)景分割等任務(wù)中,當(dāng)區(qū)分對(duì)象邊界至關(guān)重要時(shí),這些損失函數(shù)非常有用。

2.3.1 邊界損失

邊界損失由Kervadec等人在其工作中提出,提供了一種創(chuàng)新的方法來(lái)解決不平衡的分割任務(wù),特別是在前景區(qū)域大小與背景區(qū)域大小顯著對(duì)比的情況下。這種不平衡通常會(huì)導(dǎo)致使用傳統(tǒng)的區(qū)域損失函數(shù)(如Dice損失)時(shí)性能下降和訓(xùn)練不穩(wěn)定。邊界損失通過(guò)將其重點(diǎn)放在邊界區(qū)域上巧妙地應(yīng)對(duì)了這些挑戰(zhàn)。邊界損失的核心在于其利用了一種針對(duì)邊界的距離度量。該度量用于量化預(yù)測(cè)邊界與其相應(yīng)的真實(shí)表示之間的差異,包含了沿真實(shí)邊界方向的正常變化。L2距離在評(píng)估邊界變化中起著基礎(chǔ)作用,其數(shù)學(xué)定義如下:

30b04b76-9009-11ef-b5cd-92fbcf53809c.png

在此公式中,s(q) 表示模型生成的概率預(yù)測(cè),而?G(q) 表示距離項(xiàng)。然而,必須認(rèn)識(shí)到直接將此距離度量作為損失函數(shù)納入是相當(dāng)困難的。這種復(fù)雜性主要來(lái)源于將邊界點(diǎn)表示為可微函數(shù)的挑戰(zhàn),這些函數(shù)是從神經(jīng)網(wǎng)絡(luò)的輸出中得出的。因此,研究人員通常會(huì)因?yàn)檫@個(gè)復(fù)雜的問(wèn)題而避免使用基于邊界的損失函數(shù)。為了克服這一限制,邊界損失的作者從離散優(yōu)化技術(shù)中汲取靈感,這些技術(shù)傳統(tǒng)上用于曲線演化的背景下。

2.3.2 Hausdorff 距離損失

Hausdorff 距離(HD)是醫(yī)學(xué)圖像分割中常用的一種評(píng)價(jià)指標(biāo)。Hausdorff 距離是一種定義在集合對(duì)上的度量,它量化了一個(gè)集合中的點(diǎn)到另一個(gè)集合中最近點(diǎn)的最大距離,捕捉最壞情況下的情形。在這個(gè)上下文中,考慮兩個(gè)非空點(diǎn)集,分別記為X和Y,以及點(diǎn)x ∈ X和y ∈ Y之間的距離度量,記為d(x, y),通常使用歐幾里得距離或曼哈頓距離等度量。Hausdorff 距離定義為:

30c7e57e-9009-11ef-b5cd-92fbcf53809c.png

在圖像分割的情況下,Hausdorff 距離是在預(yù)測(cè)掩碼和真實(shí)掩碼的邊界之間計(jì)算的。盡管它是一個(gè)常用的度量標(biāo)準(zhǔn),但Hausdorff 距離也有其缺點(diǎn)。與其他使用整體分割性能的度量不同,Hausdorff 距離僅依賴于最大的錯(cuò)誤,并且對(duì)異常值過(guò)于敏感。因此,僅僅為了最小化最大錯(cuò)誤而進(jìn)行優(yōu)化可能會(huì)導(dǎo)致算法不穩(wěn)定和結(jié)果不可靠。此外,只最小化最大的分割錯(cuò)誤可能會(huì)降低整體分割性能,特別是在醫(yī)學(xué)影像中常見的復(fù)合形狀情況下。這是因?yàn)?,雖然模型可能能夠在圖像的大部分區(qū)域?qū)崿F(xiàn)足夠的準(zhǔn)確性,但在少數(shù)特別困難的區(qū)域可能會(huì)遇到較大的錯(cuò)誤。Karimi等人提出了一種方法,直接優(yōu)化神經(jīng)網(wǎng)絡(luò)以減少Hausdorff 距離。他們提出了三種不同的損失函數(shù),通過(guò)采用三種不同的方法以可微的方式近似Hausdorff 距離來(lái)最小化它。他們展示了這些損失函數(shù)在減少大錯(cuò)誤的同時(shí)不會(huì)損害整體分割性能的潛力。

2.3.3 邊界感知損失

Hayder等人在實(shí)例級(jí)語(yǔ)義分割領(lǐng)域提出了邊界感知損失。該方法的思想是預(yù)測(cè)一個(gè)像素級(jí)的距離圖,而不是二進(jìn)制的前景掩碼。這個(gè)距離圖表示的是到最近對(duì)象邊界(如果在對(duì)象內(nèi)部)的距離或其背景狀態(tài)。為了確保不同對(duì)象形狀和大小之間的一致性,首先對(duì)距離值進(jìn)行歸一化和截?cái)?,使其保持在指定范圍?nèi)。

30de65c4-9009-11ef-b5cd-92fbcf53809c.png

其中 d(p, q) 計(jì)算像素 p 和邊界像素 q 之間的歐幾里得距離。最大距離 D(p) 使用天花板函數(shù) 進(jìn)行上限處理,并通過(guò)R進(jìn)行閾值處理以生成截?cái)嗟貓D。然后,將這些距離值量化為均勻直方圖區(qū)間,將距離圖轉(zhuǎn)換為一組二進(jìn)制圖。這將問(wèn)題轉(zhuǎn)化為K個(gè)二進(jìn)制分割任務(wù),每個(gè)任務(wù)用K個(gè)二進(jìn)制交叉熵?fù)p失解決。在推理階段,使用像素級(jí)預(yù)測(cè)距離創(chuàng)建以其對(duì)應(yīng)像素為中心的圓盤。這些圓盤的聯(lián)合形成了分割掩碼。

2.3.4 活動(dòng)邊界損失

活動(dòng)邊界損失旨在專門監(jiān)督和增強(qiáng)訓(xùn)練期間的預(yù)測(cè)邊界。在這里,邊界信息被嵌入到訓(xùn)練過(guò)程中,使得網(wǎng)絡(luò)能夠特別關(guān)注邊界像素。首先,通過(guò)計(jì)算相鄰像素的KL散度來(lái)生成邊界圖,識(shí)別出預(yù)測(cè)的邊界像素。這張圖突出了可能是對(duì)象邊界一部分的像素。然后,對(duì)于每個(gè)預(yù)測(cè)像素,計(jì)算出朝向最近真實(shí)邊界的目標(biāo)方向。這個(gè)方向被編碼為一個(gè)獨(dú)熱向量,允許以概率方式表示像素移動(dòng)。然后根據(jù)預(yù)測(cè)的方向計(jì)算交叉熵?fù)p失,鼓勵(lì)網(wǎng)絡(luò)對(duì)齊預(yù)測(cè)邊界和真實(shí)邊界。

30fa2cf0-9009-11ef-b5cd-92fbcf53809c.png

這里,是權(quán)重函數(shù),是鄰域像素上的交叉熵。這種動(dòng)態(tài)行為確保了隨著訓(xùn)練過(guò)程中網(wǎng)絡(luò)參數(shù)的更新,預(yù)測(cè)邊界不斷調(diào)整并與其演變的真實(shí)邊界對(duì)齊。

2.3.5 反向形式損失

Borse等人[38]開發(fā)了反向形式(InverseForm)損失,該損失關(guān)注于預(yù)測(cè)對(duì)象與真實(shí)對(duì)象之間的邊界變換。這有助于對(duì)那些與真實(shí)值不完全對(duì)齊但結(jié)構(gòu)相似的預(yù)測(cè)分配較低的損失。首先,他們訓(xùn)練了一個(gè)稱為反向變換網(wǎng)絡(luò)的多層感知機(jī)(MLP),該網(wǎng)絡(luò)以兩個(gè)邊界圖為輸入,預(yù)測(cè)它們之間的變換矩陣 (\hat{\theta})。例如,對(duì)于兩個(gè)完美匹配的邊界圖,網(wǎng)絡(luò)應(yīng)輸出一個(gè)單位矩陣作為它們的相對(duì)變換。在訓(xùn)練完這個(gè)反向變換網(wǎng)絡(luò)后,他們會(huì)凍結(jié)其權(quán)重,并用它來(lái)計(jì)算分割模型的損失。具體來(lái)說(shuō),他們計(jì)算單位矩陣與預(yù)測(cè)變換矩陣 (\hat{\theta}) 之間的歐幾里得或測(cè)地線距離,并將其與交叉熵?fù)p失結(jié)合,如下所示:

311ecb14-9009-11ef-b5cd-92fbcf53809c.png

這里,和分別計(jì)算整個(gè)掩碼和其邊界像素的交叉熵?fù)p失,而表示反向形式損失。和 表示預(yù)測(cè)和真實(shí)分割掩碼,和表示相應(yīng)的邊界。和通過(guò)常數(shù)和進(jìn)行縮放,以控制各自損失的影響。

2.3.6 條件邊界損失

為了提高邊界性能,Wu等人建議了一種條件邊界損失(Conditional Boundary Loss, CBL),為每個(gè)邊界像素建立一個(gè)獨(dú)特的優(yōu)化目標(biāo),該目標(biāo)取決于其鄰近上下文,并通過(guò)使每個(gè)像素與其類別中心對(duì)齊并過(guò)濾噪聲來(lái)增強(qiáng)類內(nèi)一致性、類間分離和邊界精度。這是通過(guò)一種簡(jiǎn)單而有效的采樣策略——條件正確性感知采樣(Conditional Correctness-Aware Sampling, CCAS)策略實(shí)現(xiàn)的,該策略僅選擇正確分類的同類鄰居作為邊界像素的正樣本,以及正確分類的不同類鄰居作為負(fù)樣本。所提出的CBL包括兩項(xiàng):A2C(錨點(diǎn)與其唯一生成的局部類別中心之間的對(duì))損失項(xiàng)和A2P&N(錨點(diǎn)與其選定的正負(fù)樣本之間的對(duì))損失項(xiàng)。A2C損失項(xiàng)監(jiān)督每個(gè)邊界像素與其對(duì)應(yīng)的局部類別中心之間的距離,該局部類別中心是從正確分類的周圍鄰居生成的。A2P&N損失項(xiàng)監(jiān)督邊界像素與正負(fù)樣本之間的相似性,這些樣本是通過(guò)CCAS策略選擇的。然后將CBL與常用的交叉熵(CE)損失結(jié)合形成總體訓(xùn)練損失,用于在端到端訓(xùn)練期間優(yōu)化分割網(wǎng)絡(luò)。

2.3.7 邊界差異比聯(lián)合損失

Sun等人提出了邊界差異比聯(lián)合(Boundary DoU)損失,旨在改善對(duì)象邊界處的分割質(zhì)量。在此,對(duì)象的邊界被定義為最外側(cè)的 (d) 像素。該方法受到邊界IoU度量的啟發(fā),即僅考慮預(yù)測(cè)和目標(biāo)的邊界區(qū)域時(shí)的IoU。損失被表述如下:

313e9b38-9009-11ef-b5cd-92fbcf53809c.png

這里, 是一個(gè)加權(quán)項(xiàng),用于控制邊界區(qū)域的重要性。對(duì)于相對(duì)較大的對(duì)象,邊界像素占總面積的比例較小,即使只有內(nèi)部部分被正確分割,也會(huì)導(dǎo)致較低的損失。在這種情況下, 應(yīng)接近1,表明相對(duì)于內(nèi)部區(qū)域,邊界像素被賦予更高的重要性。相反,對(duì)于較小的對(duì)象, 應(yīng)接近0,趨向于IoU損失。為了確保這一點(diǎn),作者提出了加權(quán)項(xiàng) ,其中 C表示周長(zhǎng),S表示對(duì)象的面積。因此,他們確保了即使是圖像中大型對(duì)象的邊界也能得到精確分割。

2.3.8 區(qū)域級(jí)損失

區(qū)域級(jí)(Region-wise, RW)損失的核心概念是將softmax概率值與RW圖結(jié)合起來(lái)。RW圖是為圖像中的每個(gè)像素和每個(gè)類別標(biāo)簽定義的。它影響特定像素的預(yù)測(cè)在損失計(jì)算中應(yīng)貢獻(xiàn)多少,這取決于其類別標(biāo)簽及其在圖像中的位置。

3157fba0-9009-11ef-b5cd-92fbcf53809c.png

其中,是預(yù)測(cè)值的softmax,是該像素處的RW圖值。可以根據(jù)分割任務(wù)的具體需求設(shè)計(jì)不同類型RW圖。例如,RW-Boundary圖使用歐幾里得距離變換創(chuàng)建基于距離的地圖,突出顯示類別之間的邊界。這一框架提供了一種靈活統(tǒng)一的方法,同時(shí)解決了類別不平衡和像素重要性問(wèn)題。此外,文章通過(guò)重新表述如邊界損失和主動(dòng)輪廓損失等知名損失函數(shù),展示了RW損失框架的適應(yīng)性。這不僅提供了關(guān)于這些損失函數(shù)之間關(guān)系的新見解,還證明了RW損失框架的靈活性。他們進(jìn)一步探討了RW圖的優(yōu)化穩(wěn)定性,并引入了修正的區(qū)域級(jí)(Rectified Region-wise, RRW)圖的概念。這些RRW圖解決了優(yōu)化穩(wěn)定性的問(wèn)題,從而增強(qiáng)了訓(xùn)練過(guò)程的收斂性和穩(wěn)定性。通過(guò)對(duì)各種分割任務(wù)的實(shí)證評(píng)估,文章展示了RRW圖的有效性。

2.4 組合方法

組合方法融合了三個(gè)不同類別的元素(像素級(jí)、區(qū)域級(jí)和邊界級(jí)),以優(yōu)化語(yǔ)義分割性能。通過(guò)整合多個(gè)損失函數(shù),這種方法尋求像素級(jí)精度、整體對(duì)象分割質(zhì)量和邊界劃分準(zhǔn)確率之間的平衡。組合方法提供了靈活性和適應(yīng)性,利用每個(gè)類別的優(yōu)勢(shì)來(lái)應(yīng)對(duì)由多樣化的分割任務(wù)和數(shù)據(jù)集特性帶來(lái)的特定挑戰(zhàn)。

2.4.1 組合損失

在語(yǔ)義分割中,最常見的做法是在組合損失(Combo loss)中結(jié)合Dice損失和加權(quán)交叉熵?fù)p失,以克服類別不平衡問(wèn)題。這里,加權(quán)交叉熵?fù)p失通過(guò)給予較少代表的類別更多權(quán)重來(lái)克服數(shù)據(jù)不平衡問(wèn)題,而Dice損失則允許分割較小的對(duì)象。此外,加權(quán)交叉熵?fù)p失提供平滑的梯度,而Dice損失幫助避免局部最小值。它簡(jiǎn)單地通過(guò)一個(gè)調(diào)制項(xiàng)來(lái)控制每個(gè)損失函數(shù)的貢獻(xiàn),將交叉熵?fù)p失和Dice損失相加,整體方程定義為:

317654ba-9009-11ef-b5cd-92fbcf53809c.png

其中, 控制Dice損失相對(duì)于加權(quán)交叉熵?fù)p失的權(quán)重,而交叉熵的權(quán)重控制模型對(duì)不同目標(biāo)類別的懲罰程度。這種方法通過(guò)平衡不同損失函數(shù)的作用,有效地提高了模型在處理類別不平衡數(shù)據(jù)集時(shí)的性能和泛化能力。

2.4.2 指數(shù)對(duì)數(shù)損失

指數(shù)對(duì)數(shù)損失(Exponential Logarithmic Loss)類似于組合損失,也是通過(guò)結(jié)合加權(quán)交叉熵?fù)p失和Dice損失來(lái)克服類別不平衡問(wèn)題。不同之處在于,指數(shù)對(duì)數(shù)損失在結(jié)合這兩種損失之前,先對(duì)它們?nèi)?duì)數(shù)和指數(shù)運(yùn)算。這樣做提供了控制模型對(duì)容易或難以分類的像素關(guān)注程度的靈活性。所提出的損失函數(shù)定義如下:31942c42-9009-11ef-b5cd-92fbcf53809c.png其中 是指數(shù)對(duì)數(shù)Dice損失, 是指數(shù)對(duì)數(shù)加權(quán)交叉熵?fù)p失:

31d1dd30-9009-11ef-b5cd-92fbcf53809c.png

這里的 和 可用于控制損失函數(shù)的關(guān)注點(diǎn)。具體來(lái)說(shuō),當(dāng) 時(shí),損失更關(guān)注難以分類的像素,反之亦然。通過(guò)這種方式,指數(shù)對(duì)數(shù)損失能夠更好地調(diào)整模型的學(xué)習(xí)重點(diǎn),尤其是在處理不平衡的數(shù)據(jù)集時(shí),有助于提高模型的整體性能。

2.4.3 統(tǒng)一焦點(diǎn)損失

統(tǒng)一焦點(diǎn)損失(Unified Focal Loss)是另一種設(shè)計(jì)用來(lái)通過(guò)結(jié)合焦點(diǎn)損失(Focal Loss)和焦點(diǎn)特弗斯基損失(Focal Tversky Loss)來(lái)解決類別不平衡問(wèn)題的損失函數(shù)。它通過(guò)統(tǒng)一相似的超參數(shù)來(lái)減輕訓(xùn)練過(guò)程中與損失抑制和過(guò)度增強(qiáng)相關(guān)的問(wèn)題。

31f953a6-9009-11ef-b5cd-92fbcf53809c.png

統(tǒng)一焦點(diǎn)損失泛化了常見的損失函數(shù),如Dice損失和交叉熵?fù)p失,使它們成為其框架內(nèi)的特殊情況。重要的是,通過(guò)減少超參數(shù)搜索空間,它在簡(jiǎn)單性和有效性之間找到了平衡,簡(jiǎn)化了優(yōu)化過(guò)程同時(shí)保持了其效能。實(shí)驗(yàn)結(jié)果支持了它的優(yōu)勢(shì),使其成為訓(xùn)練對(duì)類別不平衡具有魯棒性的模型的強(qiáng)大工具。

3、討論

表2總結(jié)了基于類別(即像素級(jí)、區(qū)域級(jí)、邊界級(jí)或組合)排序的討論損失函數(shù)的優(yōu)勢(shì)、劣勢(shì)及應(yīng)用場(chǎng)景。像素級(jí)損失的優(yōu)點(diǎn)在于通過(guò)考慮每一個(gè)像素、轉(zhuǎn)移對(duì)難以分割像素的關(guān)注點(diǎn)或懲罰分割錯(cuò)誤來(lái)處理類別分布不平衡的問(wèn)題。由于關(guān)注點(diǎn)在于全局統(tǒng)計(jì),這可能導(dǎo)致與其他損失相比,分割邊界更加柔和。區(qū)域級(jí)損失通過(guò)計(jì)算分割區(qū)域之間的重疊或相似性,通常與語(yǔ)義分割性能度量相關(guān)聯(lián),以引導(dǎo)網(wǎng)絡(luò)獲得更好的性能。更高級(jí)的損失可以利用假陽(yáng)性與假陰性之間的權(quán)衡,對(duì)異常值和噪聲標(biāo)簽更加穩(wěn)健。一些基于區(qū)域的損失在優(yōu)化過(guò)程中遇到了問(wèn)題,如梯度不穩(wěn)定或損失不完全可微。基于邊界的損失通常專注于銳利的分割邊界以獲得更好的分割掩碼。這些損失存在多種限制,例如它們僅限于二元分割問(wèn)題、優(yōu)化過(guò)程中梯度爆炸或復(fù)合形狀問(wèn)題。組合損失試圖結(jié)合不同損失的優(yōu)勢(shì)或緩解它們的局限性。因此,它們的優(yōu)勢(shì)和劣勢(shì)很大程度上取決于基礎(chǔ)損失??偟膩?lái)說(shuō),所有損失包括超參數(shù)都對(duì)此選擇非常敏感,因?yàn)樗鼤?huì)對(duì)性能產(chǎn)生重大影響,這一點(diǎn)已在我們的實(shí)驗(yàn)中得到驗(yàn)證。通常,沒(méi)有選擇超參數(shù)設(shè)置的一般指南,因?yàn)樽顑?yōu)選擇取決于數(shù)據(jù)和任務(wù)。這需要廣泛的實(shí)驗(yàn),特別是對(duì)于具有多個(gè)超參數(shù)的損失,以找到最大性能的最優(yōu)設(shè)置。

32157b6c-9009-11ef-b5cd-92fbcf53809c.png

為了研究損失函數(shù)在語(yǔ)義分割中的應(yīng)用,我們考察了自然圖像分割和醫(yī)學(xué)圖像分割中表現(xiàn)最佳的方法。在醫(yī)學(xué)圖像分割中,大多數(shù)表現(xiàn)最好的模型依賴于Dice損失和交叉熵?fù)p失的組合損失。有文獻(xiàn)使用了包含Dice損失和邊界損失的組合損失。有文獻(xiàn)使用了L1損失、交叉熵?fù)p失和3D對(duì)比編碼損失的組合進(jìn)行預(yù)訓(xùn)練。有文獻(xiàn)使用了一種先驗(yàn)感知損失,通過(guò)Kullback-Leibler散度測(cè)量?jī)蓚€(gè)分布的匹配概率。我們看到,應(yīng)用的損失函數(shù)隨任務(wù)而變化;在城市街道場(chǎng)景中,簡(jiǎn)單的交叉熵?fù)p失函數(shù)占據(jù)主導(dǎo)地位;而在器官分割中,Dice損失會(huì)疊加使用,還因?yàn)镈ice分?jǐn)?shù)是常用的評(píng)估指標(biāo)。

31942c42-9009-11ef-b5cd-92fbcf53809c.png

圖2展示了邊界差異比聯(lián)合(Boundary DoU)損失和其他幾種損失函數(shù)的定性結(jié)果的視覺(jué)表示。該圖清楚地顯示了使用適當(dāng)?shù)膿p失函數(shù)對(duì)分割復(fù)雜區(qū)域的優(yōu)勢(shì)。具體來(lái)說(shuō),我們可以觀察到邊界級(jí)損失函數(shù)在邊界區(qū)域的定位和分割更為準(zhǔn)確。此外,右心室(RV)區(qū)域在第1、3、4、6行顯著的形狀變化可能導(dǎo)致欠分割和誤分割問(wèn)題。在這種情況下,邊界DoU損失函數(shù)相比其他損失函數(shù)能有效應(yīng)對(duì)這一挑戰(zhàn)。相比之下,心?。∕YO)區(qū)域具有環(huán)形結(jié)構(gòu)和高度詳細(xì)的區(qū)域,如第2、5行所示。在這些情況下,其他損失函數(shù)往往會(huì)產(chǎn)生不同程度的欠分割,而邊界DoU損失函數(shù)提供了更全面的分割。減少誤分類和欠分類最終提高了臨床指導(dǎo)的潛力。為進(jìn)一步探索不同損失函數(shù)對(duì)分割性能的影響,我們轉(zhuǎn)向圖3,該圖提供了不同損失函數(shù)在分割大對(duì)象和小對(duì)象時(shí)表現(xiàn)的視覺(jué)表示。從左至右看圖表,我們可以看到預(yù)測(cè)與真實(shí)掩碼之間的重疊逐漸減少。這種減少導(dǎo)致了更多的假陽(yáng)性和假陰性的出現(xiàn)。理想情況下,隨著假陽(yáng)性和假陰性數(shù)量的增加,損失值應(yīng)該顯示出一致的上升趨勢(shì)。

329ad5c8-9009-11ef-b5cd-92fbcf53809c.png

對(duì)于大對(duì)象,大多數(shù)使用的損失函數(shù)遵循這一理想場(chǎng)景。然而,對(duì)于小對(duì)象(如右側(cè)圖表所示),只有組合損失和焦點(diǎn)損失表現(xiàn)出對(duì)較大錯(cuò)誤更明顯的單調(diào)懲罰。簡(jiǎn)而言之,基于重疊度量的函數(shù)在分割大小對(duì)象時(shí)顯示出相當(dāng)大的變化。這些結(jié)果強(qiáng)調(diào)了選擇損失函數(shù)依賴于感興趣對(duì)象大小的關(guān)鍵概念。這一觀察促使我們思考這些發(fā)現(xiàn)如何指導(dǎo)從業(yè)者根據(jù)他們希望分割的對(duì)象的具體特征和大小選擇最合適的損失函數(shù),從而進(jìn)一步闡明損失函數(shù)與分割性能之間微妙的關(guān)系??傮w而言,圖3和圖2明確了選擇損失函數(shù)在難以分割對(duì)象上獲得更穩(wěn)定分割的重要意義,驗(yàn)證了前面提到的每種損失在其各自領(lǐng)域內(nèi)的能力和獨(dú)特應(yīng)用。除了討論的損失函數(shù)之外,通過(guò)集成針對(duì)特定任務(wù)定制的補(bǔ)充損失函數(shù)或適應(yīng)現(xiàn)有損失函數(shù)以滿足手頭的任務(wù),可以進(jìn)一步提高模型性能。例如,有作者介紹了一種新的損失函數(shù)——拓?fù)涓兄裹c(diǎn)損失(Topology-Aware Focal Loss, TAFL),它將傳統(tǒng)的焦點(diǎn)損失與基于真實(shí)分割掩碼和預(yù)測(cè)分割掩碼持久圖之間的Wasserstein距離的拓?fù)浼s束項(xiàng)相結(jié)合。這種結(jié)合確保了與真實(shí)值相同的拓?fù)浣Y(jié)構(gòu),有效解決了拓?fù)溴e(cuò)誤,同時(shí)處理類別不平衡問(wèn)題。另一種方法,Wen等人提出的,提出了一種簡(jiǎn)單而有效的方法,稱為像素級(jí)三元組學(xué)習(xí)。該方法專注于在不引入額外計(jì)算復(fù)雜度的情況下改進(jìn)邊界區(qū)分度。通過(guò)使用像素級(jí)三元組損失,分割模型可以在邊界處學(xué)習(xí)更具判別性的特征表示。值得注意的是,該方法可以無(wú)縫集成到最先進(jìn)的分割網(wǎng)絡(luò)中,作為一種適用于二元和多類醫(yī)學(xué)分割任務(wù)的通用邊界增強(qiáng)器。最終,語(yǔ)義分割任務(wù)中損失函數(shù)的選擇可以根據(jù)所使用的學(xué)習(xí)算法進(jìn)行定制。例如,在最近的基于擴(kuò)散的生成模型的背景下,利用更復(fù)雜的損失函數(shù)不僅可以提高分割性能,還可以增強(qiáng)重建過(guò)程。同樣,在隱式神經(jīng)表示中,適應(yīng)損失函數(shù)可以有助于高效的分割任務(wù)。

4、實(shí)驗(yàn)

4.1 實(shí)驗(yàn)設(shè)置

我們?cè)趩蝹€(gè)RTX 3090 GPU上使用Pytorch庫(kù)訓(xùn)練模型。采用隨機(jī)梯度下降法,批次大小為8,基礎(chǔ)學(xué)習(xí)率為0.01,總共進(jìn)行300輪訓(xùn)練。此外,我們使用確定性訓(xùn)練,并設(shè)定固定的種子以獲得可比較的結(jié)果,避免因隨機(jī)性造成的其他變化。網(wǎng)絡(luò)訓(xùn)練使用交叉熵?fù)p失與不同損失函數(shù)的組合,總損失計(jì)算公式為:32c0a4b0-9009-11ef-b5cd-92fbcf53809c.png我們?cè)u(píng)估了6種不同的損失函數(shù)在訓(xùn)練收斂性和性能上的表現(xiàn),即Dice損失、焦點(diǎn)損失(Focal loss)、Tversky損失、焦點(diǎn)Tversky損失、Jaccard損失和Lovász-Softmax損失。

4.2 數(shù)據(jù)集和評(píng)估指標(biāo)

為了對(duì)比,我們使用了兩個(gè)常用的公開數(shù)據(jù)集,Synapse和Cityscapes。前者是一個(gè)醫(yī)學(xué)圖像分割數(shù)據(jù)集,包含30個(gè)腹部CT掃描圖像。其性能通過(guò)Dice相似系數(shù)(DSC)和Hausdorff距離(HD)指標(biāo)來(lái)評(píng)估,考慮了8個(gè)腹部器官,即主動(dòng)脈、膽囊、左腎和右腎、肝臟、胰腺、脾臟和胃。后者是一個(gè)城市街道分割數(shù)據(jù)集,包含30類標(biāo)簽和5000張精細(xì)標(biāo)注的圖像,其中平均交并比(mIoU)用作評(píng)估指標(biāo)。

4.3 實(shí)驗(yàn)結(jié)果

我們?cè)趦煞N常見的深度學(xué)習(xí)模型上進(jìn)行了評(píng)估,即傳統(tǒng)的UNet模型和基于視覺(jué)Transformer架構(gòu)的TransUNet模型。

4.3.1 定量結(jié)果

詳細(xì)的性能結(jié)果如表3所示。32d96068-9009-11ef-b5cd-92fbcf53809c.png我們觀察到,對(duì)于UNet和TransUNet而言,不同損失函數(shù)之間的性能差距顯著。對(duì)于UNet,這一差距最大達(dá)到6.36%的DSC,其中Tversky損失表現(xiàn)最佳,而Dice損失表現(xiàn)最差。在TransUNet方面,這一差異達(dá)到了7.06%的DSC點(diǎn)數(shù),Jaccard損失表現(xiàn)最佳,而焦點(diǎn)損失表現(xiàn)最差。此外,Dice損失和焦點(diǎn)損失在處理較小器官如胰腺和膽囊時(shí)性能下降,而其他損失函數(shù)的表現(xiàn)明顯更好。這突顯了Jaccard和Tversky損失的優(yōu)勢(shì),它們能夠產(chǎn)生更清晰的分割邊界,因?yàn)檫@些損失函數(shù)具有重疊性質(zhì),并且與分割性能有直接關(guān)系。像焦點(diǎn)損失這樣的其他損失函數(shù)無(wú)法從這些特性中受益,因?yàn)楦共繏呙璧念悇e不平衡通常較低,導(dǎo)致性能較低。我們沒(méi)有觀察到兩個(gè)訓(xùn)練網(wǎng)絡(luò)之間有明顯的差異,這表明損失函數(shù)的選擇更多地依賴于數(shù)據(jù)而非網(wǎng)絡(luò)。此外,我們考察了訓(xùn)練過(guò)程中的損失行為,并在圖4中展示了整個(gè)訓(xùn)練周期的損失值。Dice損失和焦點(diǎn)損失表現(xiàn)出穩(wěn)定的行為,這解釋了它們整體較差的性能,因?yàn)樵谟?xùn)練初期模型就陷入了停滯。其他四種損失函數(shù)則表現(xiàn)出典型的訓(xùn)練行為,大約在200個(gè)周期左右訓(xùn)練開始收斂。同樣,UNet和TransUNet模型之間也沒(méi)有顯著的差異。Cityscapes的性能結(jié)果如表4所示。33093edc-9009-11ef-b5cd-92fbcf53809c.png在UNet的情況下,Tversky損失和Dice損失是最優(yōu)的損失函數(shù),而所有損失函數(shù)之間的差異為1%的DSC。對(duì)于TransUNet的情況,Jaccard損失表現(xiàn)最優(yōu),Tversky損失次之,差異為2.55%的DSC。模型間差異的存在表明,所選模型不同,損失函數(shù)選擇的重要性也會(huì)有所變化,但TransUNet的情況顯示,為了提高模型性能,實(shí)驗(yàn)選擇不同的損失函數(shù)是非常重要的。這些訓(xùn)練運(yùn)行的損失行為在圖5中得到了說(shuō)明。它與Synapse評(píng)估中的表現(xiàn)有所不同。33334330-9009-11ef-b5cd-92fbcf53809c.pngDice損失和焦點(diǎn)損失隨訓(xùn)練周期逐漸減少,顯示出實(shí)際的訓(xùn)練進(jìn)展而不是恒定值。這解釋了在Cityscapes數(shù)據(jù)集上的更好表現(xiàn)。此外,在大約250個(gè)訓(xùn)練周期后,對(duì)于TransUNet和UNet訓(xùn)練,Jaccard、Lovász-Softmax、Tversky和焦點(diǎn)Tversky損失再次出現(xiàn)下降,導(dǎo)致后期顯著的收斂。這強(qiáng)調(diào)了損失性能高度依賴于模型的事實(shí),即某些損失可能對(duì)一個(gè)網(wǎng)絡(luò)是合適的選擇,但對(duì)其他網(wǎng)絡(luò)則不一定適合。

4.3.2 定性結(jié)果

在Synapse數(shù)據(jù)集上使用不同損失函數(shù)訓(xùn)練的網(wǎng)絡(luò)的分割掩模如圖6所示。與真實(shí)分割相比,Dice損失的表現(xiàn)參差不齊,而在頂部的例子中,除了胰腺區(qū)域外,分割看起來(lái)相當(dāng)不錯(cuò)。在底部的例子中,它完全未能識(shí)別出胃和膽囊。相比之下,焦點(diǎn)Tversky損失提供了最有希望的分割圖,正確地識(shí)別了所有器官,僅在胃部觀察到輕微的變化。相反,Jaccard、Lovász-Softmax和Tversky損失在分割該區(qū)域時(shí)也遇到了困難。這項(xiàng)實(shí)證分析得出結(jié)論,焦點(diǎn)Tversky損失是最合適的選擇。它在糾正誤識(shí)別和遺漏方面表現(xiàn)出色,從而提高了復(fù)雜和錯(cuò)誤分類案例的分割質(zhì)量。3357c0de-9009-11ef-b5cd-92fbcf53809c.png對(duì)于Cityscapes數(shù)據(jù)集,定性結(jié)果如圖7所示。在所有網(wǎng)絡(luò)中都可以觀察到類似的結(jié)果,人行道邊界柱有時(shí)被分類為建筑物、墻壁或桿子,因?yàn)闆](méi)有專門的類別。自行車架也大多被分類為圍欄或墻壁,因?yàn)闆](méi)有更精確的類別??傮w而言,所有損壞中只有輕微的誤分類,分割邊界或多或少都是準(zhǔn)確的。這也反映了前一節(jié)中提出的定量結(jié)果。3388aeb0-9009-11ef-b5cd-92fbcf53809c.png4.3.3 關(guān)于超參數(shù)的重要性我們通過(guò)在Synapse數(shù)據(jù)集上進(jìn)行不同超參數(shù)選擇的最終性能比較,探討了超參數(shù)選擇的重要性。表5展示了焦點(diǎn)損失、Tversky損失和焦點(diǎn)Tversky損失的性能結(jié)果。

32d96068-9009-11ef-b5cd-92fbcf53809c.png

這些結(jié)果顯示,超參數(shù)的選擇導(dǎo)致焦點(diǎn)Tversky損失的最大差異為1.99%的DSC,焦點(diǎn)損失為0.33%的DSC,而Tversky損失為0.96%的DSC,這表明重要性各不相同。進(jìn)一步觀察圖8中展示的損失特征,焦點(diǎn)損失通常保持恒定且大致相等的行為解釋了其性能變化較小的原因。焦點(diǎn)Tversky損失和Tversky損失展現(xiàn)出相似但略有不同的訓(xùn)練行為,導(dǎo)致了較大的性能差異。

33eea63e-9009-11ef-b5cd-92fbcf53809c.png

總體而言,這表明超參數(shù)需要謹(jǐn)慎選擇,因?yàn)樗鼈兛梢燥@著影響最終的性能。為了最優(yōu)地選擇它們,需要進(jìn)行細(xì)致的參數(shù)搜索,因?yàn)橥ǔ](méi)有通用的指導(dǎo)原則,這是包含參數(shù)選擇的損失函數(shù)的一個(gè)常見缺點(diǎn)。

5、未來(lái)工作和開放挑戰(zhàn)

盡管語(yǔ)義分割領(lǐng)域,特別是在提出更好的損失函數(shù)方面取得了進(jìn)展,但在多個(gè)方面仍存在限制,需要進(jìn)一步的研究努力才能使這些技術(shù)適用于實(shí)際應(yīng)用。以下,我們將簡(jiǎn)要討論一些限制和未來(lái)方向。

5.1 超參數(shù)指導(dǎo)方針

由于許多損失函數(shù)需要超參數(shù)值,而合適的超參數(shù)選擇可以顯著提升模型性能,因此該領(lǐng)域的進(jìn)一步研究可以通過(guò)提供超參數(shù)選擇的指南或建議來(lái)幫助開發(fā)人員的設(shè)計(jì)過(guò)程。這需要在不同的語(yǔ)義分割領(lǐng)域以及不同的底層網(wǎng)絡(luò)架構(gòu)中進(jìn)行廣泛的研究,以評(píng)估超參數(shù)的影響及其數(shù)據(jù)和模型依賴性。

5.2 組合損失研究

學(xué)術(shù)文獻(xiàn)中基于其他損失函數(shù)組合而成的損失函數(shù)數(shù)量較少。由于組合損失可以從每個(gè)基礎(chǔ)損失中繼承優(yōu)點(diǎn),同時(shí)可能緩解缺點(diǎn),因此它們可能是許多模型和任務(wù)的適當(dāng)選擇。探索新的最近損失函數(shù)組合的研究有可能創(chuàng)造出新的損失函數(shù),從而提升性能。

5.3 與標(biāo)簽不確定性的交互

許多語(yǔ)義分割應(yīng)用涉及處理模糊或不確定的標(biāo)簽。為了解決這個(gè)問(wèn)題,未來(lái)的研究可以探索結(jié)合標(biāo)簽不確定性或模糊度衡量的損失函數(shù)。這些新穎的損失函數(shù)可以通過(guò)根據(jù)每個(gè)標(biāo)簽的確信程度分配自適應(yīng)權(quán)重,動(dòng)態(tài)調(diào)整對(duì)真實(shí)標(biāo)簽注釋可靠性的響應(yīng)。這種適應(yīng)性在人類注釋者可能提供不同程度置信度標(biāo)簽的情況下尤為重要,有助于減輕噪聲或不確定數(shù)據(jù)的影響。

5.4 對(duì)噪聲標(biāo)注的魯棒性

實(shí)際上,獲取完全準(zhǔn)確的訓(xùn)練數(shù)據(jù)標(biāo)注往往非常具有挑戰(zhàn)性。對(duì)標(biāo)簽噪聲或錯(cuò)誤不那么敏感的魯棒損失函數(shù)可以成為改變游戲規(guī)則的關(guān)鍵。該領(lǐng)域的研究可以集中在開發(fā)能夠在訓(xùn)練過(guò)程中自動(dòng)識(shí)別并降低噪聲標(biāo)注權(quán)重的損失函數(shù)。此外,探索將損失函數(shù)與數(shù)據(jù)增強(qiáng)策略相結(jié)合的技術(shù),以提高模型對(duì)噪聲數(shù)據(jù)的抵抗力,可以進(jìn)一步提升分割性能。

5.5 預(yù)訓(xùn)練基礎(chǔ)模型的適應(yīng)

隨著諸如CLIP、Stable Diffusion、GPT等基礎(chǔ)模型越來(lái)越多地被用作各種下游任務(wù)的現(xiàn)成框架,研究如何將語(yǔ)義分割損失函數(shù)適應(yīng)這些預(yù)訓(xùn)練模型變得至關(guān)重要。通過(guò)探索和分析微調(diào)這些通用模型的潛在方法和途徑,我們可以確保在各種下游醫(yī)療應(yīng)用中實(shí)現(xiàn)最優(yōu)性能和準(zhǔn)確性。

5.6 損失函數(shù)與評(píng)估指標(biāo):公平性

損失函數(shù)的性能是通過(guò)一個(gè)或多個(gè)分割指標(biāo)來(lái)評(píng)估的。值得加入更多的評(píng)估指標(biāo)用于語(yǔ)義分割任務(wù),并進(jìn)一步研究哪種損失函數(shù)對(duì)每個(gè)評(píng)估指標(biāo)更為有利。此外,我們可以通過(guò)留一交叉驗(yàn)證(LOOCV)的方式,使用所有其他的分割損失函數(shù)來(lái)評(píng)估正在研究的損失函數(shù)。這將允許對(duì)不同損失函數(shù)的性能進(jìn)行全面的比較和分析,提供對(duì)其有效性的更穩(wěn)健評(píng)估。

6、結(jié)論

綜上所述,本調(diào)查報(bào)告全面概述了25種用于語(yǔ)義分割的損失函數(shù),重點(diǎn)介紹了它們?cè)卺t(yī)學(xué)圖像和自然圖像中的應(yīng)用。我們強(qiáng)調(diào)了這些損失函數(shù)在改進(jìn)分割模型中所起的關(guān)鍵作用。我們引入了一個(gè)結(jié)構(gòu)化的分類體系,對(duì)流行的數(shù)據(jù)集進(jìn)行了驗(yàn)證實(shí)驗(yàn),指出了開放的挑戰(zhàn)和未來(lái)研究的方向,并強(qiáng)調(diào)了2020年之后的最新發(fā)展。本調(diào)查報(bào)告為研究人員和實(shí)踐者提供了一項(xiàng)寶貴的資源,提供了關(guān)于損失函數(shù)選擇和語(yǔ)義分割領(lǐng)域進(jìn)一步創(chuàng)新的見解。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像分割
    +關(guān)注

    關(guān)注

    4

    文章

    182

    瀏覽量

    17995
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4327

    瀏覽量

    62569
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    利用VLM和MLLMs實(shí)現(xiàn)SLAM語(yǔ)義增強(qiáng)

    語(yǔ)義同步定位與建圖(SLAM)系統(tǒng)在對(duì)鄰近的語(yǔ)義相似物體進(jìn)行建圖時(shí)面臨困境,特別是在復(fù)雜的室內(nèi)環(huán)境中。本文提出了一面向?qū)ο骃LAM的語(yǔ)義增強(qiáng)(SEO-SLAM)的新型SLAM系統(tǒng),借
    的頭像 發(fā)表于 12-05 10:00 ?118次閱讀
    利用VLM和MLLMs實(shí)現(xiàn)SLAM<b class='flag-5'>語(yǔ)義</b>增強(qiáng)

    【每天學(xué)點(diǎn)AI】前向傳播、損失函數(shù)、反向傳播

    在深度學(xué)習(xí)的領(lǐng)域中,前向傳播、反向傳播和損失函數(shù)是構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的三個(gè)核心概念。今天,小編將通過(guò)一個(gè)簡(jiǎn)單的實(shí)例,解釋這三個(gè)概念,并展示它們的作用。前向傳播:神經(jīng)網(wǎng)絡(luò)的“思考”過(guò)程前向傳播
    的頭像 發(fā)表于 11-15 10:32 ?621次閱讀
    【每天學(xué)點(diǎn)AI】前向傳播、<b class='flag-5'>損失</b><b class='flag-5'>函數(shù)</b>、反向傳播

    RNN的損失函數(shù)與優(yōu)化算法解析

    函數(shù)有以下幾種: 交叉熵損失函數(shù) :交叉熵(Cross Entropy)是一評(píng)估兩個(gè)概率分布之間差異的度量方法,即通過(guò)比較模型預(yù)測(cè)的概率分布和真實(shí)概率分布之間的差異,來(lái)評(píng)估模型訓(xùn)練的
    的頭像 發(fā)表于 11-15 10:16 ?360次閱讀

    常見人體姿態(tài)評(píng)估顯示方式的兩方式

    人體姿態(tài)評(píng)估中有兩常見的顯示方式,分別是火柴人效果與BodyPix效果。其中火柴人效果本質(zhì)就是基于關(guān)鍵點(diǎn)的深度學(xué)習(xí)模型推理以后的顯示效果;Bodypix本質(zhì)就就是語(yǔ)義分割模型
    的頭像 發(fā)表于 11-11 11:21 ?180次閱讀
    常見人體姿態(tài)評(píng)估顯示方式的兩<b class='flag-5'>種</b>方式

    YOLOv8中的損失函數(shù)解析

    YOLO長(zhǎng)期以來(lái)一直是目標(biāo)檢測(cè)任務(wù)的首選模型之一。它既快速又準(zhǔn)確。此外,其API簡(jiǎn)潔易用。運(yùn)行訓(xùn)練或推斷作業(yè)所需的代碼行數(shù)有限。在2023年下半年,YOLOv8在框架中引入了姿態(tài)估計(jì)后,該框架現(xiàn)在支持最多四個(gè)任務(wù),包括分類、目標(biāo)檢測(cè)、實(shí)例分割和姿態(tài)估計(jì)。
    的頭像 發(fā)表于 11-05 17:15 ?825次閱讀
    YOLOv8中的<b class='flag-5'>損失</b><b class='flag-5'>函數(shù)</b>解析

    畫面分割器怎么調(diào)試

    畫面分割器,通常指的是視頻畫面分割器,它是一可以將一個(gè)視頻信號(hào)分割成多個(gè)小畫面的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、視頻會(huì)議、多畫面顯示等場(chǎng)景。調(diào)試畫面
    的頭像 發(fā)表于 10-17 09:32 ?363次閱讀

    畫面分割器怎么連接

    畫面分割器,也稱為視頻分割器或多畫面處理器,是一可以將多個(gè)視頻信號(hào)源分割成單個(gè)畫面或多個(gè)畫面顯示在單個(gè)監(jiān)視器上的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、視頻會(huì)議、多媒體展示等領(lǐng)域。 一、畫
    的頭像 發(fā)表于 10-17 09:29 ?296次閱讀

    圖像語(yǔ)義分割的實(shí)用性是什么

    圖像語(yǔ)義分割是一重要的計(jì)算機(jī)視覺(jué)任務(wù),它旨在將圖像中的每個(gè)像素分配到相應(yīng)的語(yǔ)義類別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動(dòng)駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。 一、圖像
    的頭像 發(fā)表于 07-17 09:56 ?414次閱讀

    圖像分割語(yǔ)義分割的區(qū)別與聯(lián)系

    圖像分割語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域中兩個(gè)重要的概念,它們?cè)趫D像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像分割簡(jiǎn)介 圖像分割是將圖像劃分為多個(gè)區(qū)
    的頭像 發(fā)表于 07-17 09:55 ?901次閱讀

    圖像分割語(yǔ)義分割中的CNN模型綜述

    圖像分割語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語(yǔ)義含義的區(qū)域或?qū)ο蟆>矸e神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一核心
    的頭像 發(fā)表于 07-09 11:51 ?823次閱讀

    機(jī)器人視覺(jué)技術(shù)中常見的圖像分割方法

    、場(chǎng)景理解、導(dǎo)航和交互等任務(wù)至關(guān)重要。以下是一些常見的圖像分割方法: 閾值分割法(Thresholding) 閾值分割法是一基于像素強(qiáng)度的簡(jiǎn)單圖像
    的頭像 發(fā)表于 07-09 09:31 ?651次閱讀

    助力移動(dòng)機(jī)器人下游任務(wù)!Mobile-Seed用于聯(lián)合語(yǔ)義分割和邊界檢測(cè)

    精確、快速地劃定清晰的邊界和魯棒的語(yǔ)義對(duì)于許多下游機(jī)器人任務(wù)至關(guān)重要,例如機(jī)器人抓取和操作、實(shí)時(shí)語(yǔ)義建圖以及在邊緣計(jì)算單元上執(zhí)行的在線傳感器校準(zhǔn)。
    的頭像 發(fā)表于 02-20 10:30 ?894次閱讀
    助力移動(dòng)機(jī)器人下游任務(wù)!Mobile-Seed用于聯(lián)合<b class='flag-5'>語(yǔ)義</b><b class='flag-5'>分割</b>和邊界檢測(cè)

    對(duì)象檢測(cè)邊界框損失函數(shù)–從IOU到ProbIOU介紹

    目標(biāo)檢測(cè)損失函數(shù)的選擇在目標(biāo)檢測(cè)問(wèn)題建模中至關(guān)重要。通常,目標(biāo)檢測(cè)需要兩個(gè)損失函數(shù),一個(gè)用于對(duì)象分類,另一個(gè)用于邊界框回歸(BBR)。
    的頭像 發(fā)表于 01-24 10:50 ?2785次閱讀
    對(duì)象檢測(cè)邊界框<b class='flag-5'>損失</b><b class='flag-5'>函數(shù)</b>–從IOU到ProbIOU介紹

    OpenCV兩不同方法實(shí)現(xiàn)粘連大米分割計(jì)數(shù)

    測(cè)試圖如下,圖中有個(gè)別米粒相互粘連,本文主要演示如何使用OpenCV用兩不同方法將其分割并計(jì)數(shù)。
    的頭像 發(fā)表于 01-22 14:55 ?1714次閱讀
    OpenCV兩<b class='flag-5'>種</b>不同方法實(shí)現(xiàn)粘連大米<b class='flag-5'>分割</b>計(jì)數(shù)

    電壓偏差和電壓損失的關(guān)系是什么?如何確定線路電壓損失?

    電壓偏差和電壓損失的關(guān)系是什么?如何確定線路電壓損失? 電壓偏差是指實(shí)際的電壓值與額定電壓之間的差異。電壓損失則是指電能在輸送過(guò)程中由于電阻、電感、電容等因素引起的能量損失。 電壓偏差
    的頭像 發(fā)表于 12-25 17:19 ?632次閱讀
    RM新时代网站-首页