RM新时代赚钱项目,新时代RM平台官网

文章目錄

前言

概述

網(wǎng)絡(luò)簡介

DBTM：Local Patches Meet Global Context

ASUB block

實驗

討論

前言

這是 MICCAI 2022 上的第三篇閱讀筆記了，之前兩篇也都可以在 GiantPandaCV 公眾號搜索到。如下圖所示，目前的視網(wǎng)膜血管分割方法按照輸入數(shù)據(jù)劃分有兩類：image-level 和 patches-level，每一種方法都有自己的優(yōu)勢，如何將兩者結(jié)合起來是一個需要去解決的問題，這也是 DA-Net 這篇文章的貢獻之一。此外，這篇文章還提出了一個自適應(yīng)的條狀 Upsampling Block，我們會在后面展開介紹。

概述

目前的視網(wǎng)膜血管分割方法根據(jù)輸入類型大致分為 image-level 和 patches-level 方法，為了從這兩種輸入形式中受益，這篇文章引入了一個雙分支 Transformer 模塊，被叫做 DBTM，它可以同時利用 patches-level 的本地信息和 image-level 的全局上下文信息。視網(wǎng)膜血管跨度長、細且呈條狀分布，傳統(tǒng)的方形卷積核表現(xiàn)不佳，也是為了更好地捕獲這部分的上下文信息，進一步設(shè)計了一個自適應(yīng)條狀 Upsampling Block，被叫做 ASUB，以適應(yīng)視網(wǎng)膜血管的條狀分布。

網(wǎng)絡(luò)簡介

下圖是 DA-Net 的整體結(jié)構(gòu)。共享 encoder 包含五個卷積塊，DBTM 在 encoder 之后，最后是帶 ASUB 的 decoder。首先，原眼底圖像很常規(guī)的被分成 N^2 個 patches，N 為 patch 的大小，除此之外，將原眼底圖像也下采樣 N 倍，但是不做裁剪。將它們一起送入共享 encoder，分別得到相應(yīng)的特征圖 F(i) 和 F′，這里的共享指的是兩個 encoder 分支的權(quán)重共享（那么你可以把它簡單理解為用同一個卷積核掃描 N^1+1 個 patches，只不過其中 1 這個 patch 是完整的圖像），兩個分支可以通過合并批次并行操作，這意味著輸入圖像的編碼可以在一次推理中完成，無需增加額外的參數(shù)和時間消耗。隨后，這兩個分支的輸出通過 DBTM 進行通信，DBTM 可以向每個補丁廣播長距離的全局信息。U 型網(wǎng)絡(luò)中間還有普通的跨層連接，最后，再通過 ASUB 的 decoder后，得到預(yù)測的分割結(jié)果。

請?zhí)砑訄D片描述

DBTM：Local Patches Meet Global Context

下面兩部分，我們分別對 DBTM 和 AUSB block 展開介紹。

首先，將經(jīng)過 flatten 和投影的特征圖 F(i) 和 F′ 作為輸入 tokens ，其中加入訓(xùn)練過的 position embeddings 以保留位置信息。然后，如下圖所示，輸入 tokens 被送入 Transformer Layer。不同的是，設(shè)計了一個特殊的 self-then-cross 的 pipeline，將兩個分支的輸入混合起來，稱為雙分支 Transformer 模塊（看網(wǎng)絡(luò)簡介中的圖）。第一個 Transformer Layer 作為 Q，第二個 Transformer Layer 作為 K 和 V。具體來說，首先，這兩個分支的輸入標記分別用自注意機制模擬 image-level 和 patches-level 的長距離依賴。然后，交叉注意機制被用于兩個分支的 tokens 之間的通信。在交叉注意機制中，將 patches-level 的標記表示為查詢 Q， image-level 分支的標記表示為下圖中多頭自我注意（MSA）層的鍵 Q 值 V。整體設(shè)計是很簡單的，實現(xiàn)了”Local Patches Meet Global Context“。

ASUB block

視網(wǎng)膜血管的一些固有特征導(dǎo)致了其分割困難，比如視網(wǎng)膜血管的分支很細，邊界很難區(qū)分，而且視網(wǎng)膜血管之間的關(guān)系很復(fù)雜。在這些情況下，視網(wǎng)膜血管周圍的背景信息對視網(wǎng)膜血管的分割至關(guān)重要。如下圖所示，傳統(tǒng)的方形卷積核在正常的上采樣塊中不能很好地捕捉線性特征，并且不可避免地引入了來自鄰近的不相關(guān)信息。為了更好地收集視網(wǎng)膜血管周圍的背景信息，提出了 Adaptive Strip Upsampling Block（ASUB），它適合于長而細的視網(wǎng)膜血管分布。

請?zhí)砑訄D片描述

粗略看一下，在 (c) 中，一共有四種類型的條狀卷積核，捕捉水平（S1）、垂直（S2）、左對角線（S3）和右對角線（S4）方向上的信息。接下來，我們仔細分析下 ASUB 的思路，首先，使用一個 1×1 的 Conv 來將特征圖的維度減半，以減少計算成本。然后，利用四個帶狀卷積來捕捉來自不同方向的上下文信息。此外，做全局平均池化（GAP）來獲得通道維度的特征圖。在特征圖的通道維度上獲得特征向量，并使用全連接層來學(xué)習每個帶狀卷積的通道方向的注意立向量。之后，應(yīng)用萬能的 softmax 來產(chǎn)生通道融合權(quán)重Wi , i∈{1, 2, 3, 4}。最后，我們用學(xué)到的自適應(yīng)權(quán)重對每個帶狀卷積 Fi 的輸出進行加權(quán)，得到特征圖，特征圖是 4 個 Fi*Wi 求和。最后用 1×1 的 Conv 恢復(fù)維度，得到最終輸出 Foutput。同時，這部分是會增加網(wǎng)絡(luò)學(xué)習負擔的。

請?zhí)砑訄D片描述

實驗

首先是和其他 SOTA 方法的比較，包括 image-level 和 patches-level 兩種，如下表。

接下來是消融實驗的部分，其中的 Baseline 指 U-Net。注意到，F(xiàn)LOPs 和參數(shù)量的增加是可以接受的。

討論

其實 ASUB 設(shè)置的條形采樣方向也不一定與一些小血管的方向完全一致，這是可以進一步改進的地方。比如說嘗試可變形卷積（Deformable ConvNetsV2）的方式。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴