RM新时代-RM平台-RM新时代app下载,RM新时代有限公司

編者按：深度學習知名博主Jonathan Hui簡要介紹了FPN（特征金字塔網(wǎng)絡）的直覺、架構(gòu)和表現(xiàn)。

檢測不同尺度的目標（尤其是其中的小目標）很有挑戰(zhàn)性。我們可以使用同一圖像的不同尺度版本來檢測目標（下圖左部）。然而，處理多尺度圖像很費時，內(nèi)存需求過高，難以同時進行端到端訓練。因此，我們可能只在推理階段使用這種方法，以盡可能提高精確度，特別是在競賽之類不顧及速度的場景中。我們也可以創(chuàng)建特征金字塔來檢測目標（下圖右部）。然而接近圖像的、由低層結(jié)構(gòu)組成的特征映射在精確目標預測上效果不佳。

來源：FPN論文

特征金字塔網(wǎng)絡（Feature Pyramid Network,FPN）是為這一金字塔概念設計的特征提取器，設計時考慮到了精確性和速度。它代替了Faster R-CNN之類的檢測模型的特征提取器，生成多層特征映射（多尺度特征映射），信息的質(zhì)量比普通的用于特征檢測的特征金字塔更好。

數(shù)據(jù)流

來源：FPN論文

FPN由自底向上和自頂向下兩個路徑組成。自底向上的路徑是通常的提取特征的卷積網(wǎng)絡。自底向上，空間分辨率遞減，檢測更多高層結(jié)構(gòu)，網(wǎng)絡層的語義值相應增加。

FPN特征提取（修改自FPN論文中的圖片）

SSD基于多個特征映射進行檢測。然而，低層并不用于目標檢測——這些層的分辨率很高，但語義值不夠高，因此，為了避免顯著的速度下降，目標檢測時不使用這些層。因為SSD檢測時僅適用高層，所以在小目標上的表現(xiàn)要差很多。

修改自FPN論文中的圖片

而FPN提供了自頂向下的路徑，基于語義較豐富的層構(gòu)建分辨率較高的層。

修改自FPN論文中的圖片

盡管重建的層語義足夠豐富，但經(jīng)過這些下采樣和上采樣過程，目標的位置不再準確了。因此FPN在重建層和相應的特征映射間增加了橫向連接，以幫助檢測器更好地預測位置。這些橫向連接同時起到了跳躍連接（skip connection）的作用（類似殘差網(wǎng)絡的做法）。

修改自FPN論文中的圖片

自底向上路徑

自底向上路徑由很多卷積模塊組成，每個模塊包含許多卷積層。自底向上的過程中，空間維度逐模塊減半（步長翻倍）。每個卷積模塊的輸出將在自頂向下的路徑中使用。

自頂向下路徑

上圖中，F(xiàn)PN使用一個1x1的卷積過濾器將C5（最上面的卷積模塊）的頻道深度降至256維，得到M5。接著應用一個3x3的卷積得到P5，P5正是用于目標預測的第一個特征映射。

沿著自頂向下的路徑往下，F(xiàn)PN對之前的層應用最近鄰上采樣（x2）。同時，F(xiàn)PN對自底向上通路中的相應特征映射應用1x1卷積。接著應用分素相加。最后同樣應用3x3卷積得到目標檢測的特征映射。這一過濾器減輕了上采樣的混疊效應。

這一過程在P2后停止，因為C1的空間維度太高了。如果不停，依法炮制得到P1的話，會大大拖慢進程。

FPN搭配RPN

FPN自身并不是目標檢測器，而是一個配合目標檢測器使用的特征檢測器。例如，使用FPN提取多層特征映射后將其傳給RPN（基于卷積和錨的目標檢測器）檢測目標。RPN在特征映射上應用3x3卷積，之后在為分類預測和包圍盒回歸分別應用1x1卷積。這些3x3和1x1卷積層稱為RPN頭（head）。其他特征映射應用同樣的RPN頭。

FPN搭配Fast R-CNN和Faster R-CNN

首先簡短地概覽下Fast R-CNN和Faster R-CNN的數(shù)據(jù)流。它基于特征映射層創(chuàng)建ROI（感興趣區(qū)域）。然后使用ROI和特征映射層創(chuàng)建特征片，以傳給ROI池化。

FPN生成了特征映射金字塔后，應用RPN（見上一節(jié)）生成ROI。根據(jù)ROI的尺寸，選擇最合適的尺度上的特征映射以提取特征片。

基于ROI尺寸選擇特征映射的具體公式為：

其中，w和h為ROI的寬度和高度，k0= 4，k對應FPN中的Pk層。

所以，如果k = 3，我們將選擇P3作為特征映射，應用ROI池化，并將結(jié)果傳給Fast R-CNN/Faster R-CNN頭（兩者的頭一致），以完成預測。

分割

類似Mask R-CNN，F(xiàn)PN也是一個優(yōu)良的圖像分割提取掩碼。下圖中，應用5x5的滑窗于特征映射，以生成14x14分割。之后，合并不同尺度的掩碼以形成最終的掩碼預測。

來源：FPN論文

結(jié)果

FPN搭配RPN，提升AR（average recall，平均召回）至56.3，相比RPN基線提升了8. 在小目標上的提升更是達到了12.9.

來源：FPN論文

基于FPN的Faster R-CNN的推理時間為0.148秒/張（單Nvidia M40 GPU，ResNet-50），單尺度ResNet-50基線的速度是0.32秒/張。

來源：FPN論文

FPN和當前最先進的檢測器實力相當。事實上，F(xiàn)PN擊敗了COCO 2016和2015挑戰(zhàn)的贏家。

來源：FPN論文

經(jīng)驗總結(jié)

下面是從試驗數(shù)據(jù)中總結(jié)出的一些經(jīng)驗。

在單個高分辨率特征映射層上增加更多錨不足以提升精確度。

自頂向下路徑重建了富含語義信息的分辨率。

但我們需要橫向連接，以便將更多準確的目標空間信息加回來。

在COCO數(shù)據(jù)集上，自頂向下路徑和橫向連接將精確度提升了8。小目標的提升達到了12.9.

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

檢測器

檢測器

+關注

關注
1

文章
863

瀏覽量
47676
圖像

圖像

+關注

關注
2

文章
1083

瀏覽量
40449
數(shù)據(jù)流

數(shù)據(jù)流

+關注

關注
0

文章
119

瀏覽量
14349

原文標題：特征金字塔網(wǎng)絡FPN的直覺與架構(gòu)

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

PCB工程師金字塔分級標準

PCB工程師金字塔分級標準

發(fā)表于 08-06 13:21

自制for循環(huán)打印金字塔

自制for循環(huán)打印金字塔

發(fā)表于 09-18 08:46

基于金字塔模型的地形網(wǎng)格裂縫消除算法

本文針對基于多分辨金字塔模型繪制海量地形時的網(wǎng)格裂縫問題，提出了一種網(wǎng)格裂縫消除算法。該算法利用分裂標記表，結(jié)合金字塔模型本身分塊與多分辨率的特性，從整體上

發(fā)表于 12-30 12:02 ?8次下載

基于壓縮金字塔核稀疏表示的人臉識別_周凱

基于壓縮金字塔核稀疏表示的人臉識別_周凱

發(fā)表于 01-08 11:13 ?0次下載

繪制金字塔程序?qū)崿F(xiàn)

用c語言編程繪制金字塔

發(fā)表于 11-27 16:24 ?822次閱讀

可控特性的金字塔變換

本文設計了一種具有平移不變性、方向和尺度聯(lián)合可控特性的金字塔變換，稱為幾何變形可控金字塔變換（DPT）。此DPT從一種數(shù)值形式表示的方向可控金字塔變換（SPT）發(fā)展而來。我們以SPT的每一個方向可控

發(fā)表于 12-14 16:41 ?4次下載

基于梯度方向直方圖與高斯金字塔的車牌模糊漢字識別方法

針對現(xiàn)有車牌識別方法中對模糊車牌識別率不高的問題，提出一種結(jié)合高斯金字塔與梯度方向直方圖（HOG）特征的車牌識別算法。利用金字塔模型多尺度表達的方法，首先對車牌模糊漢字圖像建立兩層高斯金字塔

發(fā)表于 12-25 10:43 ?0次下載

一種金字塔注意力網(wǎng)絡，用于處理圖像語義分割問題

基于以上觀察，我們提出了特征金字塔注意力模塊 (FPA)，該模塊能夠融合來自 U 型網(wǎng)絡 (如特征金字塔

發(fā)表于 06-05 09:21 ?1.2w次閱讀

FAIR何愷明團隊最新論文提出“全景FPN”，聚焦于圖像的全景分割任務

特征金字塔網(wǎng)絡(Feature Pyramid Network)：首先簡要回顧一下FPN。FPN

發(fā)表于 01-11 08:57 ?6178次閱讀

谷歌大腦采用神經(jīng)結(jié)構(gòu)搜索發(fā)現(xiàn)了一種新的特征金字塔結(jié)構(gòu)NAS-FPN

的挑戰(zhàn)，即在多種尺度和位置上檢測和定位多個對象。為了解決這一問題，許多先進的目標檢測器通常使用金字塔特征表示，它以多尺度特征層來表示圖像。

發(fā)表于 04-21 09:35 ?5105次閱讀

中國集成電路封裝行業(yè)市場現(xiàn)狀——金字塔的尖頂與基座

中國集成電路封裝行業(yè)技術演變路程漫漫集成電路封裝在電子學金字塔中的位置既是金字塔的尖頂又是金字塔的基座。

發(fā)表于 07-11 14:51 ?3321次閱讀

如何實現(xiàn)多聚焦圖像融合的拉普拉斯金字塔方法

本文檔的主要內(nèi)容詳細介紹的是如何實現(xiàn)多聚焦圖像融合的拉普拉斯金字塔方法。

發(fā)表于 02-03 11:40 ?2次下載

基于全局特征金字塔網(wǎng)絡的信息融合方法

特征不平衡問題是影響神經(jīng)網(wǎng)絡檢測效率的關鍵因素。針對 Mask r-CNN中的特征不平衡問題，提出種基于全局特征金字塔

發(fā)表于 03-24 14:51 ?13次下載

基于規(guī)范化函數(shù)的深度金字塔模型算法

傳統(tǒng)深度金字塔模型作為一種有效的行人檢測算法備受關注，融合可變形部件模型和卷積神經(jīng)網(wǎng)絡模型，但特征提取部分使用的算法像素區(qū)堿的大小不冋，導致模型之間不能完全融合，在行人數(shù)量多、姿勢復雜和有遮擋情況

發(fā)表于 03-30 14:09 ?14次下載

DIY自制基于51單片機的LED金字塔

電子發(fā)燒友網(wǎng)站提供《DIY自制基于51單片機的LED金字塔.pdf》資料免費下載

發(fā)表于 10-25 10:27 ?0次下載