新时代RM|国际平台,RM新时代投资官网|首入球时间

【導讀】本文提出了一種十億級數(shù)據(jù)規(guī)模的半監(jiān)督圖像分類模型，通過使用教師-學生架構(gòu)以及一個小規(guī)模的帶標簽數(shù)據(jù)集，作者提出了一個基于卷積神經(jīng)網(wǎng)絡的半監(jiān)督學習方法。另外，作者對模型的不同架構(gòu)和模型參數(shù)進行了消融實驗，并提出了一些構(gòu)建半監(jiān)督學習模型的建議。

摘要

本文基于教師-學生架構(gòu)（te acher-student schema），利用大規(guī)模無標簽圖像數(shù)據(jù)集 (多達十億張)，提出了一種基于大規(guī)模卷積神經(jīng)網(wǎng)絡的半監(jiān)督學習方法，旨在改善給定目標模型架構(gòu)的性能，如 ResNet-50 或ResNext。隨后，作者通過大量的評估分析了本文所提出方法的成功因素，提出了一些用于構(gòu)建高性能半監(jiān)督圖像分類學習模型的建議?？偟膩碚f，本文的方法在構(gòu)建圖像、視頻及細粒度分類的標準模型架構(gòu)方面有著重要的意義，如利用一個含十億張未標記的圖像數(shù)據(jù)集訓練得到的 vanilla ResNet-50 模型，在 Imagenet 數(shù)據(jù)集的基準測試中取得了81.2％的 top-1 精度。

簡介

當前，利用網(wǎng)絡弱監(jiān)督數(shù)據(jù)集，圖像和視頻分類技術在諸如圖像分類、細粒度識別等問題上取得了非常好的表現(xiàn)。但是，弱監(jiān)督學習的標簽存在一些缺陷。首先，非視覺性標簽、缺失標簽和不相關標簽會導致噪聲，這將對模型的訓練造成很大影響。第二，弱監(jiān)督的網(wǎng)絡數(shù)據(jù)集通常遵循齊普夫定律，存在大量長尾（long-tail）標簽，這使得模型只會對那些最顯著的標簽有良好的性能。最后，這些弱監(jiān)督方法假定其可用于目標任務所使用的大型弱監(jiān)督數(shù)據(jù)集，然而在許多現(xiàn)實情況中并非如此。

針對這些問題，本文利用數(shù)十億張未標記的圖像以及一個針對特定任務的相對較小的標簽數(shù)據(jù)集，提出了一個用于網(wǎng)絡規(guī)模數(shù)據(jù)的半監(jiān)督深度學習模型，如圖1所示：

（1）在標簽數(shù)據(jù)集上訓練以獲得初始的教師模型（teacher model）；（2）對于每個 class/label 對，使用該教師模型來對未標記的圖像打標簽并進行打分，選擇每一標簽類別的 top-K 個圖像來構(gòu)建新的訓練數(shù)據(jù)；（3）使用新構(gòu)建的數(shù)據(jù)來訓練學生模型 (student model)。通常來說，學生模型與教師模型存在一定的差異，因此在測試時可以降低模型的復雜性； (4) 在初始的標簽數(shù)據(jù)集上，對預訓練的學生模型進行微調(diào) (fine-tuning) ，以避免一些可能存在的標簽錯誤。

圖1 半監(jiān)督學習方法說明：通過一個優(yōu)秀的教師模型，從一個非常大型的無標簽圖像數(shù)據(jù)集 (億級) 構(gòu)建一個新的訓練集。隨后，在這個帶噪聲的數(shù)據(jù)集上訓練學生模型，再在原始的數(shù)據(jù)集上進行微調(diào)。

除此模型之外，本研究還嘗試了幾種其他的模型結(jié)構(gòu)，一是移除教師 - 學生模型并使用自訓練模型，二是在進行模型微調(diào)時使用推斷出的標簽作為訓練數(shù)據(jù)。在實驗分析部分，作者討論了幾個影響模型性能的敏感因素，如用于標簽排名的教師模型的性能，無標簽數(shù)據(jù)的規(guī)模以及性質(zhì)，教師模型和學生模型之間的關系等。研究結(jié)果表明，利用主題標簽或查詢作為弱監(jiān)督信號來收集無標簽數(shù)據(jù)能夠顯著地提升模型的性能。

本文的貢獻如下：

提出了一個用于大規(guī)模億級無標簽數(shù)據(jù)集的半監(jiān)督深度學習方法，并展示了在標簽數(shù)據(jù)上訓練得到的教師模型能夠有效地指導學生模型在無標簽圖像數(shù)據(jù)上的訓練學習過程。

總結(jié)了這種學習策略在何種情況下能帶來最大收益，如圖2。

對多種模型架構(gòu)進行消融實驗并做詳細分析，如教師/學生模型的強度，無標簽數(shù)據(jù)集的性質(zhì)，所選擇樣本的標簽數(shù)等。

展示了這種半監(jiān)督學習方法在視頻分類和細粒度識別任務中的表現(xiàn)。

圖2 用于構(gòu)建大規(guī)模半監(jiān)督學習模型的建議

半監(jiān)督學習方法

本文所提出的半監(jiān)督學習方法主要包含四個部分，如圖3所示：

圖3 半監(jiān)督學習方法流程

這與當前的一些蒸餾研究流程相類似，不同之處如下：(1) 聯(lián)合利用無標簽和標簽數(shù)據(jù)的方法；(2) 構(gòu)建標簽數(shù)據(jù)集 D 的方法；(3) 使用的數(shù)據(jù)規(guī)模以及針對 Imagenet 數(shù)據(jù)集的改進。

教師模型訓練

這一步驟在標簽數(shù)據(jù)集上訓練一個教師模型，以便對無標簽數(shù)據(jù)集的圖像打標簽。這種方法的一大優(yōu)點在于推理過程是高度可并行的，這意味著不論是在 CPU 還是在 GPU 上，對大規(guī)模億級數(shù)據(jù)的計算也能在很短時間內(nèi)完成。該階段訓練一個性能優(yōu)秀的教師模型，以便為無標簽數(shù)據(jù)生成可靠的標簽信息，且不引入多余的標簽噪聲。

數(shù)據(jù)選擇和標簽

這一步旨在收集大量的圖像數(shù)據(jù)，并對標簽噪聲進行控制。由于無標簽數(shù)據(jù)的規(guī)模很大，因此對于每個目標標簽，從無標簽數(shù)據(jù)集中選用 top-K 個樣本。首先，用無標簽數(shù)據(jù)集的每個樣本來訓練教師模型，以獲得 softmax 預測向量。而對于每張圖像而言，只能得到與類別相關的 P 個最高分數(shù)，其中 P 是一個用來反映我們期望出現(xiàn)在每個圖像中的最多的類別數(shù)量。隨后，基于相關的類別分數(shù)，對圖像進行排名 (ranking)，并選擇用于多類別半監(jiān)督圖像分類的新的圖像數(shù)據(jù)。圖4展示了在 ImageNet-val 數(shù)據(jù)集上基于 ResNet-50 訓練出的教師模型在 YFCC100M 數(shù)據(jù)上的排名結(jié)果，其中 P = 5 。排名越高的圖像，所帶的標簽噪聲越少。

圖4 通過本文方法從 YFCC100M 上所收集的圖像樣本

學生模型的訓練與微調(diào)

這一步用新的標簽數(shù)據(jù)集數(shù)據(jù)來訓練學生模型，旨在得到一個更簡單通用的模型。實際上，這里可以選用與教師模型相同結(jié)構(gòu)的學生模型。值得注意的是，雖然為標簽數(shù)據(jù)集中每個圖像分配多個類別標簽信息是可以實現(xiàn)的，但這里仍通過圖像復制的方式將問題視為一種多類別分類任務。之后，在原始標簽數(shù)據(jù)集上對學生模型微調(diào)并進行評估，在預訓練和微調(diào)過程都采用 softmax 損失函數(shù)。

圖像分類實驗與分析

這一部分，作者通過在 ImageNet1K 數(shù)據(jù)集上的一系列圖像分類實驗評估了該模型的效果。

實驗設置

數(shù)據(jù)集：使用下面兩個網(wǎng)絡規(guī)模的數(shù)據(jù)集作為無標簽數(shù)據(jù)，用于半監(jiān)督學習實驗。

YFCC-100M：這一數(shù)據(jù)集是從 Flickr 網(wǎng)站提取得到的一個含9千萬張圖像的公開數(shù)據(jù)集。移除數(shù)據(jù)集中的重復樣本后，作者將該數(shù)據(jù)集用于后續(xù)大部分的實驗。

IG-1B-Targeted：這一數(shù)據(jù)集是作者從社交媒體網(wǎng)站上收集的，包含10億張公共圖像數(shù)據(jù)。

除非有特別的說明，這里統(tǒng)一采用標準的1000個類別的 ImageNet 作為標簽數(shù)據(jù)集。

模型：對于教師和學生模型，分別采用殘差網(wǎng)絡（residul network） ResNet-d ，其中 d = {18, 50} ，以及使用群卷積（group convolution）的殘差網(wǎng)絡 ResNeXt-101 32XCd ，其中分組寬度 C = {4, 8, 16, 48} 。具體的模型參數(shù)如圖5所示：

圖5 改變教師模型容量并用所提出的方法來訓練 ResNet-50 學生模型，這里的收益是相對于監(jiān)督學習基準準確度的絕對提升值。

訓練細節(jié)：實驗過程通過使用同步隨機梯度下降算法（synchronous stochastic gradient descent, SGD）在8臺機器的64個 GPU 上訓練模型。每個 GPU 一次處理24張圖像，并對所有的卷積層采用批正則化策略（batch normalization）。權重衰減參數(shù)設置為0.0001，訓練過程的學習率設置采用帶 warm-up 的縮放策略，整體的 minibatch 大小為 64 * 24 = 1536 。

對于模型預訓練，采用 0.1 到 0.1/256×1536 的 warm-up 策略，這里的 0.1 和 256分別是 ImageNet 訓練中使用的標準學習率和 minibatch 尺寸。此外，采用二等分間隔的學習率衰減策略，使得在訓練過程中學習率減少次數(shù)共為13次。在基于 ImageNet 數(shù)據(jù)集對模型進行微調(diào)時，將學習率設為 0.00025 / 256 × 1536，并在30 個 epochs 期間采用三等分間隔減少學習率。

不同模型的實驗分析

本文方法vs監(jiān)督學習方法圖6比較了本文方法與監(jiān)督學習方法在 ImageNet 數(shù)據(jù)集上的效果。可以看到，相比于監(jiān)督學習，本文方法訓練的教師模型取得了顯著的性能改進。

圖6 本文方法與監(jiān)督學習方法在不同容量的學生模型上微調(diào)前后的 ImageNet1k-val top-1 精度

模型微調(diào)的重要性由于預訓練的數(shù)據(jù)集和標簽數(shù)據(jù)集的標簽信息是一樣的，作者比較了模型在標簽數(shù)據(jù)上微調(diào)前后的性能。如上圖6所示，可以看到在標簽數(shù)據(jù)上進行微調(diào)對于模型性能有著至關重要的影響。

學生和教師模型容量的影響如上圖5、圖6所示，可以看到對于容量更低的學生模型，識別的精度有顯著地提高。而對于教師模型而言，增大模型的容量并不會對學生模型的性能造成顯著影響。

自訓練：教師/學生模型的消融實驗(ablation)圖7展示了在自訓練模式下，模型在ImageNet 數(shù)據(jù)集上訓練得到的不同模型在推斷時的準確度?？梢钥吹?，對于容量更大的模型，所取得的準確度表現(xiàn)相對更好。

圖7 自訓練模式下 ResNet 和 ResNeXt 模型在 YFCC 數(shù)據(jù)集上的 top-1 準確度，這里的收益是相對于監(jiān)督學習基準的提升值。

參數(shù)分析

無標簽數(shù)據(jù)集的大小下圖8展示不同規(guī)模的無標簽數(shù)據(jù)集上半監(jiān)督學習模型的準確度表現(xiàn)。可以看到，在數(shù)據(jù)集規(guī)模達到2千5百萬之前，每當數(shù)據(jù)集規(guī)模成倍增加時，模型能夠取得穩(wěn)定的準確度提升?？偟膩碚f，采用大型的無標簽數(shù)據(jù)對于模型性能的提升是有幫助的。

圖8 ResNet-50 學生模型在不同規(guī)模的無標簽數(shù)據(jù)上的精度

預訓練迭代次數(shù)圖9展示了不同預訓練迭代次數(shù)下的模型性能表現(xiàn)?？梢钥吹?，當?shù)螖?shù)為10億次時，模型能夠?qū)崿F(xiàn)良好的識別準確度和計算資源的權衡。

圖9 不同預訓練步數(shù)對完全監(jiān)督和半監(jiān)督的 ResNet-50 學生模型性能的影響

參數(shù)K和P圖10展示了當 P = 10 時，每個類別選擇的圖片數(shù) K 的變化對模型性能的影響。作者發(fā)現(xiàn)，在所收集的無標簽數(shù)據(jù)集規(guī)模不是很大時，令 P = 10 能獲得較好的模型表現(xiàn)。

圖10 對于超參數(shù) K 的不同取值，學生模型的精度表現(xiàn)。

此外，實驗還對一些不同的半監(jiān)督學習的方法進行了分析，并將模型的表現(xiàn)與當前最先進的模型性能進行對比。除了圖像分類實驗外，本研究還進一步探究在視頻分類、遷移學習等不同應用中該半監(jiān)督學習方法的性能。具體的分析內(nèi)容和說明可參見原論文。

總結(jié)

本文研究利用大規(guī)模的無標簽圖像數(shù)據(jù)集，探究了半監(jiān)督學習在圖像識別方面的應用，并提高了 CNN 模型的性能表現(xiàn)。通過一系列的實驗分析，作者提出，聯(lián)合使用大型標簽數(shù)據(jù)集和小規(guī)模有標簽數(shù)據(jù)集能夠有助于構(gòu)建效果更好的卷積神經(jīng)網(wǎng)絡模型。此外，研究還對一些模型參數(shù)和模型變體進行了實驗分析，并總結(jié)了一些構(gòu)建半監(jiān)督圖像分類模型的經(jīng)驗方法。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

函數(shù)

函數(shù)

+關注

關注
3

文章
4327

瀏覽量
62569
圖像分類

圖像分類

+關注

關注
0

文章
90

瀏覽量
11914
數(shù)據(jù)集

數(shù)據(jù)集

+關注

關注
4

文章
1208

瀏覽量
24689

原文標題：10億級數(shù)據(jù)規(guī)模的半監(jiān)督圖像分類模型，Imagenet測試精度高達81.2％ | 技術頭條

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

半監(jiān)督的譜聚類圖像分割

采用IRAM算法計算相似度矩陣的主導特征值，減小運算時間。為解決譜聚類敏感于尺度參數(shù)的問題，提出利用少量監(jiān)督樣本求取每幅圖像特有的尺度參數(shù)，進行半監(jiān)督

發(fā)表于 11-13 11:17 ?4次下載

基于C均值聚類和圖轉(zhuǎn)導的半監(jiān)督分類算法

針對傳統(tǒng)圖轉(zhuǎn)導（ GT）算法計算量大并且準確率不高的問題，提出一個基于C均值聚類和圖轉(zhuǎn)導的半監(jiān)督分類算法。首先，采用模糊C均值（FCM）聚類算法先對未標記樣本預選取，縮小圖轉(zhuǎn)導算法構(gòu)圖

發(fā)表于 11-28 16:36 ?0次下載

基于C均值聚類和圖轉(zhuǎn)導的<b class='flag-5'>半</b><b class='flag-5'>監(jiān)督</b><b class='flag-5'>分類</b>算法

半監(jiān)督極限學習機分類模型

當數(shù)據(jù)集中包含的訓練信息不充分時，監(jiān)督的極限學習機較難應用，因此將半監(jiān)督學習應用到極限學習機，提出一種半

發(fā)表于 12-23 11:24 ?0次下載

基于均值漂移參數(shù)自適應的半監(jiān)督復合核支持向量機圖像分類

半監(jiān)督復合核支持向量機在構(gòu)造聚類核時，普遍存在復雜度高、不適于大規(guī)模圖像分類的問題；且K均值（K-means）

發(fā)表于 01-03 10:41 ?1次下載

一種新的目標分類特征深度學習模型

為提高低配置計算環(huán)境中的視覺目標實時在線分類特征提取的時效性和分類準確率，提出一種新的目標分類特征深度學習模型。根據(jù)高時效性要求，選用

發(fā)表于 03-20 17:30 ?0次下載

如何約束半監(jiān)督分類方法的詳細資料概述

假設聯(lián)合成對約束半監(jiān)督分類方法（ ACA-JPC-S3VM）。一方面，它將單個未標記樣本到數(shù)據(jù)分布邊界的距離融入到

發(fā)表于 11-15 11:32 ?4次下載

最基礎的半監(jiān)督學習

導讀最基礎的半監(jiān)督學習的概念，給大家一個感性的認識。半監(jiān)督學習(SSL)是一種機器學習技術，

發(fā)表于 11-02 16:08 ?2648次閱讀

一種基于人臉圖像陰影集的二級分類模型

準確率較低。提岀一種基于陰影集的二級分類模型。采用深度卷積神經(jīng)網(wǎng)絡對大規(guī)模圖像集進行一階段

發(fā)表于 03-30 09:29 ?4次下載

一種帶有局部坐標約束的半監(jiān)督概念分解算法

和數(shù)據(jù)有限的標簽信息融入到CF模型中，提出了一種帶有局部坐標約束的半監(jiān)督的概念分解（SLCF）算法。SICF算法利用局部坐標約束學習

發(fā)表于 03-31 11:47 ?10次下載

一種基于光滑表示的半監(jiān)督分類算法

。文中提岀了一種基于光滑表示的半監(jiān)督分類算法。具體來說，此方法通過應用一個低通濾波器來實現(xiàn)數(shù)據(jù)的

發(fā)表于 04-08 10:47 ?17次下載

一種基于DE和ELM的半監(jiān)督分類方法

演化算法和分析方法的結(jié)合是機器學習領域近幾年的一個研究熱點。研究如何將差分進化（DE）演化算法與基于超限學習機（ELM）的半監(jiān)督分類算法相結(jié)合。首先，提出了

發(fā)表于 04-09 16:16 ?5次下載

一種基于Q學習算法的增量分類模型

大數(shù)據(jù)時代的數(shù)據(jù)信息呈現(xiàn)持續(xù)性、爆炸性的増長，為杋器學習算法帶來了大量監(jiān)督樣本。然而，這對信息通常不是次性獲得的，且獲得的數(shù)據(jù)標記是不準確的，這對傳統(tǒng)的

發(fā)表于 05-13 14:17 ?3次下載

分塊低秩圖的遙感圖像半監(jiān)督分類

標記數(shù)據(jù)的問題，基于低秩表示模型和圖的半監(jiān)督學習方法，提岀了基于分塊低秩圖的大規(guī)模遙感圖像

發(fā)表于 06-11 15:57 ?10次下載

一種基于偽標簽半監(jiān)督學習的小樣本調(diào)制識別算法

一種基于偽標簽半監(jiān)督學習的小樣本調(diào)制識別算法來源：《西北工業(yè)大學學報》，作者史蘊豪等摘要：針對有標簽樣本較少條件下的通信信號調(diào)制識別問題，提出了一種基于偽標簽

發(fā)表于 02-10 11:37 ?818次閱讀

基于一致性的半監(jiān)督語義分割方法

語義分割是一項重要的像素級別分類任務。但是由于其非常依賴于數(shù)據(jù)的特性（data hungary），模型的整體性能會因為數(shù)據(jù)集的大小而產(chǎn)生大

發(fā)表于 08-11 11:29 ?1030次閱讀