監(jiān)督學(xué)習(xí)|機(jī)器學(xué)習(xí)|
集成學(xué)習(xí)|進(jìn)化計(jì)算|
非監(jiān)督學(xué)習(xí)| 半監(jiān)督學(xué)習(xí)|
自監(jiān)督學(xué)習(xí)|?無監(jiān)督學(xué)習(xí)|
隨著人工智能、元宇宙、數(shù)據(jù)安全、可信隱私用計(jì)算、大數(shù)據(jù)等領(lǐng)域的快速發(fā)展,自監(jiān)督學(xué)習(xí)脫穎而出,致力于解決數(shù)據(jù)中心、云計(jì)算、人工智能和邊緣計(jì)算等各個(gè)行業(yè)的問題,為人們帶來極大便益。
自監(jiān)督學(xué)習(xí)是什么?
自監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的關(guān)系
自我監(jiān)督方法可以看作是一種特殊形式的具有監(jiān)督形式的非監(jiān)督學(xué)習(xí)方法,其中監(jiān)督是通過自我監(jiān)督任務(wù)而不是預(yù)設(shè)的先驗(yàn)知識(shí)誘發(fā)的。與完全不受監(jiān)督的設(shè)置相比,自監(jiān)督學(xué)習(xí)利用數(shù)據(jù)集本身的信息構(gòu)造偽標(biāo)簽。在表達(dá)學(xué)習(xí)中,自我監(jiān)督學(xué)習(xí)有很大的潛力取代完全監(jiān)督學(xué)習(xí)。人類學(xué)習(xí)的本質(zhì)告訴我們,大型標(biāo)注數(shù)據(jù)集可能不是必需的,我們可以自發(fā)地從未標(biāo)注的數(shù)據(jù)集中學(xué)習(xí)。更為現(xiàn)實(shí)的設(shè)置是使用少量帶注釋的數(shù)據(jù)進(jìn)行自我學(xué)習(xí)。這就是所謂的Few-shot Learning。
自監(jiān)督學(xué)習(xí)的主要流派
在自監(jiān)督學(xué)習(xí)中,如何自動(dòng)獲取偽標(biāo)簽非常重要。根據(jù)偽標(biāo)簽的不同類型,將自監(jiān)督表示學(xué)習(xí)方法分為四種類型:
基于數(shù)據(jù)生成(恢復(fù))的任務(wù)
基于數(shù)據(jù)變換的任務(wù)
基于多模態(tài)的任務(wù)
基于輔助信息的任務(wù)
簡單介紹一下第一類任務(wù)。事實(shí)上,所有非監(jiān)督方法都可以被視為第一類自監(jiān)督任務(wù)。在文獻(xiàn)研究的過程中,非監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)根本不存在界限。
所有非監(jiān)督學(xué)習(xí)方法,如數(shù)據(jù)降維(PCA:在減少數(shù)據(jù)維度的同時(shí)最大化的保留原有數(shù)據(jù)的方差)和數(shù)據(jù)擬合分類(GMM:最大化高斯混合分布的似然),本質(zhì)上都是為了得到一個(gè)好的數(shù)據(jù)表示,并希望能生成(恢復(fù))原始輸入。這也是目前很多自監(jiān)督學(xué)習(xí)方法賴以使用的監(jiān)督信息。基本上,所有的encoder-decoder模型都將數(shù)據(jù)恢復(fù)視為訓(xùn)練損失。
圖片上色與視頻預(yù)測
什么是基于數(shù)據(jù)恢復(fù)的自監(jiān)督任務(wù)?
一. 數(shù)據(jù)生成任務(wù)
自監(jiān)督學(xué)習(xí)的出發(fā)點(diǎn)是考慮在缺少標(biāo)簽或者完全沒有標(biāo)簽的情況下,我們?nèi)匀豢梢詫W(xué)習(xí)到能夠表示原始圖片的良好意義的特征。那么什么樣的特質(zhì)是良好有意義的呢?在第一類自監(jiān)督任務(wù)——數(shù)據(jù)恢復(fù)任務(wù)中,能夠通過學(xué)習(xí)到的特征來還原生成原始數(shù)據(jù)的特征是有良好意義的??吹竭@里,大家都能聯(lián)想到自動(dòng)編碼器類的模型,甚至更簡單的PCA。事實(shí)上,幾乎所有的非監(jiān)督學(xué)習(xí)方法都是基于這個(gè)原理。VAE現(xiàn)在非常流行的深代模式,甚至更熱的GAN都可以歸為這種方法。
GAN的核心是通過Discriminator去縮小Generator distribution和real distribution之間的距離。GAN的學(xué)習(xí)過程不需要人為進(jìn)行數(shù)據(jù)標(biāo)注,其監(jiān)督信號(hào)也即是優(yōu)化目標(biāo)就是使得上述對(duì)抗過程趨向平穩(wěn)。
以兩篇具體的paper為例,介紹數(shù)據(jù)恢復(fù)類的自監(jiān)督任務(wù)如何操作實(shí)現(xiàn)。我們的重點(diǎn)依然是視覺問題,這里分別介紹一篇圖片上色的文章和一篇視頻預(yù)測的文章。其余的領(lǐng)域比如NLP,其本質(zhì)是類似的,在弄清楚了數(shù)據(jù)本身的特點(diǎn)之后,可以先做一些低級(jí)的照貓畫虎的工作。
?
圖片顏色恢復(fù)
設(shè)計(jì)自監(jiān)督任務(wù)時(shí),需要一些巧妙的思考。比如圖片的色彩恢復(fù)任務(wù),我們現(xiàn)有的數(shù)據(jù)集是一張張的彩色圖片。如果去掉顏色,作為感性思考者的我們,能否從黑白圖片所顯示的內(nèi)容中猜測出原始圖片的真實(shí)顏色?對(duì)于一個(gè)嬰兒來說可能很難,但是對(duì)于我們來說,生活的經(jīng)驗(yàn)告訴我們瓢蟲應(yīng)該是紅色的。我們?nèi)绾巫鲱A(yù)測?事實(shí)上,通過觀察大量的瓢蟲,已經(jīng)在大腦中建立了一個(gè)從“瓢蟲”到“紅色”的映射。
這個(gè)學(xué)習(xí)過程擴(kuò)展到模型。給定黑白輸入,使用正確顏色的原始圖像作為學(xué)習(xí)標(biāo)簽,模型將嘗試?yán)斫庠己诎讏D像中的每個(gè)區(qū)域是什么,然后建立從什么到不同顏色的映射。
當(dāng)我們完成訓(xùn)練,模型的中間層feature map就得到以向量形式的類似人腦對(duì)于“瓢蟲”以及其他物體的記憶。
視頻預(yù)測
一般來說,視覺問題可以分為兩類:圖片和視頻。圖片數(shù)據(jù)可以認(rèn)為具有i.i.d特征,而視頻由多個(gè)圖片幀組成,可以認(rèn)為具有一定的Markov dependency。時(shí)序關(guān)系是他們最大的區(qū)別。比如,最簡單的思路是利用CNN提取單個(gè)圖片的特征進(jìn)行圖像分類,然后加入一個(gè)RNN或LSTM刻畫Markov Dependency,便可以應(yīng)用到視頻中。
視頻中幀與幀之間有時(shí)空連續(xù)性。同樣,利用幀與幀之間的連續(xù)性,當(dāng)看電影的時(shí)突然按下暫停,接下來幾秒鐘會(huì)發(fā)生什么,其實(shí)是可以預(yù)見的。
同樣,這個(gè)學(xué)習(xí)過程也擴(kuò)展到了模型中。給定前一幀或前幾幀的情況下,使用后續(xù)的視頻幀作為學(xué)習(xí)標(biāo)簽,從而模型會(huì)試著理解給定視頻幀中的語義信息(發(fā)生了啥?)進(jìn)而去建立從當(dāng)前到未來的映射關(guān)系。
二. 基于數(shù)據(jù)變換的任務(wù)
事實(shí)上,人們現(xiàn)在常常提到的自監(jiān)督學(xué)習(xí)通常指的是:這一類自監(jiān)督任務(wù)是比較狹義的概念。
用一句話說明這一類任務(wù),事實(shí)上原理很簡單。對(duì)于樣本? ??,我們對(duì)其做任意變換,則自監(jiān)督任務(wù)的目標(biāo)是能夠?qū)ι傻? ??估計(jì)出其變換的參數(shù)。
下面介紹一種原理十分簡單但是目前看來非常有效的自監(jiān)督任務(wù)——Rotation Prediction。
給定輸入圖片? ??,我們對(duì)其做4個(gè)角度的旋轉(zhuǎn),分別得到? ??,并且我們知道其對(duì)應(yīng)的變換角度分別為? ??。此時(shí),任務(wù)目標(biāo)即是對(duì)于以上4張圖片預(yù)測其對(duì)應(yīng)的旋轉(zhuǎn)角度,這里每張圖片都經(jīng)過同樣的卷積神經(jīng)網(wǎng)。
自監(jiān)督學(xué)習(xí)中對(duì)比學(xué)習(xí)方法
對(duì)比學(xué)習(xí)是自監(jiān)督學(xué)習(xí)中的一個(gè)重要方法,其核心思想是通過樣本的相似性來構(gòu)建表征。對(duì)于相似的輸入樣本,由網(wǎng)絡(luò)產(chǎn)生的表征也應(yīng)當(dāng)相似;而對(duì)于差異較大的輸入樣本,表征也應(yīng)該存在較大區(qū)別。根據(jù)這一思想,很多基于對(duì)比學(xué)習(xí)的自監(jiān)督學(xué)習(xí)方法被提出(如MoCo、SimCLR、BYOL),并對(duì)這一領(lǐng)域產(chǎn)生了深遠(yuǎn)影響。
對(duì)比學(xué)習(xí)中的一個(gè)關(guān)鍵步驟是構(gòu)建正負(fù)樣本集合,對(duì)于一個(gè)輸入樣本??,如何找到與其相似的正樣本??,和不相似的負(fù)樣本???在基于圖像的自監(jiān)督任務(wù)中,一般通過數(shù)據(jù)增強(qiáng)(data augmentation)來對(duì)單張圖片構(gòu)建不同視圖,這些視圖的圖像內(nèi)容高度一致,被視為正樣本;而數(shù)據(jù)集中的其他圖片則直接被視為負(fù)樣本。
同一張貓咪圖片經(jīng)過剪裁得到的另一視圖被視作正樣本,正樣本與原圖經(jīng)過神經(jīng)網(wǎng)絡(luò)編碼得到的表征應(yīng)該相似;而數(shù)據(jù)集中的其余圖片被視為負(fù)樣本,經(jīng)網(wǎng)絡(luò)編碼后的結(jié)果應(yīng)當(dāng)差異較大。
完成正負(fù)樣本的構(gòu)建后,對(duì)比學(xué)習(xí)一般采用InfoNCE Loss來進(jìn)行損失計(jì)算和模型更新,其形式如下:
其中??表示訓(xùn)練模型對(duì)輸入樣本的編碼過程。InfoNCE Loss約束模型對(duì)當(dāng)前樣本的編碼結(jié)果和對(duì)正樣本的編碼結(jié)果的內(nèi)積較大,而和負(fù)樣本的編碼結(jié)果的內(nèi)積較小,可以看作是從樣本集合中判別出與之匹配的正樣本。
一.?MoCo
MoCo是對(duì)比學(xué)習(xí)中一個(gè)非常有代表性的方法,其主要思想是將對(duì)比學(xué)習(xí)過程看作一個(gè)“查字典”的過程:在一個(gè)由眾多樣本構(gòu)成的鍵值(key)字典中檢索到與查詢樣本的編碼結(jié)果(query)相匹配的正樣本。為了提升對(duì)比學(xué)習(xí)的效果,提出兩點(diǎn)假設(shè):
一.鍵值字典的容量應(yīng)該盡可能增大以提高自監(jiān)督任務(wù)的難度,從而提升訓(xùn)練效果;
二.鍵值字典應(yīng)該在訓(xùn)練過程中保持一定程度的一致性以保障自監(jiān)督學(xué)習(xí)過程能夠穩(wěn)定進(jìn)行。
基于以上兩點(diǎn)假設(shè),分析了幾種對(duì)比學(xué)習(xí)機(jī)制。
1端到端訓(xùn)練
即對(duì)于所有的查詢樣本的編碼結(jié)果(query)和字典鍵值(key)同時(shí)進(jìn)行梯度傳播,但這一方法中顯存大小會(huì)極大地限制鍵值字典的大小,導(dǎo)致自監(jiān)督任務(wù)難度降低,影響訓(xùn)練效果;
2.基于memory bank的訓(xùn)練方法
迭代過程中將鍵值編碼存儲(chǔ)到一個(gè)memory bank中,每輪對(duì)比學(xué)習(xí)過程中所需要的字典鍵值直接從memory bank 里選取,而梯度計(jì)算只對(duì)查詢樣本的編碼網(wǎng)絡(luò)分支進(jìn)行。因?yàn)镸oCo不需要對(duì)鍵值字典的分支進(jìn)行梯度計(jì)算,memory bank方法可以顯著提升鍵值字典的容量,但是由于每個(gè)樣本在memory bank中的鍵值在被模型重新編碼時(shí)才會(huì)被更新,鍵值字典中鍵值間的一致性較差,從而降低了訓(xùn)練的穩(wěn)定性。
因此,提出一種momentum encoder來實(shí)現(xiàn)對(duì)鍵值字典的編碼。對(duì)于查詢樣本,使用普通encoder進(jìn)行編碼并直接進(jìn)行梯度計(jì)算;而對(duì)于鍵值字典,首先由一個(gè)動(dòng)態(tài)更新的隊(duì)列維護(hù)字典的輸入樣本,再使用momentum encoder將樣本編碼為鍵值。Momentum encoder在訓(xùn)練過程中不會(huì)進(jìn)行梯度計(jì)算,而是采用動(dòng)量更新的方法從encoder更新參數(shù),更新方法如下:
其中,??和??分別表示query encoder和key momentum encoder的參數(shù),??,表示動(dòng)量參數(shù)以調(diào)節(jié)更新速率。這樣的方法一方面可以避免key encoder在訓(xùn)練時(shí)因需要計(jì)算梯度使字典大小被限制,也可以避免memory bank方法中的鍵值低一致性問題,保障了訓(xùn)練的穩(wěn)定性。
值得一提的是,在實(shí)驗(yàn)過程中發(fā)現(xiàn)傳統(tǒng)的batch normalization方法可能造成樣本信息的泄露,讓數(shù)據(jù)樣本意外地“看到了”其他樣本。會(huì)使模型在自監(jiān)督任務(wù)中更傾向于選擇一個(gè)合適的batch normalization參數(shù),而不是學(xué)習(xí)一個(gè)比較好的特征表示。
二.?SimCLR
SimCLR 是一個(gè)非常簡潔的自監(jiān)督學(xué)習(xí)框架。沒有建立類似MoCo的鍵值字典的方式,而是直接在每個(gè)batch中的樣本之間進(jìn)行比較學(xué)習(xí)。對(duì)于??個(gè)輸入數(shù)據(jù),先使用兩種不同的數(shù)據(jù)增強(qiáng)方法產(chǎn)生??個(gè)樣本;對(duì)于每個(gè)樣本來說,從同一輸入圖片中產(chǎn)生另一樣本被視為正樣本,其余??個(gè)樣本被視為負(fù)樣本。構(gòu)建完正負(fù)樣本后,SimCLR直接使用端到端的方法計(jì)算loss并更新模型。
網(wǎng)絡(luò)結(jié)構(gòu)上,與MoCo相比,SimCLR在backbone網(wǎng)絡(luò)末端新增了一個(gè)由兩層全連接層構(gòu)成的projection head。模型在訓(xùn)練階段,根據(jù)projection head的輸出??計(jì)算損失函數(shù);而在遷移到下游任務(wù)時(shí),會(huì)將projection head移除,直接使用backbone部分網(wǎng)絡(luò)輸出的表征??。
三.?BYOL
BYOL是一個(gè)非常有特點(diǎn)的模型,與MoCo、SimCLR相比,BYOL可以直接在正樣本對(duì)上進(jìn)行自監(jiān)督訓(xùn)練而不需要構(gòu)建負(fù)樣本集合。BYOL的構(gòu)想來自于一個(gè)非常有意思的發(fā)現(xiàn):在一個(gè)完全隨機(jī)初始化的網(wǎng)絡(luò)所輸出的特征上進(jìn)行分類任務(wù)的top-1準(zhǔn)確率只有1.4%;
但如果將這個(gè)隨機(jī)初始化網(wǎng)絡(luò)的輸出特征作為目標(biāo),用另一個(gè)網(wǎng)絡(luò)對(duì)其進(jìn)行學(xué)習(xí),使用學(xué)習(xí)之后的網(wǎng)絡(luò)進(jìn)行特征提取再進(jìn)行分類可以達(dá)到18.8%的準(zhǔn)確度。換言之,以一個(gè)特征表示作為目標(biāo)進(jìn)行學(xué)習(xí),可以獲得一個(gè)更好的表示。如此繼續(xù)迭代下去,精確度可以繼續(xù)往上提升。
基于這一發(fā)現(xiàn),構(gòu)建了只需要正樣本對(duì)的BYOL學(xué)習(xí)框架。如圖,一張輸入圖片經(jīng)過不同數(shù)據(jù)增強(qiáng)后的兩個(gè)視圖分別經(jīng)過online和target兩個(gè)分支的backbone和projection head后得到輸出??和??,再使用一個(gè)prediction head從??預(yù)測??。計(jì)算損失時(shí)使用了MSE loss,且只對(duì)online分支計(jì)算梯度和更新參數(shù);對(duì)于target分支使用類似MoCo動(dòng)量更新的方式從online分支更新參數(shù)。
自監(jiān)督學(xué)習(xí)中的聚類方法
與對(duì)比學(xué)習(xí)或者人工設(shè)置的前置任務(wù)(pretext task)的學(xué)習(xí)方式不同,基于聚類的自監(jiān)督方法將訓(xùn)練樣本按照某種相似度量進(jìn)行劃分,劃歸到不同聚類中心的樣本被賦予不同的類別標(biāo)簽,之后使用標(biāo)準(zhǔn)的全監(jiān)督學(xué)習(xí)交叉熵?fù)p失進(jìn)行訓(xùn)練。用數(shù)學(xué)語言形式化的展示了全監(jiān)督學(xué)習(xí)與自監(jiān)督聚類之間的聯(lián)系與區(qū)別:考慮深度模型??將圖像映射為特征??,全監(jiān)督學(xué)習(xí)使用包含完全標(biāo)注的樣本-標(biāo)簽數(shù)據(jù)來優(yōu)化模型??。
具體來講,假設(shè)有N個(gè)樣本??,相應(yīng)的類別標(biāo)簽為,??,一個(gè)分類頭??將深度模型的??維輸出向量映射到??維(每一維對(duì)應(yīng)一個(gè)類別的得分)并使用softmax操作將每個(gè)類別的得分轉(zhuǎn)化為類別概率值。由于交叉熵?fù)p失需要給出目標(biāo)的類別標(biāo)簽(標(biāo)注數(shù)據(jù)集),對(duì)于無標(biāo)注數(shù)據(jù),需要首先通過某種分配方式賦予每個(gè)樣本具有一定意義的標(biāo)簽然后才能進(jìn)行訓(xùn)練。
一般而言,我們令??為one-hot函數(shù)??,即每一個(gè)樣本我們限定其只能屬于某一類,那么上述公式可以寫成一個(gè)雙層優(yōu)化問題:
第一步,根據(jù)深度模型輸出調(diào)整標(biāo)簽分配方式,得到當(dāng)前特征下?lián)p失函數(shù)最小的標(biāo)簽;
第二步,根據(jù)更新的標(biāo)簽訓(xùn)練深度模型。
給所有的樣本賦予相同標(biāo)簽之后優(yōu)化模型參數(shù)就可以最小化平均損失函數(shù)。此時(shí),模型將所有樣本均映射到特征空間中的同一位置附近,不同樣本之間的特征區(qū)分度變得微弱,模型性能嚴(yán)重退化,不能達(dá)到學(xué)習(xí)出有意義特征表示的目的。因此,基于聚類的自監(jiān)督學(xué)習(xí)方法關(guān)鍵在于引入適當(dāng)?shù)募s束條件,避免模型收斂到退化解。
自監(jiān)督學(xué)習(xí)推動(dòng)醫(yī)學(xué)圖像分類發(fā)展
隨著自監(jiān)督學(xué)習(xí)在放射學(xué)、病理學(xué)和皮膚病學(xué)等諸多應(yīng)用領(lǐng)域取得令人振奮的成果,人們對(duì)自監(jiān)督學(xué)習(xí)在醫(yī)學(xué)成像任務(wù)中的應(yīng)用越來越感興趣。盡管如此,開發(fā)醫(yī)學(xué)成像模型仍然頗具挑戰(zhàn),這是由于標(biāo)注醫(yī)學(xué)圖像極為耗時(shí),高質(zhì)量標(biāo)記數(shù)據(jù)通常較為稀缺。
鑒于此,遷移學(xué)習(xí) (Transfer learning) 成為構(gòu)建醫(yī)學(xué)成像模型的熱門范例。這種方法首先要在大型標(biāo)記數(shù)據(jù)集(如 ImageNet)中使用監(jiān)督學(xué)習(xí) (Supervised learning) 對(duì)模型進(jìn)行預(yù)訓(xùn)練,然后在域內(nèi)醫(yī)學(xué)數(shù)據(jù)中對(duì)習(xí)得的通用表征進(jìn)行微調(diào)。
近來一些新的方法在自然圖像識(shí)別任務(wù)中取得了成功,尤其是在標(biāo)記示例稀少的情況下,這些方法使用自監(jiān)督對(duì)比預(yù)訓(xùn)練,然后進(jìn)行監(jiān)督微調(diào)(例如 SimCLR 和 MoCo)。在對(duì)比學(xué)習(xí)預(yù)訓(xùn)練中,模型將同一圖像的不同轉(zhuǎn)換視圖間的一致性升至最高,同時(shí)將不同圖像的轉(zhuǎn)換視圖間的一致性降至最低,從而習(xí)得通用表征。盡管這些對(duì)比學(xué)習(xí)方法取得成功,但在醫(yī)學(xué)圖像分析中受到的關(guān)注有限,其功效還有待探索。
研究自監(jiān)督對(duì)比學(xué)習(xí)作為醫(yī)學(xué)圖像分類領(lǐng)域預(yù)訓(xùn)練策略的有效性。同時(shí)提出一個(gè)全新方法——多實(shí)例對(duì)比學(xué)習(xí) (MICLe),這一方法可泛化對(duì)比學(xué)習(xí)以利用醫(yī)學(xué)圖像數(shù)據(jù)集的特性。針對(duì)兩項(xiàng)不同的醫(yī)學(xué)圖像分類任務(wù)進(jìn)行實(shí)驗(yàn):識(shí)別數(shù)碼相機(jī)圖像中皮膚狀況分類(27 類)和對(duì)胸部 X 射線進(jìn)行多標(biāo)簽分類(5 類)。通過實(shí)驗(yàn)可以觀察到,在 ImageNet 上進(jìn)行自監(jiān)督學(xué)習(xí),隨后對(duì)未標(biāo)記的特定領(lǐng)域醫(yī)學(xué)圖像進(jìn)行額外的自監(jiān)督學(xué)習(xí),顯著提高醫(yī)學(xué)圖像分類器的準(zhǔn)確性。具體來說,結(jié)果表明自監(jiān)督預(yù)訓(xùn)練優(yōu)于監(jiān)督預(yù)訓(xùn)練,即使在完整的 ImageNet 數(shù)據(jù)集(1400 萬幅圖像和 2.18 萬個(gè)類別)用于監(jiān)督預(yù)訓(xùn)練時(shí)也是如此。
分別使用域內(nèi)未標(biāo)記和標(biāo)記數(shù)據(jù)對(duì)各項(xiàng)任務(wù)進(jìn)行預(yù)訓(xùn)練和微調(diào),還使用在不同臨床環(huán)境中獲得的另一個(gè)數(shù)據(jù)集作為偏移數(shù)據(jù)集,以進(jìn)一步評(píng)估我們的方法對(duì)域外數(shù)據(jù)的穩(wěn)健性。對(duì)于胸部 X 射線任務(wù),使用 ImageNet 或 CheXpert 數(shù)據(jù)進(jìn)行自監(jiān)督預(yù)訓(xùn)練可以提高泛化能力,同時(shí)使用兩者還可以進(jìn)一步提高此能力。正如預(yù)期的那樣,當(dāng)僅使用 ImageNet 進(jìn)行自監(jiān)督預(yù)訓(xùn)練時(shí),與僅使用域內(nèi)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練相比,該模型的表現(xiàn)更差。
為測試分布偏移下的表現(xiàn),對(duì)于各項(xiàng)任務(wù),額外提供在不同臨床環(huán)境下收集的標(biāo)記數(shù)據(jù)集以進(jìn)行測試。發(fā)現(xiàn)使用自監(jiān)督預(yù)訓(xùn)練(同時(shí)使用 ImageNet 和 CheXpert 數(shù)據(jù))時(shí),分布偏移數(shù)據(jù)集 (ChestX-ray14) 的表現(xiàn)有所提升,比 CheXpert 數(shù)據(jù)集的原始提升更為明顯。這一發(fā)現(xiàn)頗具價(jià)值,因?yàn)榉植计葡碌姆夯芰?duì)于臨床應(yīng)用至關(guān)重要。在皮膚病學(xué)任務(wù)中,我們觀察到某一單獨(dú)的偏移數(shù)據(jù)集具有類似趨勢,該數(shù)據(jù)集收集自皮膚癌診所,具有較高的惡性疾病發(fā)病率。這表明自監(jiān)督表征對(duì)分布偏移的穩(wěn)健性在不同任務(wù)間具有一致性。
用于胸部 X 射線解讀任務(wù)的分布偏移數(shù)據(jù)集模型評(píng)估。我們在沒有進(jìn)一步微調(diào)(零樣本遷移學(xué)習(xí))的情況下,使用在域內(nèi)數(shù)據(jù)上訓(xùn)練的模型對(duì)額外的偏移數(shù)據(jù)集進(jìn)行預(yù)測。我們觀察到,自監(jiān)督預(yù)訓(xùn)練會(huì)產(chǎn)生更好的表征,對(duì)分布偏移更穩(wěn)健
用于皮膚病學(xué)任務(wù)的分布偏移數(shù)據(jù)集模型評(píng)估。結(jié)果普遍表明,自監(jiān)督預(yù)訓(xùn)練模型可以在分布偏移中得到更好的泛化,其中 MICLe 預(yù)訓(xùn)練對(duì)泛化能力的提升最為明顯
通過在不同分?jǐn)?shù)的標(biāo)記訓(xùn)練數(shù)據(jù)上對(duì)模型進(jìn)行微調(diào),進(jìn)一步研究了用于醫(yī)學(xué)圖像分類的自監(jiān)督模型的標(biāo)記效率。我們對(duì) Derm 和 CheXpert 訓(xùn)練數(shù)據(jù)集使用 10% 到 90% 的標(biāo)簽分?jǐn)?shù),并使用皮膚病學(xué)任務(wù)的不同可用標(biāo)簽分?jǐn)?shù)研究性能如何變化。使用自監(jiān)督模型進(jìn)行預(yù)訓(xùn)練可以彌補(bǔ)醫(yī)學(xué)圖像分類標(biāo)簽效率低下的情況,并且在采樣的標(biāo)簽分?jǐn)?shù)中,自監(jiān)督模型表現(xiàn)始終優(yōu)于監(jiān)督基線。結(jié)果還表明,使用較少的標(biāo)記示例進(jìn)行微調(diào)時(shí),MICLe 會(huì)按比例提升標(biāo)簽效率。事實(shí)上,MICLe 僅使用 20% 的 ResNet-50(4 倍)訓(xùn)練數(shù)據(jù)和 30% 的 ResNet152(2 倍)訓(xùn)練數(shù)據(jù)就能夠與基線持平。
自動(dòng)駕駛Corner Case終結(jié)者自監(jiān)督學(xué)習(xí)
當(dāng)自動(dòng)駕駛汽車在行駛過程中,需要實(shí)時(shí)理解各種交通參與者的運(yùn)動(dòng),這些運(yùn)動(dòng)狀態(tài)信息對(duì)于各個(gè)技術(shù)模塊來說都非常重要,涉及檢測、跟蹤、預(yù)測、規(guī)劃等等。
自動(dòng)駕駛汽車通常配有多個(gè)傳感器,其中最常用的是激光雷達(dá)。因此,如何從點(diǎn)云中獲得其他交通參與者的運(yùn)動(dòng)信息是一個(gè)重要課題,并且存在如下挑戰(zhàn):交通參與者的類別不一樣,每個(gè)類別都表現(xiàn)出特定的運(yùn)動(dòng)行為:
激光雷達(dá)點(diǎn)云的稀疏性導(dǎo)致兩次激光雷達(dá)掃描的情況不能精確地對(duì)應(yīng)起來;
需要在很短的時(shí)間限制內(nèi)和有限的車載算力下完成計(jì)算。
傳統(tǒng)做法是通過識(shí)別場景中其它交通參與者
根據(jù)所觀測到的歷史信息,來預(yù)測交通場景會(huì)如何變化,從而實(shí)現(xiàn)預(yù)測。但是,大多數(shù)識(shí)別模型都是為檢測若干已知類別的物體而訓(xùn)練的。在實(shí)際情況中,經(jīng)常會(huì)遇上沒出現(xiàn)過的物體類別。這肯定不是長久之計(jì)。
通過估計(jì)激光雷達(dá)點(diǎn)云每個(gè)點(diǎn)的3D運(yùn)動(dòng)來從點(diǎn)云中估計(jì)場景流
但這樣做對(duì)計(jì)算的要求太高了,自動(dòng)駕駛車又特別需要達(dá)到實(shí)時(shí)性,所以根本無法進(jìn)行實(shí)際應(yīng)用。
基于BEV(bird’s eye view)的方式
把激光雷達(dá)的點(diǎn)云畫成一個(gè)個(gè)小網(wǎng)格,每個(gè)網(wǎng)格單元被稱為體柱,點(diǎn)云的運(yùn)動(dòng)信息可以通過所有體柱的位移向量來描述,該位移向量描述了每個(gè)體柱在地面上的移動(dòng)大小和方向。
這種表征方法成功簡化了場景運(yùn)動(dòng),反正只需要考慮在水平方向上的運(yùn)動(dòng)情況,而不用特別考慮垂直方向上的運(yùn)動(dòng)。這種方式的所有關(guān)鍵操作都可以通過2D卷積進(jìn)行,計(jì)算速度非???。但是,這種方式需要依靠大量帶有標(biāo)注的點(diǎn)云數(shù)據(jù),但點(diǎn)云數(shù)據(jù)的標(biāo)注成本比普通圖像更高。
據(jù)統(tǒng)計(jì),一輛自動(dòng)駕駛汽車每天會(huì)產(chǎn)生超過1TB的數(shù)據(jù),但僅有不到5%的數(shù)據(jù)被利用,若能把其他數(shù)據(jù)也充分利用起來,在沒有手工標(biāo)注的數(shù)據(jù)上來進(jìn)行學(xué)習(xí),那可就太高效了。
關(guān)于自監(jiān)督學(xué)習(xí)的思考
1.理論原理
盡管自監(jiān)督學(xué)習(xí)取得了很好的效果,但其背后的數(shù)學(xué)原理和理論基本并沒有特別扎實(shí),大多通過實(shí)驗(yàn)結(jié)果反推模型結(jié)構(gòu)和策略的效果,可能造成很多研究走了彎路,從理論基礎(chǔ)出發(fā),直達(dá)最終目標(biāo)的效果可能會(huì)更好。
2.替代任務(wù)的構(gòu)建
當(dāng)前替代任務(wù)的構(gòu)建特別是視頻方向,多與下游任務(wù)為主導(dǎo),沒有特定的范式或者規(guī)則。替代任務(wù)所能完成的任務(wù),就是自監(jiān)督模型能完成任務(wù)的邊界。替代任務(wù)的五花八門,導(dǎo)致各類任務(wù)的千差萬別,沒有辦法比較性能優(yōu)劣,只能是單純的網(wǎng)絡(luò)在另一個(gè)任務(wù)上的應(yīng)用,當(dāng)前圖片領(lǐng)域多基于多種數(shù)據(jù)增強(qiáng)方法構(gòu)建替代任務(wù),而視頻領(lǐng)域也可以提出統(tǒng)一的構(gòu)建方式。能夠通過“半自動(dòng)”方式做出來的替代任務(wù)少之又少,在各類的圖像算法應(yīng)用中,可能是影響自監(jiān)督方法適應(yīng)性的絆腳石。
3.能否構(gòu)建直通下游任務(wù)的端到端學(xué)習(xí)
已經(jīng)發(fā)現(xiàn)自監(jiān)督中有明顯的語義分割特征,在對(duì)比模型后端加入分割分支網(wǎng)絡(luò)會(huì)不會(huì)對(duì)網(wǎng)絡(luò)學(xué)習(xí)有幫助,抑或是直接訓(xùn)練得到可使用的分割網(wǎng)絡(luò),都是值得研究的問題。
4.除對(duì)比的其他形式構(gòu)建特征提取網(wǎng)絡(luò)
本質(zhì)上,對(duì)比網(wǎng)絡(luò)是除去常規(guī)網(wǎng)絡(luò)之外,訓(xùn)練得到特征表示的一種方式而已,與前文提到的自編碼器有異曲同工之妙。對(duì)比學(xué)習(xí)的成功在于,其訓(xùn)練得到的特征提取網(wǎng)絡(luò),在下游任務(wù)中表現(xiàn)優(yōu)異,也是所提特征有效的表現(xiàn)。由此我們可以得到啟發(fā),還有沒有其他的形式構(gòu)建訓(xùn)練網(wǎng)絡(luò),也能夠提取得到有效特征。相信新模式的提出肯定也會(huì)和對(duì)比學(xué)習(xí)一樣,引領(lǐng)一波研究浪潮。
5.廣闊天地,大有可為
自監(jiān)督學(xué)習(xí)還處于探索階段,有很多可以深入探究的部分,相信無論在學(xué)術(shù)界和工業(yè)界自監(jiān)督學(xué)習(xí)都會(huì)有廣泛的應(yīng)用。作為深度學(xué)習(xí)中的一種魔法,還需要更多的人來挖掘其潛能,創(chuàng)造更多的神跡。
藍(lán)海大腦超融合大數(shù)據(jù)一體機(jī)(融合計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)、 GPU、虛擬化的一體機(jī);?支持主流虛擬化平臺(tái)如Vmware、Redhat、Microsoft Hyper-V 等;支持在線壓縮、重復(fù)數(shù)據(jù)自動(dòng)刪除 、數(shù)據(jù)保護(hù)、容災(zāi)備份及雙活等)自監(jiān)督學(xué)習(xí)保駕護(hù)航,為自監(jiān)督學(xué)習(xí)的發(fā)展提供了重要的后勤保障工作。
審核編輯:符乾江
評(píng)論
查看更多