編者按:多層神經(jīng)網(wǎng)絡(luò)在多種基準(zhǔn)任務(wù)上都有了顯著成果,例如文本、語音和圖像處理。盡管如此,這些深層神經(jīng)網(wǎng)絡(luò)會(huì)導(dǎo)致高維非線性的參數(shù)空間,讓搜索難以進(jìn)行,并且還會(huì)導(dǎo)致過度擬合和較差的泛化。早期由于數(shù)據(jù)不足、無法恢復(fù)梯度損失以及不良局部最小值而引起的高捕捉概率,讓使用反向傳播的神經(jīng)網(wǎng)絡(luò)很容易失敗。
2006年,Hinton的深度學(xué)習(xí)提出了一些創(chuàng)新的方法以減少這些過度擬合和過度參數(shù)化的問題,包括減少連續(xù)梯度損失的ReLU和Dropout等。在這篇文章中,美國羅格斯大學(xué)的兩位研究者將關(guān)注深層網(wǎng)絡(luò)的過度參數(shù)化問題,盡管現(xiàn)在各項(xiàng)分類任務(wù)都有大量可用的數(shù)據(jù)。本文已提交到NIPS 2018,以下是論智對原文的大致編譯,如有錯(cuò)誤請批評指正。
Dropout是用來減輕過度參數(shù)化、深度學(xué)習(xí)的過擬合以及避免偶然出現(xiàn)的不良局部最小值。具體說來,Dropout在每次更新時(shí)會(huì)添加一個(gè)帶有概率p的Bernoulli隨機(jī)變量、刪除隱藏的單元以及網(wǎng)絡(luò)中的連接,從而創(chuàng)造一個(gè)稀疏的網(wǎng)絡(luò)架構(gòu)。學(xué)習(xí)結(jié)束后,深度學(xué)習(xí)網(wǎng)絡(luò)會(huì)通過計(jì)算每個(gè)權(quán)重的期望值進(jìn)行重組。大多數(shù)案例證明,深度學(xué)習(xí)的Dropout能將常見基準(zhǔn)的錯(cuò)誤減少50%以上。
在這篇論文中,我們將介紹一種通用的Dropout類型,它可以在權(quán)重層面操作,在每次更新中插入梯度相關(guān)的噪音,稱為隨機(jī)Delta規(guī)則(SDR)。SDR是在每個(gè)權(quán)重上執(zhí)行一個(gè)隨機(jī)變量,并對隨機(jī)變量中的每個(gè)參數(shù)提供更新之后的規(guī)則。雖然SDR在任意隨機(jī)變量下都能工作,但是我們將展示,Dropout在擁有二項(xiàng)式隨機(jī)變量中的固定參數(shù)下是非常特別的。最終我們在含有高斯SDR的標(biāo)準(zhǔn)基準(zhǔn)下測試DenseNet,結(jié)果證明二項(xiàng)式Dropout有著非常大的優(yōu)勢。
隨機(jī)delta規(guī)則(SDR)
眾所周知,神經(jīng)傳輸會(huì)包含噪聲。如果皮質(zhì)分離的神經(jīng)元受到周期性、相同的刺激,將會(huì)產(chǎn)生不同的反應(yīng)。SDR的部分motivation是基于生命系統(tǒng)中信號在神經(jīng)元之間傳播的隨機(jī)性。顯然,平滑的神經(jīng)速率函數(shù)是基于很多刺激實(shí)驗(yàn)得來的平均值,這使得我們認(rèn)為兩個(gè)神經(jīng)元之間的突觸可以用一個(gè)具有固定參數(shù)的分布建模。
圖1顯示了我們用一個(gè)高斯隨機(jī)變量和平均μwij以及σwij實(shí)施的SDR算法。每個(gè)權(quán)重都會(huì)從高斯隨機(jī)變量中進(jìn)行采樣。實(shí)際上,和Dropout一樣,很多網(wǎng)絡(luò)都是在訓(xùn)練時(shí)的更新中進(jìn)行采樣。這里和Dropout的不同之處在于,SDR在更新時(shí),會(huì)根據(jù)錯(cuò)誤的梯度調(diào)整權(quán)重和隱藏單元。
圖1
因此,每個(gè)權(quán)重梯度就是基于隱藏單元的隨機(jī)變量,基于此,系統(tǒng)可以:
給定相同的樣本/獎(jiǎng)勵(lì),生成多個(gè)回復(fù)假設(shè)
保持歷史預(yù)測,而不像Dropout一樣只有局部的隱藏單元權(quán)重
有可能會(huì)返回到不良局部最小值而造成貪婪搜索,但同時(shí)越來越遠(yuǎn)離更好的局部最小值
最后一個(gè)優(yōu)點(diǎn)是,如Hinton所說,局部噪聲的插入可能會(huì)導(dǎo)致收斂到更好的局部最小值的速度更快、更穩(wěn)定。
實(shí)施SDR有三個(gè)更新規(guī)則,以下是權(quán)重分布中的權(quán)重值的更新規(guī)則:
第一個(gè)更新規(guī)則用于計(jì)算權(quán)重分布的平均數(shù):
第二個(gè)用于權(quán)重分布的標(biāo)準(zhǔn)偏差:
第三種是將標(biāo)準(zhǔn)偏差收斂到0,讓平均權(quán)重值達(dá)到一個(gè)固定點(diǎn),將所有樣本都聚集起來:
接下來,我們將講述Dropout如何成為SDR的特殊情況。最明顯的方法是首先將隨機(jī)搜索看作一種特殊的采樣分布。
將Dropout看作SDR的二項(xiàng)式固定參數(shù)
如之前所說,Dropout需要將每層的隱藏單元在Bernoulli過程中刪除。如果我們在同樣的網(wǎng)絡(luò)中,將Dropout和SDR進(jìn)行對比,可以發(fā)現(xiàn)二者的不同在于隨機(jī)處理是否影響了權(quán)重或隱藏單元。圖2我們描述了Dropout在隱藏單元采樣時(shí)的收斂??梢钥吹矫黠@的不同是,SDR在適應(yīng)性地更新隨機(jī)變量參數(shù),而Dropout是用固定參數(shù)進(jìn)和Binomial隨機(jī)變量進(jìn)行采樣。另一個(gè)重要區(qū)別在于,SDR在隱藏層中的共享權(quán)重比Dropout的更“局部”。
圖2
那么,SDR所表現(xiàn)出的參數(shù)的增加,是否使得搜索更加有效、更加穩(wěn)定?下一步我們將開展實(shí)驗(yàn)。
測試及結(jié)果
這里我們采用了在TensorFlow上搭建的經(jīng)過改進(jìn)的DenseNet。模型用DenseNet-40、DenseNet-100和DenseNet-BC 100網(wǎng)絡(luò),它們經(jīng)過了CIFAR-10和CIFAR-100的訓(xùn)練,初始DenseNet參數(shù)相同。
最終的結(jié)果顯示,將SDR換成Dropout后的DenseNet測試中,錯(cuò)誤率下降了50%以上。
同時(shí)在錯(cuò)誤率分別為15、10和5的情況下,訓(xùn)練所需次數(shù)也比單獨(dú)DenseNet減少:
訓(xùn)練精確度(DenseNet-100橙色,有SDR的DenseNet-100,藍(lán)色)
結(jié)語
這篇文章展示了一個(gè)基礎(chǔ)的深度學(xué)習(xí)算法(Dropout)是如何實(shí)施隨機(jī)搜索并幫助解決過度擬合的。未來我們將展示SDR是如何超越Dropout在深度學(xué)習(xí)分類中的表現(xiàn)的。
數(shù)據(jù)科學(xué)家、fast.ai創(chuàng)始人Jeremy Howard點(diǎn)評:“如果該論文結(jié)果真的這么好,那絕對值得關(guān)注?!?/p>
但是谷歌機(jī)器學(xué)習(xí)專家David Ha有不同意見:“結(jié)果看上去很可疑(我覺得他們搞錯(cuò)了)。CIFAR-10的準(zhǔn)確率能到98.64%,CIFAR-100真的能到94.84%嗎?”
-
神經(jīng)元
+關(guān)注
關(guān)注
1文章
363瀏覽量
18449 -
Dropout
+關(guān)注
關(guān)注
0文章
13瀏覽量
10051 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5500瀏覽量
121111
原文標(biāo)題:爭議 | 錯(cuò)誤減少50%!這難道是更快更準(zhǔn)確的深度學(xué)習(xí)?
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論