RM新平台诈骗,新时代RM官方网站下载

作者從神經(jīng)網(wǎng)絡(luò)簡單的數(shù)學(xué)定義開始，沿著損失函數(shù)、激活函數(shù)和反向傳播等方法進(jìn)一步描述基本的優(yōu)化算法。在理解這些基礎(chǔ)后，本文詳細(xì)描述了動量法等當(dāng)前十分流行的學(xué)習(xí)算法。此外，本系列將在后面介紹 Adam 和遺傳算法等其它重要的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法。

I. 簡介

本文是作者關(guān)于如何「訓(xùn)練」神經(jīng)網(wǎng)絡(luò)的一部分經(jīng)驗(yàn)與見解，處理神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)概念外，這篇文章還描述了梯度下降（GD）及其部分變體。此外，該系列文章將在在后面一部分介紹了當(dāng)前比較流行的學(xué)習(xí)算法，例如：

動量隨機(jī)梯度下降法（SGD）
RMSprop 算法
Adam 算法（自適應(yīng)矩估計(jì)）
遺傳算法

作者在第一部分以非常簡單的神經(jīng)網(wǎng)絡(luò)介紹開始，簡單到僅僅足夠讓人理解我們所談?wù)摰母拍?。作者會解釋什么是損失函數(shù)，以及「訓(xùn)練」神經(jīng)網(wǎng)絡(luò)或者任何其他的機(jī)器學(xué)習(xí)模型到底意味著什么。作者的解釋并不是一個關(guān)于神經(jīng)網(wǎng)絡(luò)全面而深度的介紹，事實(shí)上，作者希望我們讀者已經(jīng)對這些相關(guān)的概念早已了然于心。如果讀者想更好地理解神經(jīng)網(wǎng)絡(luò)具體是如何運(yùn)行的，讀者可以閱讀《深度學(xué)習(xí)》等相關(guān)書籍，或參閱文末提供的相關(guān)學(xué)習(xí)資源列表。

本文作者以幾年前在 kaggle 上進(jìn)行的貓狗鑒別競賽（https://www.kaggle.com/c/dogs-vs-cats）為例來解釋所有的東西。在這個比賽中我們面臨的任務(wù)是，給定一張圖片，判斷圖中的動物是貓還是狗。

II. 定義神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)（ANN）的產(chǎn)生受到了人腦工作機(jī)制的啟發(fā)。盡管這種模擬是很不嚴(yán)格的，但是 ANN 確實(shí)和它們生物意義上的創(chuàng)造者有幾個相似之處。它們由一定數(shù)量的神經(jīng)元組成。所那么，我們來看一下一個單獨(dú)的神經(jīng)元吧。

單個神經(jīng)元

我們接下來要談?wù)摰纳窠?jīng)元是一個與 Frank Rosenblatt 在 1957 年提出的最簡單的被稱作「感知機(jī)，perception」的神經(jīng)元稍微有所不同的版本。我所做的所有修改都是為了簡化，因?yàn)槲以谶@篇文章中不會涉及神經(jīng)網(wǎng)絡(luò)的深入解釋。我僅僅試著給讀者給出一個關(guān)于神經(jīng)網(wǎng)絡(luò)如何工作的直覺認(rèn)識。

什么是神經(jīng)元呢？它是一個數(shù)學(xué)函數(shù)，并以一定量的數(shù)值作為輸入（隨便你想要多少作為輸入），我在上圖畫出的神經(jīng)元有兩個輸入。我們將每個輸入記為 x_k，這里 k 是輸入的索引。對于每一個輸入 x_k，神經(jīng)元會給它分配另一個數(shù) w_k，由這些參數(shù) w_k 組成的向量叫做權(quán)重向量。正是這些權(quán)值才使得每個神經(jīng)元都是獨(dú)一無二的。在測試的過程中，權(quán)值是不會變化的，但是在訓(xùn)練的過程中，我們要去改變這些權(quán)值以「調(diào)節(jié)」我們的網(wǎng)絡(luò)。我會在后面的文章中討論這個內(nèi)容。正如前面提到的，一個神經(jīng)元就是一個數(shù)學(xué)函數(shù)。但是它是哪種函數(shù)呢？它是權(quán)值和輸入的一種線性組合，還有基于這種組合的某種非線性函數(shù)。我會繼續(xù)做進(jìn)一步解釋。讓我們來看一下首先的線性組合部分。

輸入和權(quán)值的線性組合。

上面的公式就是我提到的線性組合。我們要將輸入和對應(yīng)的權(quán)值相乘，然后對所有的結(jié)果求和。結(jié)果就會一個數(shù)字。最后一部分—就是給這個數(shù)字應(yīng)用某種非線性函數(shù)。今天最常用的非線性函數(shù)即一種被稱作 ReLU(rectified linear unit) 的分段線性函數(shù)，其公式如下：

線性整流單元的表達(dá)式。

如果我們的數(shù)字大于 0，我們就會使用這個數(shù)字，如果它小于 0，我們就會用 0 去代替它。這個被用在線性神經(jīng)元上的非線性函數(shù)被稱作激活函數(shù)。我們必須使用某種非線性函數(shù)的原因在后面會變得很明顯。總結(jié)一下，神經(jīng)元使用固定數(shù)目的輸入和（標(biāo)量），并輸出一個標(biāo)量的激活值。前面畫出的神經(jīng)元可以概括成一個公式，如下所示：

將我要寫的內(nèi)容稍微提前一下，如果我們以貓狗鑒別的任務(wù)為例，我們會把圖片作為神經(jīng)元的輸入。也許你會疑問：當(dāng)神經(jīng)元被定義為函數(shù)的時候，如何向它傳遞圖片。你應(yīng)該記住，我們將圖片存儲在計(jì)算機(jī)中的方式是將它拿一個數(shù)組代表的，數(shù)組中的每一個數(shù)字代表一個像素的亮度。所以，將圖片傳遞到神經(jīng)元的方式就是將 2 維（或者 3 維的彩色圖片）數(shù)組展開，得到一個一維數(shù)組，然后將這些數(shù)字傳遞到神經(jīng)元。不幸的是，這會導(dǎo)致我們的神經(jīng)網(wǎng)絡(luò)會依賴于輸入圖片的大小，我們只能處理由神經(jīng)網(wǎng)絡(luò)定義的某個固定大小的圖片。現(xiàn)代神經(jīng)網(wǎng)絡(luò)已經(jīng)發(fā)現(xiàn)了解決這個問題的方法，但是我們在這里還是在這個限制下設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)。

現(xiàn)在我們定義一下神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)也是一個數(shù)學(xué)函數(shù)，它就是很多相互連接的神經(jīng)元，這里的連接指的是一個神經(jīng)元的輸出被用為另一個神經(jīng)元的輸入。下圖是一個簡單的神經(jīng)網(wǎng)絡(luò)，希望用這張圖能夠?qū)⑦@個定義解釋得更加清楚。

一個簡單的神經(jīng)網(wǎng)絡(luò)。

上圖定義的神經(jīng)網(wǎng)絡(luò)具有 5 個神經(jīng)元。正如你所看到的，這個神經(jīng)網(wǎng)絡(luò)由 3 個全連接層堆疊而成，即每一層的每個神經(jīng)元都連接到了下一層的每一個神經(jīng)元。你的神經(jīng)網(wǎng)絡(luò)有多少層、每一層有多少個神經(jīng)元、神經(jīng)元之間是怎么鏈接的，這這些因素共同定義了一個神經(jīng)網(wǎng)絡(luò)的架構(gòu)。第一層叫做輸入層，包含兩個神經(jīng)元。這一層的神經(jīng)元并不是我之前所說的神經(jīng)元，從某種意義而言，它并不執(zhí)行任何計(jì)算。它們在這里僅僅代表神經(jīng)網(wǎng)絡(luò)的輸入。而神經(jīng)網(wǎng)絡(luò)對非線性的需求源于以下兩個事實(shí)：1）我們的神經(jīng)元是連在一起的；2）基于線性函數(shù)的函數(shù)還是線性的。所以，如果不對每個神經(jīng)元應(yīng)用一個非線性函數(shù)，神經(jīng)網(wǎng)絡(luò)也會是一個線性函數(shù)而已，那么它并不比單個神經(jīng)元強(qiáng)大。最后一點(diǎn)需要強(qiáng)調(diào)的是：我們通常是想讓一個神經(jīng)網(wǎng)絡(luò)的輸出大小在 0 到 1 之間，所以我們會將它按照概率對待。例如，在貓狗鑒別的例子中，我們可以把接近于 0 的輸出視為貓，將接近于 1 的輸出視為狗。為了完成這個目標(biāo)，我們會在最后一個神經(jīng)元上應(yīng)用一個不同的激活函數(shù)。我們會使用 sigmoid 激活函數(shù)。關(guān)于這個激活函數(shù)，你目前只需要知道它地返回值是一個介于 0 到 1 的數(shù)字，這正好是我們想要的。解釋完這些之后，我們可以定義一個和上圖對應(yīng)的神經(jīng)網(wǎng)絡(luò)了。

關(guān)于如何「訓(xùn)練」神經(jīng)網(wǎng)絡(luò)的一部分經(jīng)驗(yàn)與見解

定義一個神經(jīng)網(wǎng)絡(luò)的函數(shù)。w 的上標(biāo)代表神經(jīng)元的索引，下標(biāo)代表輸入的索引。

最后，我們得到了某種函數(shù)，它以幾個數(shù)作為輸入，輸出另一個介于 0 到 1 之間的數(shù)。實(shí)際上，這個函數(shù)怎樣表達(dá)并不重要，重要的是我們通過一些權(quán)重將一個非線性函數(shù)參數(shù)化了，我們可以通過改變這些權(quán)重來改變這個非線性函數(shù)。

III. 損失函數(shù)

在開始討論神經(jīng)網(wǎng)絡(luò)的訓(xùn)練之前，最后一個需要定義的就是損失函數(shù)了。損失函數(shù)是一個可以告訴我們，神經(jīng)網(wǎng)絡(luò)在某個特定的任務(wù)上表現(xiàn)有多好的函數(shù)。做這件事的最直覺的辦法就是，對每一個訓(xùn)練樣本，都沿著神經(jīng)網(wǎng)絡(luò)傳遞得到一個數(shù)字，然后將這個數(shù)字與我們想要得到的實(shí)際數(shù)字做差再求平方，這樣計(jì)算出來的就是預(yù)測值與真實(shí)值之間的距離，而訓(xùn)練神經(jīng)網(wǎng)絡(luò)就是希望將這個距離或損失函數(shù)減小。

上式中的 y 代表我們想要從神經(jīng)網(wǎng)絡(luò)得到的數(shù)字，y hat 指的一個樣本通過神經(jīng)網(wǎng)絡(luò)得到的實(shí)際結(jié)果，i 是我們的訓(xùn)練樣本的索引。我們還是以貓狗鑒別為例。我們有一個數(shù)據(jù)集，由貓和狗的圖片組成，如果圖片是狗，對應(yīng)的標(biāo)簽是 1，如果圖片是貓，對應(yīng)的標(biāo)簽是 0。這個標(biāo)簽就是對應(yīng)的 y，在向神經(jīng)網(wǎng)絡(luò)傳遞一張圖片的時候我們想通過神經(jīng)網(wǎng)絡(luò)的得到的結(jié)果。為了計(jì)算損失函數(shù)，我們必須遍歷數(shù)據(jù)集中的每一張圖片，為每一個樣本計(jì)算 y，然后按照上面的定義計(jì)算損失函數(shù)。如果損失函數(shù)比較大，那么說明我們的神經(jīng)網(wǎng)絡(luò)性能并不是很好，我們想要損失函數(shù)盡可能的小。為了更深入地了解損失函數(shù)和神經(jīng)網(wǎng)絡(luò)之間的聯(lián)系，我們可以重寫這個公式，將 y 換成網(wǎng)絡(luò)的實(shí)際函數(shù)。

IV. 訓(xùn)練

在開始訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時候，要對權(quán)值進(jìn)行隨機(jī)初始化。顯然，初始化的參數(shù)并不會得到很好的結(jié)果。在訓(xùn)練的過程中，我們想以一個很糟糕的神經(jīng)網(wǎng)絡(luò)開始，得到一個具有高準(zhǔn)確率的網(wǎng)絡(luò)。此外，我們還希望在訓(xùn)練結(jié)束的時候，損失函數(shù)的函數(shù)值變得特別小。提升網(wǎng)絡(luò)是有可能的，因?yàn)槲覀兛梢酝ㄟ^調(diào)節(jié)權(quán)值去改變函數(shù)。我們希望找到一個比初始化的模型性能好很多的函數(shù)。

問題在于，訓(xùn)練的過程相當(dāng)于最小化損失函數(shù)。為什么是最小化損失而不是最大化呢？結(jié)果證明損失是比較容易優(yōu)化的函數(shù)。

有很多用于函數(shù)優(yōu)化的算法。這些算法可以是基于梯度的，也可以不是基于梯度的，因?yàn)樗鼈兗瓤梢允褂煤瘮?shù)提供的信息，還可以使用函數(shù)梯度提供的信息。最簡單的基于梯度的算法之一叫做隨機(jī)梯度下降（SGD），這也是我在這篇文章中要介紹的算法。讓我們來看一下它是如何運(yùn)行的吧。

首先，我們要記住關(guān)于某個變量的導(dǎo)數(shù)是什么。我們拿比較簡單的函數(shù) f(x) = x 為例。如果還記得高中時候?qū)W過的微積分法則，我們就會知道，這個函數(shù)在每個 x 處的導(dǎo)數(shù)都是 1。那么導(dǎo)數(shù)能夠告訴我們哪些信息呢？導(dǎo)數(shù)描述的是：當(dāng)我么讓自變量朝正方向變化無限小的步長時，函數(shù)值變化有多快的速率。它可以寫成下面的數(shù)學(xué)形式：

它的意思是：函數(shù)值的變化量（方程的左邊）近似等于函數(shù)在對應(yīng)的某個變量 x 處的導(dǎo)數(shù)與 x 的增量的乘積?；氐轿覀儎偛潘e的最簡單的例子 f(x) = x，導(dǎo)數(shù)處處是 1，這意味著如果我們將 x 朝正方向變化一小步ε，函數(shù)輸出的變化等于 1 和ε的乘積，剛好是ε本身。檢查這個規(guī)則是比較容易的。實(shí)際上這個并不是近似值，它是精確的。為什么呢？因?yàn)槲覀兊膶?dǎo)數(shù)對于每一個 x 都是相同的。但是這并不適用于絕大多數(shù)函數(shù)。讓我們來看一個稍微復(fù)雜一點(diǎn)的函數(shù) f(x) = x^2。

通過微積分知識我們可以知道，這個函數(shù)的導(dǎo)數(shù)是 2*x?，F(xiàn)在如果我們從某個 x 開始移動某個步長的ε，很容易能夠發(fā)現(xiàn)對應(yīng)的函數(shù)增量并不精確地等于上面的公式中的計(jì)算結(jié)果。

現(xiàn)在，梯度是由偏導(dǎo)數(shù)組成的向量，這個向量的元素是這個函數(shù)所依賴的某些變量對應(yīng)的導(dǎo)數(shù)。對于我們目前所考慮的簡單函數(shù)來說，這個向量只有一個元素，因?yàn)槲覀兯玫暮瘮?shù)只有一個輸入。對于更加復(fù)雜的函數(shù)（例如我們的損失函數(shù)）而言，梯度會包含函數(shù)對應(yīng)的每個變量的導(dǎo)數(shù)。

為了最小化某個損失函數(shù)，我們可以怎么使用這個由導(dǎo)數(shù)提供的信息呢？還是回到函數(shù) f(x) = x^2。顯然，這個函數(shù)在 x=0 的點(diǎn)取得最小值，但是計(jì)算機(jī)如何知道呢？假設(shè)我們開始的時候得到的 x 的隨機(jī)初始值為 2，此時函數(shù)的導(dǎo)數(shù)等于 4。這意味著如果 x 朝著正方向改變，函數(shù)的增量會是 x 增量的 4 倍，因此函數(shù)值反而會增加。相反，我們希望最小化我們的函數(shù)，所以我們可以朝著相反的方向改變 x，也就是負(fù)方向，為了確保函數(shù)值降低，我們只改變一小步。但是我們一步可以改變多大呢? 我們的導(dǎo)數(shù)只保證當(dāng) x 朝負(fù)方向改變無限小的時候函數(shù)值才會減小。因此，我們希望用一些超參數(shù)來控制一次能夠改變多大。這些超參數(shù)叫做學(xué)習(xí)率，我們后面會談到。我們現(xiàn)在看一下，如果我們從-2 這個點(diǎn)開始，會發(fā)生什么。這里的導(dǎo)數(shù)是-4，這意味著如果朝著正方向改變 x，函數(shù)值會變小，這正是我們想要的結(jié)果。

注意到這里的規(guī)律了嗎？當(dāng) x>0 的時候，我們導(dǎo)數(shù)值也大于 0，我們需要朝著負(fù)方向改變，當(dāng) x<0 的時候，我們導(dǎo)數(shù)值小于 0，我們需要朝著正方向改變，我們總需要朝著導(dǎo)數(shù)的反方向改變 x。讓我們對梯度也引用同樣的思路。梯度是指向空間某個方向的向量，實(shí)際上它指向的是函數(shù)值增加最劇烈的方向。由于我們要最小化我們的函數(shù)，所以我們會朝著與梯度相反的方向改變自變量?，F(xiàn)在在我們應(yīng)用這個思想。在神經(jīng)網(wǎng)絡(luò)中，我們將輸入 x 和輸出 y 視為固定的數(shù)。我們要對其求導(dǎo)數(shù)的變量是權(quán)值 w，因?yàn)槲覀兛梢酝ㄟ^改變這些權(quán)值類提升神經(jīng)網(wǎng)絡(luò)。如果我們對損失函數(shù)計(jì)算權(quán)值對應(yīng)的梯度，然后朝著與梯度相反的方向改變權(quán)值，我們的損失函數(shù)也會隨之減小，直至收斂到某一個局部極小值。這個算法就叫做梯度下降。在每一次迭代中更新權(quán)重的算法如下所示：

每一個權(quán)重值都要減去它對應(yīng)的導(dǎo)數(shù)和學(xué)習(xí)率的乘積。

上式中的 Lr 代表的是學(xué)習(xí)率，它就是控制每次迭代中步長大小的變量。這是我們在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時候要調(diào)節(jié)的重要超參數(shù)。如果我么選擇的學(xué)習(xí)率太大，會導(dǎo)致步進(jìn)太大，以至于跳過最小值，這意味著你的算法會發(fā)散。如果你選擇的學(xué)習(xí)率太小，收斂到一個局部極小值可能會花費(fèi)太多時間。人們開發(fā)出了一些很好的技術(shù)來尋找一個最佳的學(xué)習(xí)率，然而這個內(nèi)容超出本文所涉及的范圍了。

不幸的是，我們不能應(yīng)用這個算法來訓(xùn)練神經(jīng)網(wǎng)絡(luò)，原因在于損失函數(shù)的公式。

正如你可以在我之前的定義中看到的一樣，我們損失函數(shù)的公式是和的平均值。從微積分原理中我們可以知道，微分的和就是和的微分。所以，為了計(jì)算損失函數(shù)的梯度，我們需要遍歷我們的數(shù)據(jù)集中的每一個樣本。在每一次迭代中進(jìn)行梯度下降是非常低效的，因?yàn)樗惴ǖ拿看蔚鷥H僅以很小的步進(jìn)提升了損失函數(shù)。為了解決這個問題，還有另外一個小批量梯度下降算法。該算法更新權(quán)值的方法是不變的，但是我們不會去計(jì)算精確的梯度。相反，我們會在數(shù)據(jù)集的一個小批量上近似計(jì)算梯度，然后使用這個梯度去更新權(quán)值。Mini-batch 并不能保證朝著最佳的方向改變權(quán)值。事實(shí)上，它通常都不會。在使用梯度下降算法的時候，如果所選擇的學(xué)習(xí)率足夠小的話，能夠保證你的損失函數(shù)在每一次迭代中都會減小。但是使用 Mini-batch 的時候并不是這樣。你的損失函數(shù)會隨著時間減小，但是它會有波動，也會具有更多的「噪聲」。

用來估計(jì)梯度的 batch 大小是你必須選擇的另一個超參數(shù)。通常，我們希望盡可能地選擇能處理的較大 batch。但是我很少見到別人使用比 100 還大的 batch size。

mini-batch 梯度下降的極端情況就是 batch size 等于 1，這種形式的梯度下降叫做隨機(jī)梯度下降（SGD）。通常在很多文獻(xiàn)中，當(dāng)人們說隨機(jī)梯度下降的時候，實(shí)際上他們指的就是 mini-batch 隨機(jī)梯度下降。大多數(shù)深度學(xué)習(xí)框架都會讓你選擇隨機(jī)梯度下降的 batch size。

以上是梯度下降和它變體的基本概念。但近來越來越多的人在使用更高級的算法，其中大多數(shù)都是基于梯度的，作者下一部分就主要介紹這些最優(yōu)化方法。

VII. 反向傳播（BP）

關(guān)于基于梯度的算法，剩下的唯一一件事就是如何計(jì)算梯度了。最快速的方法就是解析地給出每一個神經(jīng)元架構(gòu)的導(dǎo)數(shù)。我想，當(dāng)梯度遇到神經(jīng)網(wǎng)絡(luò)的時候，我不應(yīng)該說這是一個瘋狂的想法。我們在前面定義的一個很簡單的神經(jīng)網(wǎng)絡(luò)就已經(jīng)相當(dāng)艱難了，而它只有區(qū)區(qū) 6 個參數(shù)。而現(xiàn)代神經(jīng)網(wǎng)絡(luò)的參數(shù)動輒就是數(shù)百萬。

第二種方法就是使用我們從微積分中學(xué)到的下面的這個公式去近似計(jì)算梯度，事實(shí)上這也是最簡單的方法。

關(guān)于如何「訓(xùn)練」神經(jīng)網(wǎng)絡(luò)的一部分經(jīng)驗(yàn)與見解

盡管這個方法是非常容易實(shí)現(xiàn)的，但是它卻是非常耗計(jì)算資源的。

最后一種計(jì)算梯度的方法，是對解析難度和計(jì)算成本的折中，這個方法被稱作反向傳小節(jié)。反向傳播不在本文的討論范圍，如果你想了解更多的話，可以查看 Goodfellow《深度學(xué)習(xí)》第六章第五小節(jié)，該章節(jié)對反向傳播算法有非常詳盡的介紹。

VI. 它為什么會起作用？

當(dāng)我初次了解神經(jīng)網(wǎng)絡(luò)以及它是如何工作的時候，我理解所有的方程，但是我不是十分確定它們?yōu)樯稌鹱饔?。這個想法對我而言有些怪誕：用幾個函數(shù)，求一些導(dǎo)數(shù)，最終會得到一個能夠認(rèn)出圖片中是貓還是狗。為什么我不能給你們一個很好的關(guān)于為啥神經(jīng)網(wǎng)絡(luò)會如此好的奏效的直覺知識呢？請注意以下兩個方面。

1. 我們想要用神經(jīng)網(wǎng)絡(luò)解決的問題必須被以數(shù)學(xué)的形式表達(dá)出來。例如，對于對于貓狗鑒別：我們需要找到一個函數(shù)，它能夠把一副圖片中的所有像素作為輸入，然后輸出圖片中的內(nèi)容是狗的概率。你可以用這種方法去定義任何一個分類問題。

2. 或許并不是很清楚，為什么會有一個能夠從一副圖片中把貓和狗區(qū)分開來的函數(shù)。這里的思想是：只要你有一些具有輸入和標(biāo)簽的數(shù)據(jù)集，總會存在一個能夠在一個給定數(shù)據(jù)集上性能良好的函數(shù)。問題在于這個函數(shù)會相當(dāng)復(fù)雜。這時候神經(jīng)網(wǎng)絡(luò)就能夠有所幫助了。有一個「泛逼近性原理，universal approximation theorem」，指的是具有一個隱藏層的神經(jīng)網(wǎng)絡(luò)可以近似任何一個你想要的的函數(shù)，你想要它近似得多好，就能有多好。

動量隨機(jī)梯度下降算法

-這是關(guān)于訓(xùn)練神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)模型優(yōu)化算法系列的第二部分，第一部分是關(guān)于隨機(jī)梯度下降的。在這一部分，假定讀者對神經(jīng)網(wǎng)絡(luò)和梯度下降算法已有基本了解。如果讀者對神經(jīng)網(wǎng)絡(luò)一無所知，或者不知道神經(jīng)網(wǎng)絡(luò)是如何訓(xùn)練的，可以在閱讀這部分之前閱讀第一部分。

在本節(jié)中，除了經(jīng)典的 SGD 算法外，我們還會對動量法進(jìn)行討論，這種算法一般比隨機(jī)梯度下降算法更好更快。動量法 [1] 或具有動量的 SGD 是一種方法，這種方法有助于加速向量向著正確的方向梯度下降，從而使其收斂速度更快。這是最流行的優(yōu)化算法之一，許多各方向上最先進(jìn)的模型都是用這種方法進(jìn)行訓(xùn)練的。在講高級的算法相關(guān)方程之前，我們先來看一些有關(guān)動量的基礎(chǔ)數(shù)學(xué)知識。

指數(shù)加權(quán)平均

指數(shù)加權(quán)平均用于處理數(shù)字序列。假設(shè)我們有一些嘈雜的序列 S。在這個例子中，我繪制了余弦函數(shù)并添加了一些高斯噪聲。如下圖所示：

關(guān)于如何「訓(xùn)練」神經(jīng)網(wǎng)絡(luò)的一部分經(jīng)驗(yàn)與見解

注意，盡管這些點(diǎn)看起來非常接近，但它們的 x 坐標(biāo)是不同的。也就是說，對每個點(diǎn)而言，其 x 坐標(biāo)是唯一的標(biāo)識，因此這也是定義序列 S 中每個點(diǎn)的索引。

我們需要處理這些數(shù)據(jù)，而非直接使用它們。我們需要某種「移動」的平均值，這個平均值會使數(shù)據(jù)「去噪」從而使其更接近原始函數(shù)。指數(shù)加權(quán)平均值可以產(chǎn)生如下所示的圖片：

動量——來自指數(shù)加權(quán)平均的數(shù)據(jù)

如我們所見，這是一個相當(dāng)不錯的結(jié)果。與噪聲很大的數(shù)據(jù)相比，我們得到了更平滑的曲線，這意味著與初始數(shù)據(jù)相比，我們得到了與原始函數(shù)更接近的結(jié)果。指數(shù)加權(quán)平均值用下面的公式定義了新的序列 V：

序列 V 是上面的散點(diǎn)圖中的黃色部分。Beta 是取值為 0 到 1 的另一個超參數(shù)。在上述例子中，取 Beta = 0.9。0.9 是一個很好的值，經(jīng)常用于具有動量的 SGD 方法。我們可以這樣對 Beta 進(jìn)行直觀理解：我們對序列后面的 1 /（1- beta）的點(diǎn)進(jìn)行近似平均。讓我們看看 beta 的選擇會對新序列 V 產(chǎn)生怎樣的影響。

Beta 取值不同時的指數(shù)加權(quán)平均結(jié)果。

如我們所見，Beta 取值越小，序列 V 波動越大。因?yàn)槲覀兤骄睦痈?，因此結(jié)果與噪聲數(shù)據(jù)更「接近」。隨著 Beta 值越大，比如當(dāng) Beta = 0.98 時，我們得到的曲線會更加圓滑，但是該曲線有點(diǎn)向右偏移，因?yàn)槲覀內(nèi)∑骄档姆秶兊酶螅╞eta = 0.98 時取值約為 50）。Beta = 0.9 時，在這兩個極端間取得了很好的平衡。

數(shù)學(xué)部分

這個部分對你在項(xiàng)目中使用動量而言不是必要的，所以可以跳過。但這部分更直觀地解釋了動量是如何工作的。

讓我們對指數(shù)加權(quán)平均新序列 V 的三個連續(xù)元素的定義進(jìn)行擴(kuò)展。

V——新序列。S——原始序列。

將其進(jìn)行合并，我們可以得到：

關(guān)于如何「訓(xùn)練」神經(jīng)網(wǎng)絡(luò)的一部分經(jīng)驗(yàn)與見解

再對其進(jìn)行簡化，可得：

關(guān)于如何「訓(xùn)練」神經(jīng)網(wǎng)絡(luò)的一部分經(jīng)驗(yàn)與見解

從這個等式中可以看出，新序列的第 T 個值取決于原始序列 S 的所有先前的數(shù)值 1…t。來自 S 的所有數(shù)值被賦了一定的權(quán)重。這個權(quán)重是序列 S 的第（t-i）個值乘以（1- beta）得到的權(quán)重。因?yàn)?Beta 小于 1，所以當(dāng)我們對某個正數(shù)的冪取 beta 時，值會變得更小。所以序列 S 的原始值的權(quán)重會小得多，也因此序列 S 對序列 V 產(chǎn)生的點(diǎn)積影響較小。從某些角度來說，該權(quán)重小到我們幾乎可以說我們「忘記」了這個值，因?yàn)槠溆绊懶〉綆缀鯚o法注意到。使用這個近似值的好處在于當(dāng)權(quán)重小于 1 / e 時，更大的 beta 值會要求更多小于 1 / e 的權(quán)值。這就是為什么 beta 值越大，我們就要對更多的點(diǎn)積進(jìn)行平均。下面的圖表顯示的是與 threshold = 1 / e 相比，隨著序列 S 初始值變化，權(quán)重變小的速度，在此我們「忘記」了初始值。

最后要注意的是，第一次迭代得到的平均值會很差，因?yàn)槲覀儧]有足夠的值進(jìn)行平均。我們可以通過使用序列 V 的偏差修正版而不是直接使用序列 V 來解決這一問題。

式中 b = beta。當(dāng) t 值變大時，b 的 t 次冪與零無法進(jìn)行區(qū)分，因此不會改變 V 值。但是當(dāng) t 取值較小時，這個方程會產(chǎn)生較好的結(jié)果。但是因?yàn)閯恿康拇嬖谑沟脵C(jī)器學(xué)習(xí)過程穩(wěn)定得很快，因此人們通常會懶得應(yīng)用這一部分。

動量 SGD 法

我們已經(jīng)定義了一種方法來獲得一些序列的「移動」平均值，該值會與數(shù)據(jù)一起變化。我們該如何將其應(yīng)用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中呢？它可以平均我們的梯度。我將在下文中解釋它是如何在動量中完成的這一工作，并將繼續(xù)解釋為什么它可能會得到更好的效果。

我將提供兩個定義來定義具有動量的 SGD 方法，這幾乎就是用兩種不同的方式表達(dá)同一個方程。首先，是吳恩達(dá)在 Coursera 深度學(xué)習(xí)專業(yè)化（https://www.deeplearning.ai/）的課程中提出的定義。他解釋的方式是，我們定義一個動量，這是我們梯度的移動平均值。然后我們用它來更新網(wǎng)絡(luò)的權(quán)重。如下所示：

關(guān)于如何「訓(xùn)練」神經(jīng)網(wǎng)絡(luò)的一部分經(jīng)驗(yàn)與見解

式中 L 是損失函數(shù)，三角形符號是梯度 w.r.t 權(quán)重,α 是學(xué)習(xí)率。另一種最流行的表達(dá)動量更新規(guī)則的方式不那么直觀，只是省略了（1 - beta）項(xiàng)。

關(guān)于如何「訓(xùn)練」神經(jīng)網(wǎng)絡(luò)的一部分經(jīng)驗(yàn)與見解

這與第一組方程式非常相似，唯一的區(qū)別是需要通過（1 - β）項(xiàng)來調(diào)整學(xué)習(xí)率。

Nesterov 加速漸變

Nesterov 動量是一個版本略有不同的動量更新，最近越來越受歡迎。在這個版本中，首先會得到一個當(dāng)前動量指向的點(diǎn)，然后從這個點(diǎn)計(jì)算梯度。如下圖所示：

關(guān)于如何「訓(xùn)練」神經(jīng)網(wǎng)絡(luò)的一部分經(jīng)驗(yàn)與見解

Nesterov 動量可用下式定義：

關(guān)于如何「訓(xùn)練」神經(jīng)網(wǎng)絡(luò)的一部分經(jīng)驗(yàn)與見解

動量工作原理

在這里我會解釋為什么在絕大多數(shù)情況下動量法會比經(jīng)典 SGD 法更好用。

使用隨機(jī)梯度下降的方法，我們不會計(jì)算損失函數(shù)的確切導(dǎo)數(shù)。相反，我們是對一小批數(shù)據(jù)進(jìn)行估算的。這意味著我們并不總是朝著最佳的方向前進(jìn)，因?yàn)槲覀兊玫降慕Y(jié)果是「嘈雜的」。正如我在上文中列出的圖表。所以，指數(shù)的加權(quán)平均可以提供一個更好的估計(jì)值，該估計(jì)值比通過嘈雜計(jì)算得到的結(jié)果更接近實(shí)際值的導(dǎo)數(shù)。這就是動量法可能比傳統(tǒng) SGD 更好的原因之一。

另一個原因在于溝谷（ravine）。溝谷是一個區(qū)域，在其中，曲線在一個維度比另一個維度陡得多。在深度學(xué)習(xí)中，溝谷區(qū)可近似視為局部最低點(diǎn)，而這一特性無法用 SGD 方法得到。SGD 傾向于在狹窄的溝谷上擺動，因?yàn)樨?fù)梯度將沿著陡峭的一側(cè)下降，而非沿著溝谷向最優(yōu)點(diǎn)前進(jìn)。動量有助于加速梯度向正確的方向前進(jìn)。如下圖所示：

左圖——沒有動量的 SGD，右圖——有動量的 SGD

結(jié)論

希望本節(jié)會提供一些關(guān)于具有動量的 SGD 方法是如何起作用以及為什么會有用的想法。實(shí)際上它是深度學(xué)習(xí)中最流行的優(yōu)化算法之一，與更高級的算法相比，這種方法通常被人們更頻繁地使用。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4771

瀏覽量
100709
遺傳算法

遺傳算法

+關(guān)注

關(guān)注
0

文章
237

瀏覽量
20610
ardm

ardm

+關(guān)注

關(guān)注
0

文章
1

瀏覽量
1958

原文標(biāo)題：從零開始：教你如何訓(xùn)練神經(jīng)網(wǎng)絡(luò)

文章出處：【微信號：gh_ecbcc3b6eabf，微信公眾號：人工智能和機(jī)器人研究院】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一文讓你徹底了解卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò)，它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元，對于大型圖像處理有出色表現(xiàn)。它包括卷積層和池化層。

發(fā)表于 04-24 08:59 ?2.4w次閱讀

<b class='flag-5'>一</b>文讓你徹底了解卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>

Protel99se 安裝好了，一部分ddb文件能打開一部分pcb格式打不開

Protel99se 安裝好了，一部分ddb文件能打開，一部分pcb格式打不開，該怎么辦

發(fā)表于 12-21 20:14

當(dāng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)用于應(yīng)用的時候，權(quán)值是不是不能變了？

當(dāng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)用于應(yīng)用的時候，權(quán)值是不是不能變了？？？？就是已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)是不是相當(dāng)于得到一個公式了，權(quán)值不能變了

發(fā)表于 10-24 21:55

【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

元，它決定了該輸入向量在地位空間中的位置。SOM神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目的就是為每個輸出層神經(jīng)元找到合適的權(quán)向量，以達(dá)到保持拓?fù)浣Y(jié)構(gòu)的目的。SOM的訓(xùn)練過程其實(shí)很簡單，就是接收到

發(fā)表于 07-21 04:30

如何移植一個CNN神經(jīng)網(wǎng)絡(luò)到FPGA中？

二次開發(fā)。移植一個神經(jīng)網(wǎng)絡(luò)到Lattice FPGA上可以分為三步：第一步：使用Tensorflow, Caffe, Keras訓(xùn)練自己的網(wǎng)絡(luò)

發(fā)表于 11-26 07:46

基于光學(xué)芯片的神經(jīng)網(wǎng)絡(luò)訓(xùn)練解析，不看肯定后悔

基于光學(xué)芯片的神經(jīng)網(wǎng)絡(luò)訓(xùn)練解析，不看肯定后悔

發(fā)表于 06-21 06:33

優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些？

優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些？

發(fā)表于 09-06 09:52

如何進(jìn)行高效的時序圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

訓(xùn)練過程與數(shù)據(jù)傳輸過程進(jìn)行流水線化處理。具體來說，我們將GPU的顯存劃分為三部分：第一部分存儲固定的數(shù)據(jù)（神經(jīng)網(wǎng)絡(luò)參數(shù)以及源點(diǎn)的特征向量），第二部分

發(fā)表于 09-28 10:37

ISDB放送標(biāo)準(zhǔn)中的一部分

ISDB放送標(biāo)準(zhǔn)中的一部分，是日本的番組表顯示相關(guān)的。

發(fā)表于 11-16 18:52 ?2次下載

有時你需要一點(diǎn)收獲第一部分

有時你需要一點(diǎn)收獲第一部分

發(fā)表于 04-20 10:31 ?1次下載

第一部分、硬件設(shè)計(jì)

第一部分、硬件設(shè)計(jì)我把一個硬件系統(tǒng)分為五個單元：電源單元、單片機(jī)單元、輸入單元、輸出單元、通信單元。如下圖：

發(fā)表于 12-09 12:36 ?16次下載

生成任意量級偏置電流網(wǎng)絡(luò)（第一部分）

生成任意量級偏置電流網(wǎng)絡(luò)（第一部分）

發(fā)表于 11-03 08:04 ?1次下載

圖神經(jīng)網(wǎng)絡(luò)的概念和應(yīng)用

圖神經(jīng)網(wǎng)絡(luò)的應(yīng)用場景自然非常多樣。筆者在這里選擇一部分應(yīng)用場景為大家做簡要的介紹，更多的還是期待我們共同發(fā)現(xiàn)和探索。

發(fā)表于 05-16 09:27 ?649次閱讀

如何訓(xùn)練和優(yōu)化神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域的重要分支，廣泛應(yīng)用于圖像識別、自然語言處理、語音識別等多個領(lǐng)域。然而，要使神經(jīng)網(wǎng)絡(luò)在實(shí)際應(yīng)用中取得良好效果，必須進(jìn)行有效的訓(xùn)練和優(yōu)化。本文將從神經(jīng)網(wǎng)絡(luò)的

發(fā)表于 07-01 14:14 ?450次閱讀

怎么對神經(jīng)網(wǎng)絡(luò)重新訓(xùn)練

重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)是一個復(fù)雜的過程，涉及到多個步驟和考慮因素。引言 神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的機(jī)器學(xué)習(xí)模型，廣泛應(yīng)用于圖像識別、自然語言處理、語音

發(fā)表于 07-11 10:25 ?448次閱讀

RM新时代网站-首页

搜索歷史

關(guān)于如何「訓(xùn)練」神經(jīng)網(wǎng)絡(luò)的一部分經(jīng)驗(yàn)與見解

評論

一文讓你徹底了解卷積神經(jīng)網(wǎng)絡(luò)

Protel99se 安裝好了，一部分ddb文件能打開一部分pcb格式打不開

當(dāng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)用于應(yīng)用的時候，權(quán)值是不是不能變了？

【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

如何移植一個CNN神經(jīng)網(wǎng)絡(luò)到FPGA中？

基于光學(xué)芯片的神經(jīng)網(wǎng)絡(luò)訓(xùn)練解析，不看肯定后悔

優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些？

如何進(jìn)行高效的時序圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

ISDB放送標(biāo)準(zhǔn)中的一部分

有時你需要一點(diǎn)收獲第一部分

第一部分、硬件設(shè)計(jì)

生成任意量級偏置電流網(wǎng)絡(luò)（第一部分）

圖神經(jīng)網(wǎng)絡(luò)的概念和應(yīng)用

如何訓(xùn)練和優(yōu)化神經(jīng)網(wǎng)絡(luò)

怎么對神經(jīng)網(wǎng)絡(luò)重新訓(xùn)練