RM新时代平台靠谱平台入口,RM新时代专业团队|首入球时间

初始化對(duì)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的收斂性有重要影響。簡單的初始化方案可以加速訓(xùn)練，但是它們需要小心避免常見的陷阱。

近期，deeplearning.ai就如何有效地初始化神經(jīng)網(wǎng)絡(luò)參數(shù)發(fā)表了交互式文章，圖靈君將結(jié)合這篇文章與您一起探索以下問題：

1、有效初始化的重要性

2、梯度爆炸或消失的問題

3、什么是正確的初始化？

4、Xavier初始化的數(shù)學(xué)證明

一、有效初始化的重要性

要構(gòu)建機(jī)器學(xué)習(xí)算法，通常需要定義一個(gè)體系結(jié)構(gòu)（例如Logistic回歸，支持向量機(jī)，神經(jīng)網(wǎng)絡(luò)）并訓(xùn)練它來學(xué)習(xí)參數(shù)。以下是神經(jīng)網(wǎng)絡(luò)的常見訓(xùn)練過程：

1、初始化參數(shù)

2、選擇優(yōu)化算法

3、重復(fù)這些步驟：

a、正向傳播輸入

b、計(jì)算成本函數(shù)

c、使用反向傳播計(jì)算與參數(shù)相關(guān)的成本梯度

d、根據(jù)優(yōu)化算法，使用梯度更新每個(gè)參數(shù)

然后，給定一個(gè)新的數(shù)據(jù)點(diǎn)，您可以使用該模型來預(yù)測(cè)它的類。

初始化步驟對(duì)于模型的最終性能至關(guān)重要，它需要正確的方法。為了說明這一點(diǎn)，請(qǐng)考慮下面的三層神經(jīng)網(wǎng)絡(luò)。您可以嘗試使用不同的方法初始化此網(wǎng)絡(luò)，并觀察它對(duì)學(xué)習(xí)的影響。

當(dāng)初始化方法為零時(shí)，對(duì)于梯度和權(quán)重，您注意到了什么?

用零初始化所有權(quán)重會(huì)導(dǎo)致神經(jīng)元在訓(xùn)練期間學(xué)習(xí)相同的特征。

實(shí)際上，任何常量初始化方案的性能表現(xiàn)都非常糟糕。考慮一個(gè)具有兩個(gè)隱藏單元的神經(jīng)網(wǎng)絡(luò)，并假設(shè)我們將所有偏差初始化為0，并將權(quán)重初始化為一些常數(shù)α。如果我們?cè)谠摼W(wǎng)絡(luò)中正向傳播輸入（x1，x2），則兩個(gè)隱藏單元的輸出將為relu（αx1+αx2）。因此，兩個(gè)隱藏單元將對(duì)成本具有相同的影響，這將導(dǎo)致相同的梯度。

因此，兩個(gè)神經(jīng)元將在整個(gè)訓(xùn)練過程中對(duì)稱地進(jìn)化，有效地阻止了不同的神經(jīng)元學(xué)習(xí)不同的東西。

在初始化權(quán)重時(shí)，如果值太小或太大，關(guān)于成本圖，您注意到了什么?

盡管打破了對(duì)稱性，但是用值（i）太小或（ii）太大來初始化權(quán)重分別導(dǎo)致（i）學(xué)習(xí)緩慢或（ii）發(fā)散。

為高效訓(xùn)練選擇適當(dāng)?shù)某跏蓟凳潜匾?。我們將在下一?jié)進(jìn)一步研究。

二、梯度的爆炸或消失問題

考慮這個(gè)9層神經(jīng)網(wǎng)絡(luò)。

在優(yōu)化循環(huán)的每次迭代（前向，成本，后向，更新）中，我們觀察到當(dāng)您從輸出層向輸入層移動(dòng)時(shí)，反向傳播的梯度要么被放大，要么被最小化。如果您考慮以下示例，此結(jié)果是有意義的。

假設(shè)所有激活函數(shù)都是線性的（標(biāo)識(shí)函數(shù)）。然后輸出激活是：

其中，L=10,W[1],W[2],…,W[L?1]都是大小為(2,2)的矩陣，因?yàn)閷覽1]到[L-1]有2個(gè)神經(jīng)元，接收2個(gè)輸入。考慮到這一點(diǎn)，為了便于說明，如果我們假設(shè)W[1]=W[2]=?=W[L?1]=W，輸出預(yù)測(cè)是y^=W[L]WL?1x（其中WL?1將矩陣W取為L-1的冪，而W[L]表示Lth矩陣）。

初始化值太小，太大或不合適的結(jié)果是什么？

情形1：過大的初始化值會(huì)導(dǎo)致梯度爆炸

考慮這樣一種情況:初始化的每個(gè)權(quán)重值都略大于單位矩陣。

這簡化為y^=W[L]1.5L?1x，并且a[l]的值隨l呈指數(shù)增加。當(dāng)這些激活用于反向傳播時(shí)，就會(huì)導(dǎo)致梯度爆炸問題。也就是說，與參數(shù)相關(guān)的成本梯度太大。這導(dǎo)致成本圍繞其最小值振蕩。

情形2：初始化值太小會(huì)導(dǎo)致梯度消失

類似地，考慮這樣一種情況:初始化的每個(gè)權(quán)重值都略小于單位矩陣。

這簡化為y^=W[L]0.5L?1x，并且激活a [l]的值隨l呈指數(shù)下降。當(dāng)這些激活用于反向傳播時(shí)，這會(huì)導(dǎo)致消失的梯度問題。相對(duì)于參數(shù)的成本梯度太小，導(dǎo)致在成本達(dá)到最小值之前收斂。

總而言之，使用不適當(dāng)?shù)闹党跏蓟瘷?quán)重將導(dǎo)致神經(jīng)網(wǎng)絡(luò)訓(xùn)練的發(fā)散或減慢。雖然我們用簡單的對(duì)稱權(quán)重矩陣說明了梯度爆炸/消失問題，但觀察結(jié)果可以推廣到任何太小或太大的初始化值。

三、如何找到合適的初始化值

為了防止網(wǎng)絡(luò)激活的梯度消失或爆炸，我們將堅(jiān)持以下經(jīng)驗(yàn)法則：

1、激活的平均值應(yīng)為零。

2、激活的方差應(yīng)該在每一層保持不變。

在這兩個(gè)假設(shè)下，反向傳播的梯度信號(hào)不應(yīng)該在任何層中乘以太小或太大的值。它應(yīng)該移動(dòng)到輸入層而不會(huì)爆炸或消失。

更具體地考慮層l，它的前向傳播是：

我們希望以下內(nèi)容：

確保零均值并保持每層輸入方差的值不會(huì)產(chǎn)生爆炸/消失信號(hào)，我們稍后會(huì)解釋。該方法既適用于前向傳播（用于激活），也適用于反向傳播傳播（用于激活成本的梯度）。推薦的初始化是Xavier初始化（或其派生方法之一），對(duì)于每個(gè)層l：

換句話說，層l的所有權(quán)重是從正態(tài)分布中隨機(jī)選取的，其中均值μ= 0且方差σ2= n [l-1] 1其中n [l-1]是層l-1中的神經(jīng)元數(shù)。偏差用零初始化。

下面的可視化說明了Xavier初始化對(duì)五層全連接神經(jīng)網(wǎng)絡(luò)的每個(gè)層激活的影響。

您可以在Glorot等人中找到這種可視化背后的理論。（2010年）。下一節(jié)將介紹Xavier初始化的數(shù)學(xué)證明，并更準(zhǔn)確地解釋為什么它是一個(gè)有效的初始化。

四、Xavier初始化的合理性

在本節(jié)中，我們將展示Xavier初始化使每個(gè)層的方差保持不變。我們假設(shè)層的激活是正態(tài)分布在0附近。有時(shí)候，理解數(shù)學(xué)原理有助于理解概念，但不需要數(shù)學(xué)，就可以理解基本思想。

讓我們對(duì)第（III）部分中描述的層l進(jìn)行處理，并假設(shè)激活函數(shù)為tanh。前向傳播是：

目標(biāo)是導(dǎo)出Var（a [l-1]）和Var（a [l]）之間的關(guān)系。然后我們將理解如何初始化我們的權(quán)重，使得：Var(a[l?1])=Var(a[l])。

假設(shè)我們使用適當(dāng)?shù)闹党跏蓟覀兊木W(wǎng)絡(luò)，并且輸入被標(biāo)準(zhǔn)化。在訓(xùn)練初期，我們處于tanh的線性狀態(tài)。值足夠小，因此tanh(z[l])≈z[l]，意思是：

此外，z[l]=W[l]a[l?1]+b[l]=向量(z1[l],z2[l],…,zn[l][l])其中zk[l]=∑j=1n[l?1]wkj[l]aj[l?1]+bk[l]。為簡單起見，我們假設(shè)b[l]=0（考慮到我們將選擇的初始化選擇，它將最終為真）。因此，在前面的方程Var(a[l?1])=Var(a[l])中逐個(gè)元素地看，現(xiàn)在給出：

常見的數(shù)學(xué)技巧是在方差之外提取求和。為此，我們必須做出以下三個(gè)假設(shè)：

1、權(quán)重是獨(dú)立的，分布相同；

2、輸入是獨(dú)立的，分布相同；

3、權(quán)重和輸入是相互獨(dú)立的。

因此，現(xiàn)在我們有：

另一個(gè)常見的數(shù)學(xué)技巧是將乘積的方差轉(zhuǎn)化為方差的乘積。公式如下:

使用X=wkj[l]和Y=aj[l?1]的公式，我們得到：

我們差不多完成了！第一個(gè)假設(shè)導(dǎo)致E[wkj[l]]2=0，第二個(gè)假設(shè)導(dǎo)致E[aj[l?1]]2=0，因?yàn)闄?quán)重用零均值初始化，輸入被歸一化。從而：

上述等式源于我們的第一個(gè)假設(shè)，即:

同樣，第二個(gè)假設(shè)導(dǎo)致：

同樣的想法：

總結(jié)一下，我們有:

瞧！如果我們希望方差在各層之間保持不變(Var(a[l])=Var(a[l?1]))，我們需要Var(W[l])=n[l?1]1。這證明了Xavier初始化的方差選擇是正確的。

請(qǐng)注意，在前面的步驟中，我們沒有選擇特定的層ll。因此，我們已經(jīng)證明這個(gè)表達(dá)式適用于我們網(wǎng)絡(luò)的每一層。讓LL成為我們網(wǎng)絡(luò)的輸出層。在每一層使用此表達(dá)式，我們可以將輸出層的方差鏈接到輸入層的方差：

根據(jù)我們?nèi)绾纬跏蓟瘷?quán)重，我們的輸出和輸入的方差之間的關(guān)系會(huì)有很大的不同。請(qǐng)注意以下三種情況。

因此，為了避免正向傳播信號(hào)的消失或爆炸，我們必須通過初始化Var(W[l])=n[l?1]1來設(shè)置n[l?1]Var(W[l])=1。

在整個(gè)證明過程中，我們一直在處理在正向傳播期間計(jì)算的激活。對(duì)于反向傳播的梯度也可以得到相同的結(jié)果。這樣做，您將看到，為了避免梯度消失或爆炸問題，我們必須通過初始化Var(W[l])=n[l]1來設(shè)置n[l]Var(W[l])=1。

結(jié)論

實(shí)際上，使用Xavier初始化的機(jī)器學(xué)習(xí)工程師會(huì)將權(quán)重初始化為N(0,n[l?1]1)或N(0,n[l?1]+n[l]2)。后一分布的方差項(xiàng)是n [l-1] 1和n [1] 1的調(diào)和平均值。

這是Xavier初始化的理論依據(jù)。 Xavier初始化與tanh激活一起工作。還有許多其他初始化方法。例如，如果您正在使用ReLU，則通常的初始化是He初始化（He et al，Delving Deep into Rectifiers），其中權(quán)重的初始化方法是將Xavier初始化的方差乘以2。雖然這種初始化的理由稍微復(fù)雜一些，但它遵循與tanh相同的思考過程。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4771

瀏覽量
100712
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5500

瀏覽量
121111

原文標(biāo)題：吳恩達(dá)團(tuán)隊(duì)：神經(jīng)網(wǎng)絡(luò)如何正確初始化？

文章出處：【微信號(hào)：rgznai100，微信公眾號(hào)：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的建模步驟

的過程，涉及數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)、權(quán)重初始化、前向傳播、損失函數(shù)計(jì)算、反向傳播、權(quán)重更新、模型評(píng)估與優(yōu)化等多個(gè)步驟。以下將詳細(xì)闡述這些步驟，并探討在建模過程中需要注意的關(guān)鍵點(diǎn)。

發(fā)表于 07-11 16:57 ?1480次閱讀

使用NumPy實(shí)現(xiàn)前饋神經(jīng)網(wǎng)絡(luò)

要使用NumPy實(shí)現(xiàn)一個(gè)前饋神經(jīng)網(wǎng)絡(luò)（Feedforward Neural Network），我們需要從基礎(chǔ)開始構(gòu)建，包括初始化網(wǎng)絡(luò)參數(shù)、定義激活函數(shù)及其導(dǎo)數(shù)、實(shí)現(xiàn)前向傳播、計(jì)算損失函數(shù)、以及實(shí)現(xiàn)

發(fā)表于 07-11 16:30 ?1626次閱讀

PyTorch如何實(shí)現(xiàn)多層全連接神經(jīng)網(wǎng)絡(luò)

在PyTorch中實(shí)現(xiàn)多層全連接神經(jīng)網(wǎng)絡(luò)（也稱為密集連接神經(jīng)網(wǎng)絡(luò)或DNN）是一個(gè)相對(duì)直接的過程，涉及定義網(wǎng)絡(luò)結(jié)構(gòu)、初始化參數(shù)、前向傳播、損失計(jì)算和反向傳播等步驟。

發(fā)表于 07-11 16:07 ?1154次閱讀

BP神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)的區(qū)別

BP神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Networks，簡稱ANNs）之間的關(guān)系與區(qū)別，是神經(jīng)網(wǎng)絡(luò)領(lǐng)域中一個(gè)基礎(chǔ)且重要的話題。本文將從定義、結(jié)構(gòu)、算法、應(yīng)用及未來發(fā)展等多個(gè)方面，詳細(xì)闡述BP

發(fā)表于 07-10 15:20 ?1020次閱讀

rnn是遞歸神經(jīng)網(wǎng)絡(luò)還是循環(huán)神經(jīng)網(wǎng)絡(luò)

RNN（Recurrent Neural Network）是循環(huán)神經(jīng)網(wǎng)絡(luò)，而非遞歸神經(jīng)網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)是一種具有時(shí)間序列特性的神經(jīng)網(wǎng)絡(luò)，能夠處理序列數(shù)據(jù)，具有記憶功能。以下是關(guān)于循環(huán)

發(fā)表于 07-05 09:52 ?558次閱讀

遞歸神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)嗎

遞歸神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，簡稱RNN）和循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，簡稱RNN）實(shí)際上是同一個(gè)概念，只是不同的翻譯方式

發(fā)表于 07-04 14:54 ?729次閱讀

循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別

循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）和卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）是深度學(xué)習(xí)領(lǐng)域中兩種非常重要的神經(jīng)網(wǎng)絡(luò)

發(fā)表于 07-04 14:24 ?1264次閱讀

bp神經(jīng)網(wǎng)絡(luò)和反向傳播神經(jīng)網(wǎng)絡(luò)區(qū)別在哪

反向傳播神經(jīng)網(wǎng)絡(luò)（Backpropagation Neural Network，簡稱BP神經(jīng)網(wǎng)絡(luò)）是一種多層前饋神經(jīng)網(wǎng)絡(luò)，它通過反向傳播算法來調(diào)整網(wǎng)絡(luò)中的權(quán)重和偏置，以達(dá)到最小

發(fā)表于 07-04 09:51 ?419次閱讀

bp神經(jīng)網(wǎng)絡(luò)算法的基本流程包括哪些

。 初始化網(wǎng)絡(luò)參數(shù) 在BP神經(jīng)網(wǎng)絡(luò)算法中，首先需要初始化網(wǎng)絡(luò)的參數(shù)，包括權(quán)重和偏置。權(quán)重是連接神經(jīng)

發(fā)表于 07-04 09:47 ?613次閱讀

反向傳播神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別

反向傳播神經(jīng)網(wǎng)絡(luò)（Backpropagation Neural Network，簡稱BP神經(jīng)網(wǎng)絡(luò)）是一種多層前饋神經(jīng)網(wǎng)絡(luò)，它通過反向傳播算法來調(diào)整網(wǎng)絡(luò)中的權(quán)重和偏置，以達(dá)到最小

發(fā)表于 07-03 11:00 ?789次閱讀

bp神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)區(qū)別是什么

結(jié)構(gòu)、原理、應(yīng)用場(chǎng)景等方面都存在一定的差異。以下是對(duì)這兩種神經(jīng)網(wǎng)絡(luò)的比較：基本結(jié)構(gòu) BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò)，由輸入層、隱藏層和輸出層組成。每個(gè)神經(jīng)元之間通過權(quán)重連接，并通

發(fā)表于 07-03 10:12 ?1152次閱讀

bp神經(jīng)網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)包括哪些

神經(jīng)網(wǎng)絡(luò)的第一層，用于接收外部輸入信號(hào)。輸入層的神經(jīng)元數(shù)量取決于問題的特征維度。每個(gè)輸入信號(hào)通過一個(gè)權(quán)重與輸入層的神經(jīng)元相連，權(quán)重的初始值通常隨機(jī)初

發(fā)表于 07-03 09:57 ?517次閱讀

卷積神經(jīng)網(wǎng)絡(luò)計(jì)算過程和步驟

。卷積層（Convolutional Layer）卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心組成部分，它通過卷積操作提取輸入數(shù)據(jù)的特征。卷積操作是一種數(shù)學(xué)運(yùn)算，用于計(jì)算輸入數(shù)據(jù)與卷積核（或?yàn)V波器）之間的局部相關(guān)性。卷積層的計(jì)算過程如下： 1.1 初始化卷積核在卷積層中，卷積核是一個(gè)

發(fā)表于 07-03 09:36 ?556次閱讀

卷積神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別

化能力。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展，神經(jīng)網(wǎng)絡(luò)已經(jīng)成為人工智能領(lǐng)域的重要技術(shù)之一。卷積神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)

發(fā)表于 07-02 14:24 ?3638次閱讀

神經(jīng)網(wǎng)絡(luò)前向傳播和反向傳播區(qū)別

神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的作用。前向傳播（Forward Propagation）前向傳播是神經(jīng)網(wǎng)絡(luò)中最基本的過程，它將輸入數(shù)據(jù)通過網(wǎng)絡(luò)層進(jìn)行逐層計(jì)算，最終得到輸出結(jié)果。前向傳播的過程可以分為以下幾個(gè)步驟： 1.1

發(fā)表于 07-02 14:18 ?791次閱讀

RM新时代网站-首页

搜索歷史

神經(jīng)網(wǎng)絡(luò)如何正確初始化?

評(píng)論

BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的建模步驟

使用NumPy實(shí)現(xiàn)前饋神經(jīng)網(wǎng)絡(luò)

PyTorch如何實(shí)現(xiàn)多層全連接神經(jīng)網(wǎng)絡(luò)

BP神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)的區(qū)別

rnn是遞歸神經(jīng)網(wǎng)絡(luò)還是循環(huán)神經(jīng)網(wǎng)絡(luò)

遞歸神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)嗎

循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別

bp神經(jīng)網(wǎng)絡(luò)和反向傳播神經(jīng)網(wǎng)絡(luò)區(qū)別在哪

bp神經(jīng)網(wǎng)絡(luò)算法的基本流程包括哪些

反向傳播神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別

bp神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)區(qū)別是什么

bp神經(jīng)網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)包括哪些

卷積神經(jīng)網(wǎng)絡(luò)計(jì)算過程和步驟

卷積神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別

神經(jīng)網(wǎng)絡(luò)前向傳播和反向傳播區(qū)別