RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí)的創(chuàng)始人解釋了神經(jīng)網(wǎng)絡(luò)的變遷資料說明

電子工程師 ? 來源:未知 ? 2019-05-26 10:00 ? 次閱讀

Geoffrey Hinton是深度學(xué)習(xí)的創(chuàng)始人之一,2019年圖靈獎得主,谷歌工程研究員。

在津南谷歌的I/O開發(fā)者大會上,美國科技媒體Wired的NicholasThompson和Hinton討論了他早期對大腦的癡迷,以及計算機可以模仿其神經(jīng)結(jié)構(gòu)的可能性。他們還討論了意識這個概念以及Hinton未來的計劃。

以下是對話過程,請欣賞!

Nicholas Thompson:讓我們從你早期的一些極具影響力的論文開始談起。每個人都說,“這是一個聰明的想法,但實際上我們不可能以這種方式來設(shè)計計算機。那么,請解釋一下你為什么如此堅持、如此自信地認(rèn)為自己找到了重要的東西。

在我看來,大腦必須通過學(xué)習(xí)“聯(lián)系”的力量來發(fā)揮作用,除此以外沒有別的方式。如果你想讓一個設(shè)備完成一些智能工作,那么有兩個選擇:一是你可以編程,二是它可以學(xué)習(xí)。人當(dāng)然不是被編程的,所以我們必須學(xué)習(xí)。因此這肯定是正確的道路。

NT:那么,能解釋一下神經(jīng)網(wǎng)絡(luò)是什么嗎?

GH:你有相對簡單的處理元素,它們是非常松散的神經(jīng)元模型。這些模型之間有連接,每個連接都有權(quán)值,并且可以通過學(xué)習(xí)改變權(quán)值。神經(jīng)元所做的是,將連接上的活動乘以權(quán)值,再把它們?nèi)考悠饋?,然后決定是否發(fā)送輸出。如果它得到一個足夠大的和,就會發(fā)送一個輸出;如果總和為負(fù)數(shù),則不會發(fā)送任何內(nèi)容。僅此而已。你所要做的就是把成千上萬的神經(jīng)元和成千上萬的權(quán)值的平方連接起來,然后算出如何改變權(quán)值,它就能做任何事情。這只是一個你如何改變權(quán)值的問題。

NT:你是什么時候意識到這種模式與大腦運作方式相近的?

GH:神經(jīng)網(wǎng)絡(luò)總是這樣設(shè)計出來的,被設(shè)計成像大腦那樣去工作。

NT:意思就是,在你職業(yè)生涯的某個階段,你開始去了解大腦的工作方式?;蛟S是在你12歲的時候,也或許是在你25歲的時候。所以,你究竟是什么時候決定要模仿大腦來制作電腦模型的?

GH:基本是在了解大腦原理后。具體想法是:通過改變連接的字符串(就像人們認(rèn)為的大腦學(xué)習(xí)方式那樣),來制造一個像大腦那樣學(xué)習(xí)的學(xué)習(xí)設(shè)備。這個主意也不是我的首創(chuàng),圖靈也有同樣的想法。圖靈,盡管他奠定了很多標(biāo)準(zhǔn)計算機科學(xué)的基礎(chǔ),他也相信大腦是一個有著隨機權(quán)值的無組織的“裝置”,它會使用強化學(xué)習(xí)來改變連接,最終學(xué)習(xí)一切。他還認(rèn)為這是獲得情報的最佳途徑。

NT:所以你遵循圖靈的想法——制造機器最好的方法就是模仿人類的大腦。腦子里想著:這就是人腦的工作原理,因此讓我們造一個這樣的機器吧。

GH:是的,這不僅僅是圖靈的想法,很多人都這么認(rèn)為。

NT:最黑暗的時刻是什么時候?還有,什么時候那些同樣贊成圖靈想法、一直在工作的人退縮時,但你卻仍然繼續(xù)前進(jìn)?

GH:總有一群人始終相信它,尤其是在心理學(xué)領(lǐng)域。但是對于計算機科學(xué)家,90年代時得到的數(shù)據(jù)集非常小,計算機運行也沒有那么快。在小數(shù)據(jù)集方面,其他的方法比如支持向量機,工作得更好。

在80年代我們就發(fā)展了反向傳播,原本以為它能解決所有問題,結(jié)果卻不行,我們疑惑為什么行不通?,F(xiàn)在知道其實是數(shù)據(jù)規(guī)模導(dǎo)致其不能解決所有問題,當(dāng)時我們都沒有意識到。

NT:那你當(dāng)時認(rèn)為為什么行不通呢?

GH:我們認(rèn)為這行不通,是因為我們沒有完全正確的算法和完全正確的目標(biāo)函數(shù)。很長一段時間以來,我一直認(rèn)為這是因為我們一直在做監(jiān)督學(xué)習(xí),你必須給數(shù)據(jù)貼上標(biāo)簽。其實我們應(yīng)該做的是無監(jiān)督學(xué)習(xí),就是從沒有標(biāo)簽的數(shù)據(jù)中學(xué)習(xí)。

NT:有意思。所以問題是你沒有足夠的數(shù)據(jù),而你當(dāng)時卻以為自己擁有適量的數(shù)據(jù),但未被正確標(biāo)記。因此你只是誤解了這個問題?

GH:我認(rèn)為僅僅使用標(biāo)簽是一個錯誤。大部分學(xué)習(xí)過程都沒有使用任何標(biāo)簽,只是嘗試在數(shù)據(jù)中對結(jié)構(gòu)建模。我相信這一點。我也認(rèn)為隨著計算機變得越來越快,對于任何給定大小的數(shù)據(jù)集,只要計算機足夠快,都最好做無監(jiān)督學(xué)習(xí)。一旦你完成了無監(jiān)督學(xué)習(xí),你就能從更少的標(biāo)簽中進(jìn)行學(xué)習(xí)。

NT:所以在20世紀(jì)90年代,你仍然繼續(xù)身處學(xué)術(shù)界進(jìn)行這個研究,也依舊發(fā)表論文,但沒有解決什么大的問題。你有沒有說過,我覺得研究夠了,要去試試別的方向?還是你只是堅持要繼續(xù)研究深度學(xué)習(xí)?

GH:是的,我一直在堅持這樣的研究一定有用。我的意思是,大腦中的連接正在以某種方式完成學(xué)習(xí)過程,我們必須弄清它??赡苡泻芏嗖煌姆椒▉韺W(xué)習(xí)連接的強度,大腦正在使用其中一個。當(dāng)然,你也必須擁有可以學(xué)習(xí)這些連接強度的東西。我從來沒有懷疑過這一點。

NT:因此你永遠(yuǎn)不會懷疑。那么,什么時候研究開始可行的?

GH:80年代最令人沮喪的一件事是,如果你建立的網(wǎng)絡(luò)有很多隱藏層,你就無法訓(xùn)練它們。這也不完全正確,因為你可以訓(xùn)練一些相當(dāng)簡單的任務(wù),比如識別筆跡。但是大多數(shù)深層神經(jīng)網(wǎng)絡(luò),我們是不知道如何訓(xùn)練它們的。大約在2005年,我想出了一種無人監(jiān)督的深網(wǎng)訓(xùn)練方法。你獲取到輸入,比如說像素,然后你會得到一堆特征,它們很好地解釋為什么像素是這樣的。接著你把這些特征當(dāng)做數(shù)據(jù),又學(xué)習(xí)到另一組特征,所以我們可以解釋為什么這些特征有相關(guān)性。你不斷地進(jìn)行一層又一層學(xué)習(xí),但有趣的是,你可以通過一些數(shù)學(xué)運算,來證明每次你學(xué)習(xí)另外一層,你不一定有一個更好的數(shù)據(jù)模型,但你有一個關(guān)于你的模型有多好的波段。這樣每次添加另一層時,你都可以獲得更好的波段。

NT:這是什么意思,你有一個關(guān)于你的模型有多好的波段?

GH:一旦有了一個模型,你說,“模型找到這些數(shù)據(jù)有多令人奇怪?”你向它展示了一些數(shù)據(jù)然后說:“這是你相信的那種東西嗎,還是說這令人驚訝?”而你想要做的是擁有一個模型,一個好的模型是看著數(shù)據(jù)說,“是的,是的,我知道。這是不足為奇?!?/p>

通常很難準(zhǔn)確計算出這個模型發(fā)現(xiàn)數(shù)據(jù)的驚人程度。但是你可以在上面計算一個波段,然后得出結(jié)論說這個模型發(fā)現(xiàn)的數(shù)據(jù)沒有那個模型那么令人驚訝。你還可以展示,當(dāng)添加了額外的特征探測器層時,得到一個模型能使得你每次添加一個層,波段就會發(fā)現(xiàn)數(shù)據(jù)變得更好。

NT:大約在2005年,你取得了這個數(shù)學(xué)上的突破。那么你又是什么時候開始得到正確答案的?當(dāng)時你在處理什么數(shù)據(jù)?你在處理什么數(shù)據(jù)?語音數(shù)據(jù)是你的第一個突破,對吧?

GH:這只是手寫的數(shù)字,非常簡單。而之后大約在同一時間,他們開始開發(fā)GPU(圖形處理單元)。大約在2007年,做神經(jīng)網(wǎng)絡(luò)的人們開始使用GPU。我有一個非常優(yōu)秀的學(xué)生,也開始使用GPU來尋找航拍圖像中的道路。他寫了一些代碼,然后被其他學(xué)生用來使用GPU去識別語音中的音素,當(dāng)時他們正在使用預(yù)訓(xùn)練的想法。在他們完成所有這些預(yù)訓(xùn)練之后,只要把標(biāo)簽貼在上面然后使用反向傳播,你就可以有一個經(jīng)過預(yù)訓(xùn)練的非常深的網(wǎng)。然后你可以繼續(xù)使用反向傳播,它確實有效。它在某種程度上超過了語音識別的基準(zhǔn)。

NT:它擊敗了最好的商業(yè)語音識別?也擊敗了語音識別方面最好的學(xué)術(shù)工作?

GH:在一個名為TIMIT的相對較小的數(shù)據(jù)集上,它的表現(xiàn)略好于最好的學(xué)術(shù)作品。還在IBM完成了工作,并且相當(dāng)迅速。很快,人們就意識到這個東西——因為它打敗了花了30年時間開發(fā)的標(biāo)準(zhǔn)模型——如果再多開發(fā)一點就會做得很好。所以我的研究生們?nèi)チ宋④?,IBM和谷歌,谷歌是最快把它變成生產(chǎn)語音識別器的。到2012年,這項2009年首次完成的工作,在Android上出現(xiàn)了。而后Android在語音識別方面突然變得更加擅長。

NT:自從40年前開始產(chǎn)生這個想法的那一刻,你已經(jīng)研究了20年,現(xiàn)在你終于比你的同事出色了。這種感覺怎么樣?

GH:我只有30年的想法!

NT:是的,是的!所以只是一個新想法。新的!

GH:我感覺很好,它終于找到了真正的問題所在。

NT:你還記得第一次得到啟示性的數(shù)據(jù)時,你在哪里嗎?

GH:不記得了。

NT:好的。所以你意識到它適用于語音識別。那又是從什么時候開始將它應(yīng)用于其他問題?

GH:就在那之后我們開始把它應(yīng)用到其他各種問題上。George Dahl是最早從事語音識別研究的人之一,他將其應(yīng)用于預(yù)測一種分子是否會與某種物質(zhì)結(jié)合,并成為一種良好的藥物。還有這么有一場比賽,他只把我們設(shè)計的語音識別標(biāo)準(zhǔn)技術(shù)應(yīng)用到預(yù)測藥物的活性上,就贏得了比賽。表明了這些東西的運用范圍是相當(dāng)普遍的。然后我的一個學(xué)生說,“Geoff,你知道么,這個東西將用于圖像識別,李菲菲已經(jīng)為它創(chuàng)建了正確的數(shù)據(jù)集。還有一個公開的競爭,我們也必須這么做?!?/p>

當(dāng)時是2012年,我們得到的結(jié)果比標(biāo)準(zhǔn)的計算機視覺要好得多。

NT:那么,是什么區(qū)分了哪些區(qū)域工作最快,哪些區(qū)域需要更多間?似乎視覺處理、語音識別,這樣類似于用感官知覺來處理的人類核心活動被認(rèn)為是首先需要清除的障礙,對嗎?

GH:是也不是,因為還有一些比如運動控制這樣的其他領(lǐng)域。我們?nèi)祟惙浅I瞄L運動控制,我們的大腦顯然就是為此而設(shè)計的。而直到現(xiàn)在,神經(jīng)網(wǎng)絡(luò)才開始與其他最好的技術(shù)競爭。神經(jīng)網(wǎng)絡(luò)技術(shù)最終會贏,但現(xiàn)在才剛剛開始贏。

另外,我認(rèn)為推理——抽象推理,這是我們要學(xué)習(xí)做的最后一件事,我也認(rèn)為這將是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)做的最后一件事。

NT:所以你一直說神經(jīng)網(wǎng)絡(luò)最終會贏得一切。

GH:嗯,我們都是神經(jīng)網(wǎng)絡(luò)。他們可以做任何我們能夠做的事情。

NT:是的,但是人腦并不一定是有史以來最有效的計算機器。

GH:當(dāng)然不是了。

NT:當(dāng)然不是我這人類的腦袋!難道不存在一種比人腦更有效的機器建模方法嗎?

GH:從哲學(xué)的角度來說,我并不反對這樣的想法,即可能有一些完全不同的方式來做出(人類能夠做到的)這一切。比如它可以是這樣的。如果從邏輯開始,你試圖將邏輯自動化,然后再做一些看起來很酷炫的定理證明,再做些推理,然后你決定通過推理來做視覺感知——可能最后成功方法就是這個。事實證明它沒有。但我對這一事實沒有哲學(xué)上的反對意見。只是我們知道大腦可以做到這一點。

NT:但也有一些事情我們的大腦做不好。對于這些事情而言,神經(jīng)網(wǎng)絡(luò)會不會也沒有什么辦法將其做好呢?

GH:很可能(做不好),是的。

NT:我這還有個相對獨立的問題:我們并不完全知道它們到底是如何運作的,對吧?

GH:不,我們確實不知道它們?nèi)绾芜\作。

NT:我們不了解自上而下的神經(jīng)網(wǎng)絡(luò)是如何工作的。這是我們不理解神經(jīng)網(wǎng)絡(luò)運作方式的一個核心要素。麻煩您解釋一下這個問題,然后讓我再問一下這個顯而易見的跟進(jìn)問題:如果我們不知道這些東西是如何工作的,那它們怎么能起作用呢?

GH:如果你看一下目前的計算機視覺系統(tǒng),其中大部分基本上是前饋;他們不使用反饋連接。當(dāng)前的計算機視覺系統(tǒng)還有一個問題——它們很容易出現(xiàn)對抗性錯誤。你可以稍微改變一張熊貓照片上的幾個像素——現(xiàn)在照片看起來仍然像只熊貓,但系統(tǒng)會突然改口說這其實是一只鴕鳥。顯然,你改變像素的方式是經(jīng)過精心設(shè)計的,從而欺騙它認(rèn)為照片是一只鴕鳥。但重點是,照片對你來說仍然像一只熊貓。

最初我們認(rèn)為這些算法非常有效。但是,當(dāng)我們不得不面對這樣一個事實,即他們明明面對著一只熊貓但確信這其實是一只鴕鳥時,你會有點擔(dān)心。我認(rèn)為這個問題一部分是由于,這些算法不是試圖從概括性表征中重建圖像,而是試圖進(jìn)行歧視性學(xué)習(xí)。在那里你只學(xué)習(xí)特征探測器的層次,而目標(biāo)函數(shù)只是關(guān)于改變權(quán)重以便你更好地得到正確的答案。

最近在多倫多,我們一直在發(fā)現(xiàn),或者Nick Frost一直在發(fā)現(xiàn),如果你引入重建,那么它可以幫助你更好地解決對抗性攻擊這一問題。所以我認(rèn)為在人類的視覺中,我們使用重建來進(jìn)行學(xué)習(xí)。并且,因為我們通過重建來進(jìn)行大量學(xué)習(xí),我們更不易于被對抗性攻擊蒙蔽雙眼。

NT:你相信神經(jīng)網(wǎng)絡(luò)中的自上而下的信息傳導(dǎo)旨在幫助你測試如何進(jìn)行重建。你如何測試并確定它是熊貓而不是鴕鳥?

GH:我認(rèn)為這至關(guān)重要,是的。

NT:但是腦科學(xué)家并不是很贊同這一觀點是嗎?

GH:腦科學(xué)家們都同意這一表述——如果你在感知途徑中有兩個皮質(zhì)區(qū)域,那么一定會有向后的連接。這些科學(xué)家們在其用途上懷有不同的觀點。有人認(rèn)為這可能是為了關(guān)注,可能是為了學(xué)習(xí),也可能是為了重建?;蛘咚赡馨ㄋ羞@些可能性。

NT:所以我們并不知道向后溝通是什么。您正在將重構(gòu)組合進(jìn)您構(gòu)建的神經(jīng)網(wǎng)絡(luò)(或向后溝通)中,即使我們不能夠確定那就是大腦的運作方式?

GH:是的。

NT:這不是作弊嗎?我的意思是,你是想做一個與大腦一樣的東西,但你目前壓根不知道大腦是如何運作的。

GH:并不是。我不是在做計算神經(jīng)科學(xué)。我也不是想模擬大腦的運作方式。我其實是被大腦激發(fā)靈感,說“這玩意能用,如果我們想做些什么類似有效的東西,我們應(yīng)該從這里來找靈感。“。

所以這是”神經(jīng)啟發(fā)“,而不是神經(jīng)模型。整個模型,包括我們使用的神經(jīng)元,都是受到神經(jīng)元有很多層聯(lián)系并且此聯(lián)系的強度能夠被改變這一事實的啟發(fā)。

NT:這很有趣。那么如果我從事計算機科學(xué),而且我正在研究神經(jīng)網(wǎng)絡(luò)并想要擊敗你,那么一種選擇就是建立自上而下的溝通機制,并將其建立在其他腦科學(xué)模型上。所以是基于學(xué)習(xí)而不是重建。

GH:如果他們確實是更好的模型那么你就贏了。就這樣。

NT:那真是非常有趣。讓我們轉(zhuǎn)到更一般的話題吧。這么說來,神經(jīng)網(wǎng)絡(luò)將能夠解決各種問題。那么有沒有神經(jīng)網(wǎng)絡(luò)無法捕獲的人類大腦的奧秘?例如,情緒......

GH:不。

NT:那么愛可以通過神經(jīng)網(wǎng)絡(luò)重建嗎?意識可以重建嗎?

GH:當(dāng)然。一旦你弄明白這些東西意味著什么。我們是神經(jīng)網(wǎng)絡(luò),對吧?意識是我特別感興趣的東西。沒有它我還是能活下來,但......人們并不真正知道它們的含義。有各種不同的定義。我認(rèn)為這是一個非??茖W(xué)的術(shù)語。100年前,如果你問人們什么是生活,他們會說,“生物有生命力,當(dāng)它們死亡時,生命力消失了。這就是活著和死亡之間的區(qū)別,即你是否具有生命力。

“現(xiàn)在我們不再有生命力這一表述了,我們只是認(rèn)為這是一個科學(xué)發(fā)展前的偽概念。一旦你學(xué)習(xí)一些生物化學(xué)和分子生物學(xué),你就不再需要生命力這一解釋了,你將能夠理解它是如何運作的。我認(rèn)為這與意識相同。我認(rèn)為意識是一種用某種特殊本質(zhì)來解釋心理現(xiàn)象的嘗試。

而這個特殊的本質(zhì),你其實并不需要它。一旦你能夠真正解釋它,那么你將能夠解釋我們?nèi)绾巫龀瞿切┳屓藗冋J(rèn)為我們具有意識的行為,你也將能夠解釋所有這些不同的意識含義——完全不需要借助于什么‘意識’這一概念。

NT:所以沒有無法創(chuàng)造的情感?無法創(chuàng)造的思想?一旦我們真正理解了大腦是如何工作的,那么在理論上,人腦所有的功能都能夠被一個完整構(gòu)造的神經(jīng)網(wǎng)絡(luò)所執(zhí)行?

GH:約翰列儂有一首歌,聽起來很像你剛才所說的情況。

NT:你對此有100%的信心嗎?

GH:不,我是貝葉斯派,所以我有99.9%的自信心。

NT:好的,那0.1是什么?

GH:那是說,比如,我們所有人、所有這些都是一個龐大模擬的一部分。

NT:那倒是不假。那么我們從計算機工作中學(xué)到了什么呢?

GH:所以我認(rèn)為我們在過去十年中所學(xué)到的是,如果你采用一個具有數(shù)十億個參數(shù)的系統(tǒng),以及一個目標(biāo)函數(shù)——就像用文字填補空白一樣——它將能夠比你預(yù)期的更加完美地運行。您可能會想到(傳統(tǒng)AI學(xué)派中的大多數(shù)人也都會這么想),采用具有十億個參數(shù)的系統(tǒng),用隨機值啟動它們,測量目標(biāo)函數(shù)的梯度(即對于每個參數(shù),如果你稍微改變一下這個參數(shù),看目標(biāo)函數(shù)將如何變化)——然后在改善目標(biāo)函數(shù)的方向上改變它。

你可能會覺得這將是一種陷入困境的無望算法。但事實證明,這是一個非常好的算法。你越將其規(guī)模擴大,它就越好。這真的只是一個實踐上的發(fā)現(xiàn)。確實有一些相關(guān)理論出現(xiàn),但它基本上算是一個實踐發(fā)現(xiàn)?,F(xiàn)在,因為我們已經(jīng)發(fā)現(xiàn)了這一點,它使得”大腦計算某些目標(biāo)函數(shù)的梯度,并更新突觸強度的權(quán)重以遵循該梯度“這一猜想更加合理。我們只需弄清楚它如何進(jìn)行降級,以及目標(biāo)函數(shù)是什么。

NT:但我們當(dāng)時對大腦并不了解吧?我們并不了解重新加權(quán)?

GH:這曾是一個理論。很久以前,人們認(rèn)為這是一種可能性。但總會有一些傳統(tǒng)的計算機科學(xué)家說:“這一切都是隨機的,你只需通過梯度下降來學(xué)習(xí)它——這對于十億個參數(shù)來說永遠(yuǎn)不會有用。你必須掌握很多知識?!拔覀儸F(xiàn)在知道這是錯的;你可以隨便輸入起始參數(shù),并學(xué)習(xí)一切。

NT:所以讓我們把它擴展一下。當(dāng)我們在模型上運行這些大規(guī)模測試時,根據(jù)我們對人類大腦功能的理解,我們可能會繼續(xù)越來越多地了解大腦實際上是如何運作的。你認(rèn)為這會最終導(dǎo)致這樣一種情形嗎——我們將人類大腦重新連接成更高效的機器?

GH:如果我們真的了解現(xiàn)狀,我們應(yīng)該能夠讓教育工作變得更好。我覺得我們會的。如果你最終能夠了解你的大腦中發(fā)生了什么并且它如何進(jìn)行學(xué)習(xí),但你卻無法為更好進(jìn)行學(xué)習(xí)而適應(yīng)環(huán)境,那真的是非常奇怪。

NT:未來幾年內(nèi),您認(rèn)為我們將如何利用我們對大腦的了解以及深度學(xué)習(xí)改變教育的運作方式?您會怎么改變教學(xué)課程?

GH:幾年后,我不確定我們會學(xué)到多少東西。我認(rèn)為改變教育的時間會被拖長。但是你可以看到現(xiàn)在的(機器人)助手正在變得越來越聰明。一旦它們能夠真正理解對話,就可以與孩子進(jìn)行對話并對他們進(jìn)行教育。

NT:理論上,當(dāng)我們更好地理解大腦時,你會根據(jù)我們知道他們將要學(xué)習(xí)的方式,讓助手們與孩子們進(jìn)行更好的對話。

GH:是的,我對此并沒有太多考慮。這不是我的研究內(nèi)容,但聽起來確實很可信。

NT:我們將能夠理解夢是如何運作的嗎?

GH:是的,我對夢超級感興趣。我至少有四種不同的做夢理論哦。

NT:讓我們聽一聽唄,一,二,三,四。

GH:很久以前,有一些叫做Hopfield網(wǎng)絡(luò)的東西,它們把記憶當(dāng)做本地吸引子來學(xué)習(xí)。Hopfield發(fā)現(xiàn),如果你試圖把太多的記憶放進(jìn)去,它們就會感到困惑。它們會把兩個本地吸引子同時考慮進(jìn)來并將其合并為二者之間的某種吸引子。

然后,F(xiàn)rancis Crick 和Graeme Mitchison發(fā)現(xiàn),我們可以通過”忘卻“來擺脫這些假極小值。因此我們關(guān)閉輸入,將神經(jīng)網(wǎng)絡(luò)置于隨機狀態(tài),然后讓它穩(wěn)定下來。我們覺得這很糟糕,改變連接,這樣你就不會一直穩(wěn)定于那個狀態(tài)。如果你這么做了的話,網(wǎng)絡(luò)就能夠存儲更多的記憶了。

然后我和Terry Sejnowski反應(yīng)過來:如果我們不僅有幫助儲存記憶的神經(jīng)元(姑且稱之為名花有主的神經(jīng)元),我們還有一些其他富余的神經(jīng)元(姑且稱之為形同單身的神經(jīng)元),我們是否能夠找到一種算法,能讓這些富余的神經(jīng)元也來協(xié)助存儲記憶?

最后,我們想出了Boltzmann機器學(xué)習(xí)算法,它有著非常有趣的屬性:輸入數(shù)據(jù),它在其他節(jié)點周圍搖搖晃晃,玩到開心為止。一旦完成,它會基于兩個單元節(jié)點是否處于激活(active)狀態(tài)來增加所有連接的強度。

你還必須歷經(jīng)一個階段:切斷神經(jīng)元的輸入,你讓它四處游蕩并進(jìn)入一個它滿意的狀態(tài),當(dāng)它玩爽了,你說:“把所有的活躍分子(激活的神經(jīng)元)逮出來不讓它們坐一塊(減弱連接強度)”。

所以這里我這里在介紹玻爾茲曼算法的步驟。但實際上,這個算法背后有著深厚的數(shù)學(xué)背景,你在處理的問題,無非是如何改變連接關(guān)系,使得有著這些隱藏單元(hidden unit)的神經(jīng)網(wǎng)絡(luò)能夠清楚地復(fù)現(xiàn)數(shù)據(jù)。同時,這個算法中,必須還有另一個階段,我們稱之為負(fù)面階段。在網(wǎng)絡(luò)沒有輸入的情況下運行時,它會“忘記”之前所有的狀態(tài)。

我們每晚都要做好幾個小時的夢。如果我隨機叫醒你,你可以告訴我你剛剛夢到了什么,因為夢的信息都儲存在你的短時記憶力。沒錯,你做了好幾個小時的夢。

但是當(dāng)你早上醒來時,你經(jīng)常只能回憶起一串夢中的最后一夢,別的都想不起來了——這是件多么幸運的事情啊,因為夢的記憶越多,現(xiàn)實的記憶也會越少,你會無法分辨一段模糊的記憶究竟是真實發(fā)生的,還是夢里浮現(xiàn)的。那么,為什么我們不能夠記得我們夢里發(fā)生的所有事情呢?Crick的觀點是,夢的全部意義在于忘掉那些事情,這就如同你把所有學(xué)過的東西都還給老師了。

而Terry Sejnowski和我證明,實際上,這便是Boltzmann機器的最大似然的(maximum-likelihood)學(xué)習(xí)邏輯。這和做夢一樣。

NT:我想談?wù)勀愕钠渌碚?。但是你在設(shè)計深度學(xué)習(xí)算法時,真的基于了夢的模式嗎?研究圖像數(shù)據(jù)集一段時間,重置,再次研究,再重置。

GH:是的,我們有些類似的機器學(xué)習(xí)算法。最早一些可以學(xué)習(xí)如何處理隱藏單元的算法都是基于Boltzmann機,但是它們效率很低。不過,我發(fā)現(xiàn)了一種對它們進(jìn)行近似的方法,提高了它們的效率。這個方法才是把深度學(xué)習(xí)救回正軌的東西。那個方法就是限制性Boltzmann機的有效表述形式,它所做的,就是忘記學(xué)習(xí)過的一切。但是,這個神經(jīng)網(wǎng)絡(luò)不是真的在全程睡覺劃水,它只是在運算完每個數(shù)據(jù)點之后,小小地走神一下。

NT:好的吧,所以這些機器人會做夢,夢里還在數(shù)山羊。我們接著來看看第二,第三和第四條理論吧。

GH:第二理論被稱為睡眠喚醒算法(Wake Sleep Algorithm)。你的目的,是得到一個生成模型。所以你會想到,你想擁有一個可以生成數(shù)據(jù)的模型,這個網(wǎng)絡(luò)模型里有著多層的特征檢測器,并能夠從高到低激活從高級到低級的特征,直到它直接激活了像素數(shù)據(jù)(輸入數(shù)據(jù))——像素數(shù)據(jù)就是圖片的基本表述方式。你也當(dāng)然想反向開車,你想做圖像識別。

因此,你就有了一個由兩個階段組成的算法。在喚醒階段,數(shù)據(jù)輸入,神經(jīng)網(wǎng)絡(luò)做圖像識別,不是學(xué)習(xí)用于識別的連接,而是學(xué)習(xí)生成連接。 所以數(shù)據(jù)進(jìn)來,我激活了隱藏單位。

然后我學(xué)會讓那些隱藏的單位善于重構(gòu)那些數(shù)據(jù),因此它正在學(xué)習(xí)在每一層進(jìn)行重構(gòu)。問題在于,你如何學(xué)習(xí)前向連接?我的想法是,如果你知道前向連接,你可以學(xué)習(xí)后向連接,因為你可以學(xué)習(xí)重建。

現(xiàn)在,事實證明,如果使用后向連接,你可以學(xué)習(xí)前向連接,因為你可以從頂部開始生成一些數(shù)據(jù)。由于你生成了數(shù)據(jù),你知道了所有隱藏層的激活狀態(tài),因此您可以學(xué)習(xí)前向連接來恢復(fù)這些狀態(tài)——這就是睡眠階段。當(dāng)你停止輸入時,你只需生成數(shù)據(jù),然后嘗試重建生成數(shù)據(jù)的隱藏單位。因此,如果你了解了自上而下的連接,你也將學(xué)習(xí)自下而上的連接。

如果你知道自下而上的那些連接,你會學(xué)到自上而下的連接。(譯者:個人理解,假想模型神經(jīng)網(wǎng)絡(luò)前向傳播是一套權(quán)值,反向傳播是另外一套權(quán)值,其一可知其二。)那么,如果你從隨機的連接開始,并嘗試交替使用兩者,會發(fā)生什么呢?嘿,居然真的還能用。當(dāng)然,為了更好的效果,你必須做各種調(diào)整,但是交替使用確實能用。

NT:好的吧,那你準(zhǔn)備介紹一下另外2個理論嗎?我們還有8分鐘,是不是也許我們先問其他的問題?

GH:如果你再給我一個小時,我就能把另外2個家伙搞出來。

NT:好的吧,那我們還是來談?wù)勏乱粋€話題吧。你接下來的研究是什么?你現(xiàn)在準(zhǔn)備解決什么問題?

GH:你最終想做的,還是那些你沒有完成的事情。我認(rèn)為我可能會研究我從未完成的事情,我稱之為膠囊網(wǎng)絡(luò),它是關(guān)于如何使用重構(gòu)進(jìn)行視覺感知的理論,以及如何將信息規(guī)劃到正確的位置。在標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)中,信息,網(wǎng)絡(luò)層的活性,只是自動地存儲;你不能決定將它們發(fā)送到哪里。膠囊網(wǎng)絡(luò)的理念是決定在哪里發(fā)送信息。

現(xiàn)在,自從我開始研究膠囊網(wǎng)絡(luò)以來,谷歌的其他一些非常聰明的人發(fā)明了transformer,transformer正在做和膠囊網(wǎng)絡(luò)同樣的事情。transformer決定在哪里路由信息,這是一個巨大的突破。

推動膠囊網(wǎng)絡(luò)發(fā)展的另一動力是坐標(biāo)系。當(dāng)人類使用視覺時,他們是在使用坐標(biāo)系的。如果它們在對象上使用了錯誤的坐標(biāo)系,那么他們甚至無法識別該對象。給你舉一個小栗子:想象一個四面體;它有一個三角形底座和三個三角形面,所有等邊三角形。容易想象,對嗎?現(xiàn)在想象一下用一個平面把它切開——你看到了一個正方形截面。

這就不容易想到這個對象其實是個四面體了吧,對吧?每次切片時,你通常都會得到一個三角形的截面。如何獲得一個正方形的截面,并不好想。不,可能這一點都不好想。好的,但我會幫你得到這個詭異的形狀。我需要你的筆。想象一下,如果你拿這樣的筆,你會得到這樣的形狀,另一支像這樣的直角筆,你將這支筆上的所有點連接到這支筆上的所有點。那是一個堅實的四面體。

好的,你看到它其實是另外一套坐標(biāo)系,四面體的邊緣,這兩條線和坐標(biāo)系的標(biāo)線重合。如果你用那一套坐標(biāo)系想象一個四面體,很明顯,這樣,在頂部你有一個長方形,在底部我們也得到一個長方形,中間有一個正方形。所以現(xiàn)在很清楚了,你如何切割它能夠得到一個正方形的截面,前提是你參考的是什么坐標(biāo)系。

因此很明顯,對于人類而言,坐標(biāo)框架對于感知非常重要。

NT:但是你是如何在你的模型中加入?yún)⒖枷敌畔⒌哪兀课业囊馑际牵闶侨绾胃恼四阍?990年代犯的錯誤:嘗試把規(guī)則帶入系統(tǒng)中卻使之與系統(tǒng)非監(jiān)督學(xué)習(xí)的本質(zhì)產(chǎn)生矛盾?

GH:你對這個錯誤的總結(jié)非常到位。我太固執(zhí)了以致于這變成了一個大錯誤,我現(xiàn)在就想彌補一點過失。這有點像尼克松總統(tǒng)當(dāng)年與中國談判一樣。實際上,我在這個事情上,發(fā)揮了不好的作用。

NT:所以你現(xiàn)在的工作主要是針對于視覺識別,還是可以看做提高當(dāng)前坐標(biāo)系規(guī)則的研究?

GH:這個技術(shù)當(dāng)然能用在其他領(lǐng)域里,但是我的興趣主要在于怎么把它用在視覺識別上。

NT:深度學(xué)習(xí)曾經(jīng)是一個獨特的東西,我的意思是,深度學(xué)習(xí)是深度學(xué)習(xí),人工智能是人工智能(AI)?,F(xiàn)在,深度學(xué)習(xí)變成了AI的同義詞,同時現(xiàn)在AI變成了熱門的營銷術(shù)語,基本上意味著以某些方式驅(qū)動機器。作為幫助創(chuàng)建這一術(shù)語的人,您是如何看待這個現(xiàn)象的?

GH:曾幾何時,人工智能,意味著邏輯主義/符號主義,研究人員用計算機的符號字符串模擬人類的認(rèn)知。還有神經(jīng)網(wǎng)絡(luò),就意味著你在使用神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。不同的企業(yè),不同的學(xué)派,百家爭鳴,大放異彩。這就是我當(dāng)年成長的環(huán)境。而現(xiàn)在我看到好多人一邊常年一直在說神經(jīng)網(wǎng)絡(luò)就是廢物,一邊又在說“我是人工智能專業(yè)的教授,我需要錢”。這就很煩人。

NT:嗯,我還有時間,就再問一個問題。在一次采訪中,談到人工智能,你說,好吧,把它想象成一個反鏟——一個可以挖坑的機器,用的不好就會傷到自己。解決問題的關(guān)鍵是,當(dāng)你準(zhǔn)備使用反鏟作業(yè)時,要好好看著準(zhǔn)備挖坑的鏟子和自己的一畝三分地,不要讓鏟子碰了腦袋。 對于你的工作而言,你做出的什么選擇和這個例子很接近?

GH:我猜我永遠(yuǎn)不會主動應(yīng)用人工智能技術(shù)制造武器。我的意思是,你的確可以設(shè)計出功于殺戮的反鏟。但是我覺得這一定是反鏟最差勁的應(yīng)用了,我永遠(yuǎn)不會干這事的。

NT:好的,Geoffrey Hinton。這真是一場令人印象深刻的訪談。滿滿的都是干貨。我們“明年”還會回來的——帶著第三和第四的“做夢”理論。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:Geoffrey Hinton專訪:如何解釋神經(jīng)網(wǎng)絡(luò)的變遷

文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    在如今的網(wǎng)絡(luò)時代,錯綜復(fù)雜的大數(shù)據(jù)和網(wǎng)絡(luò)環(huán)境,讓傳統(tǒng)信息處理理論、人工智能與人工神經(jīng)網(wǎng)絡(luò)都面臨巨大的挑戰(zhàn)。近些年,深度學(xué)習(xí)逐漸走進(jìn)人們的視線
    的頭像 發(fā)表于 01-11 10:51 ?2022次閱讀
    詳解<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>、<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>與卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的應(yīng)用

    【專輯精選】人工智能之神經(jīng)網(wǎng)絡(luò)教程與資料

    電子發(fā)燒友總結(jié)了以“神經(jīng)網(wǎng)絡(luò)”為主題的精選干貨,今后每天一個主題為一期,希望對各位有所幫助?。c擊標(biāo)題即可進(jìn)入頁面下載相關(guān)資料)人工神經(jīng)網(wǎng)絡(luò)算法的學(xué)習(xí)方法與應(yīng)用實例(pdf彩版)卷積
    發(fā)表于 05-07 19:18

    神經(jīng)網(wǎng)絡(luò)資料

    基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法
    發(fā)表于 05-16 17:25

    基于賽靈思FPGA的卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)設(shè)計

    作者:Nagesh Gupta 創(chuàng)始人兼 CEOAuviz Systems Nagesh@auvizsystems.com憑借出色的性能和功耗指標(biāo),賽靈思 FPGA 成為設(shè)計人員構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 06-19 07:24

    卷積神經(jīng)網(wǎng)絡(luò)深度卷積網(wǎng)絡(luò):實例探究及學(xué)習(xí)總結(jié)

    深度學(xué)習(xí)工程師-吳恩達(dá)》03卷積神經(jīng)網(wǎng)絡(luò)深度卷積網(wǎng)絡(luò):實例探究 學(xué)習(xí)總結(jié)
    發(fā)表于 05-22 17:15

    解析深度學(xué)習(xí):卷積神經(jīng)網(wǎng)絡(luò)原理與視覺實踐

    解析深度學(xué)習(xí):卷積神經(jīng)網(wǎng)絡(luò)原理與視覺實踐
    發(fā)表于 06-14 22:21

    深度神經(jīng)網(wǎng)絡(luò)是什么

    多層感知機 深度神經(jīng)網(wǎng)絡(luò)in collaboration with Hsu Chung Chuan, Lin Min Htoo, and Quah Jia Yong. 與許忠傳,林敏濤和華佳勇合作
    發(fā)表于 07-12 06:35

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用轉(zhuǎn)載****地址:http://fcst.ceaj.org/CN/abstract/abstract2521.shtml深度學(xué)習(xí)是機器學(xué)習(xí)和人工智能研究的最新
    發(fā)表于 08-02 10:39

    神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)》講義

    神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)》講義
    發(fā)表于 07-20 08:58 ?0次下載

    快速了解神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的教程資料免費下載

    本文檔的詳細(xì)介紹的是快速了解神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的教程資料免費下載主要內(nèi)容包括:機器學(xué)習(xí)概述,線
    發(fā)表于 02-11 08:00 ?33次下載
    快速了解<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>與<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的教程<b class='flag-5'>資料</b>免費下載

    綜述深度神經(jīng)網(wǎng)絡(luò)解釋方法及發(fā)展趨勢

    深度神經(jīng)網(wǎng)絡(luò)具有非線性非凸、多層隱藏結(jié)構(gòu)、特征矢量化、海量模型參數(shù)等特點,但弱解釋性是限制其理論發(fā)展和實際應(yīng)用的巨大障礙,因此,深度神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 03-21 09:48 ?19次下載
    綜述<b class='flag-5'>深度</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的<b class='flag-5'>解釋</b>方法及發(fā)展趨勢

    3小時學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)課件下載

    3小時學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)課件下載
    發(fā)表于 04-19 09:36 ?0次下載
    3小時<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>與<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>課件下載

    什么是神經(jīng)網(wǎng)絡(luò)?什么是卷積神經(jīng)網(wǎng)絡(luò)?

    在介紹卷積神經(jīng)網(wǎng)絡(luò)之前,我們先回顧一下神經(jīng)網(wǎng)絡(luò)的基本知識。就目前而言,神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)算法的核心,我們所熟知的很多
    的頭像 發(fā)表于 02-23 09:14 ?3489次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的工作原理 卷積神經(jīng)網(wǎng)絡(luò)通俗解釋

    卷積神經(jīng)網(wǎng)絡(luò)的工作原理 卷積神經(jīng)網(wǎng)絡(luò)通俗解釋? 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是一種眾所周知的
    的頭像 發(fā)表于 08-21 16:49 ?3745次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點 卷積神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)的區(qū)別

    深度神經(jīng)網(wǎng)絡(luò)是一種基于神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)算法,其主要特點是由多層神經(jīng)元構(gòu)成,可以根據(jù)數(shù)據(jù)自動調(diào)整神經(jīng)
    發(fā)表于 08-21 17:07 ?4087次閱讀
    RM新时代网站-首页