rm平台足球,RM新时代官方网站|首入球时间

Geoffrey Hinton是深度學(xué)習(xí)的創(chuàng)始人之一，2019年圖靈獎得主，谷歌工程研究員。

在津南谷歌的I/O開發(fā)者大會上，美國科技媒體Wired的NicholasThompson和Hinton討論了他早期對大腦的癡迷，以及計算機可以模仿其神經(jīng)結(jié)構(gòu)的可能性。他們還討論了意識這個概念以及Hinton未來的計劃。

以下是對話過程，請欣賞！

Nicholas Thompson：讓我們從你早期的一些極具影響力的論文開始談起。每個人都說，“這是一個聰明的想法，但實際上我們不可能以這種方式來設(shè)計計算機。那么，請解釋一下你為什么如此堅持、如此自信地認(rèn)為自己找到了重要的東西。

在我看來，大腦必須通過學(xué)習(xí)“聯(lián)系”的力量來發(fā)揮作用，除此以外沒有別的方式。如果你想讓一個設(shè)備完成一些智能工作，那么有兩個選擇：一是你可以編程，二是它可以學(xué)習(xí)。人當(dāng)然不是被編程的，所以我們必須學(xué)習(xí)。因此這肯定是正確的道路。

NT：那么，能解釋一下神經(jīng)網(wǎng)絡(luò)是什么嗎？

GH：你有相對簡單的處理元素，它們是非常松散的神經(jīng)元模型。這些模型之間有連接，每個連接都有權(quán)值，并且可以通過學(xué)習(xí)改變權(quán)值。神經(jīng)元所做的是，將連接上的活動乘以權(quán)值，再把它們?nèi)考悠饋?，然后決定是否發(fā)送輸出。如果它得到一個足夠大的和，就會發(fā)送一個輸出；如果總和為負(fù)數(shù)，則不會發(fā)送任何內(nèi)容。僅此而已。你所要做的就是把成千上萬的神經(jīng)元和成千上萬的權(quán)值的平方連接起來，然后算出如何改變權(quán)值，它就能做任何事情。這只是一個你如何改變權(quán)值的問題。

NT：你是什么時候意識到這種模式與大腦運作方式相近的？

GH：神經(jīng)網(wǎng)絡(luò)總是這樣設(shè)計出來的，被設(shè)計成像大腦那樣去工作。

NT：意思就是，在你職業(yè)生涯的某個階段，你開始去了解大腦的工作方式?；蛟S是在你12歲的時候，也或許是在你25歲的時候。所以，你究竟是什么時候決定要模仿大腦來制作電腦模型的?

GH：基本是在了解大腦原理后。具體想法是：通過改變連接的字符串（就像人們認(rèn)為的大腦學(xué)習(xí)方式那樣），來制造一個像大腦那樣學(xué)習(xí)的學(xué)習(xí)設(shè)備。這個主意也不是我的首創(chuàng)，圖靈也有同樣的想法。圖靈，盡管他奠定了很多標(biāo)準(zhǔn)計算機科學(xué)的基礎(chǔ)，他也相信大腦是一個有著隨機權(quán)值的無組織的“裝置”，它會使用強化學(xué)習(xí)來改變連接，最終學(xué)習(xí)一切。他還認(rèn)為這是獲得情報的最佳途徑。

NT：所以你遵循圖靈的想法——制造機器最好的方法就是模仿人類的大腦。腦子里想著：這就是人腦的工作原理，因此讓我們造一個這樣的機器吧。

GH：是的，這不僅僅是圖靈的想法，很多人都這么認(rèn)為。

NT：最黑暗的時刻是什么時候？還有，什么時候那些同樣贊成圖靈想法、一直在工作的人退縮時，但你卻仍然繼續(xù)前進(jìn)？

GH：總有一群人始終相信它，尤其是在心理學(xué)領(lǐng)域。但是對于計算機科學(xué)家，90年代時得到的數(shù)據(jù)集非常小，計算機運行也沒有那么快。在小數(shù)據(jù)集方面，其他的方法比如支持向量機，工作得更好。

在80年代我們就發(fā)展了反向傳播，原本以為它能解決所有問題，結(jié)果卻不行，我們疑惑為什么行不通?，F(xiàn)在知道其實是數(shù)據(jù)規(guī)模導(dǎo)致其不能解決所有問題，當(dāng)時我們都沒有意識到。

NT：那你當(dāng)時認(rèn)為為什么行不通呢？

GH：我們認(rèn)為這行不通，是因為我們沒有完全正確的算法和完全正確的目標(biāo)函數(shù)。很長一段時間以來，我一直認(rèn)為這是因為我們一直在做監(jiān)督學(xué)習(xí)，你必須給數(shù)據(jù)貼上標(biāo)簽。其實我們應(yīng)該做的是無監(jiān)督學(xué)習(xí)，就是從沒有標(biāo)簽的數(shù)據(jù)中學(xué)習(xí)。

NT：有意思。所以問題是你沒有足夠的數(shù)據(jù)，而你當(dāng)時卻以為自己擁有適量的數(shù)據(jù)，但未被正確標(biāo)記。因此你只是誤解了這個問題？

GH：我認(rèn)為僅僅使用標(biāo)簽是一個錯誤。大部分學(xué)習(xí)過程都沒有使用任何標(biāo)簽，只是嘗試在數(shù)據(jù)中對結(jié)構(gòu)建模。我相信這一點。我也認(rèn)為隨著計算機變得越來越快，對于任何給定大小的數(shù)據(jù)集，只要計算機足夠快，都最好做無監(jiān)督學(xué)習(xí)。一旦你完成了無監(jiān)督學(xué)習(xí)，你就能從更少的標(biāo)簽中進(jìn)行學(xué)習(xí)。

NT：所以在20世紀(jì)90年代，你仍然繼續(xù)身處學(xué)術(shù)界進(jìn)行這個研究，也依舊發(fā)表論文，但沒有解決什么大的問題。你有沒有說過，我覺得研究夠了，要去試試別的方向？還是你只是堅持要繼續(xù)研究深度學(xué)習(xí)?

GH：是的，我一直在堅持這樣的研究一定有用。我的意思是，大腦中的連接正在以某種方式完成學(xué)習(xí)過程，我們必須弄清它?？赡苡泻芏嗖煌姆椒▉韺W(xué)習(xí)連接的強度，大腦正在使用其中一個。當(dāng)然，你也必須擁有可以學(xué)習(xí)這些連接強度的東西。我從來沒有懷疑過這一點。

NT：因此你永遠(yuǎn)不會懷疑。那么，什么時候研究開始可行的？

GH：80年代最令人沮喪的一件事是，如果你建立的網(wǎng)絡(luò)有很多隱藏層，你就無法訓(xùn)練它們。這也不完全正確，因為你可以訓(xùn)練一些相當(dāng)簡單的任務(wù)，比如識別筆跡。但是大多數(shù)深層神經(jīng)網(wǎng)絡(luò)，我們是不知道如何訓(xùn)練它們的。大約在2005年，我想出了一種無人監(jiān)督的深網(wǎng)訓(xùn)練方法。你獲取到輸入，比如說像素，然后你會得到一堆特征，它們很好地解釋為什么像素是這樣的。接著你把這些特征當(dāng)做數(shù)據(jù)，又學(xué)習(xí)到另一組特征，所以我們可以解釋為什么這些特征有相關(guān)性。你不斷地進(jìn)行一層又一層學(xué)習(xí)，但有趣的是，你可以通過一些數(shù)學(xué)運算，來證明每次你學(xué)習(xí)另外一層，你不一定有一個更好的數(shù)據(jù)模型，但你有一個關(guān)于你的模型有多好的波段。這樣每次添加另一層時，你都可以獲得更好的波段。

NT：這是什么意思，你有一個關(guān)于你的模型有多好的波段？

GH：一旦有了一個模型，你說，“模型找到這些數(shù)據(jù)有多令人奇怪？”你向它展示了一些數(shù)據(jù)然后說：“這是你相信的那種東西嗎，還是說這令人驚訝？”而你想要做的是擁有一個模型，一個好的模型是看著數(shù)據(jù)說，“是的，是的，我知道。這是不足為奇?！?/p>

通常很難準(zhǔn)確計算出這個模型發(fā)現(xiàn)數(shù)據(jù)的驚人程度。但是你可以在上面計算一個波段，然后得出結(jié)論說這個模型發(fā)現(xiàn)的數(shù)據(jù)沒有那個模型那么令人驚訝。你還可以展示，當(dāng)添加了額外的特征探測器層時，得到一個模型能使得你每次添加一個層，波段就會發(fā)現(xiàn)數(shù)據(jù)變得更好。

NT：大約在2005年，你取得了這個數(shù)學(xué)上的突破。那么你又是什么時候開始得到正確答案的？當(dāng)時你在處理什么數(shù)據(jù)？你在處理什么數(shù)據(jù)？語音數(shù)據(jù)是你的第一個突破，對吧？

GH：這只是手寫的數(shù)字，非常簡單。而之后大約在同一時間，他們開始開發(fā)GPU（圖形處理單元）。大約在2007年，做神經(jīng)網(wǎng)絡(luò)的人們開始使用GPU。我有一個非常優(yōu)秀的學(xué)生，也開始使用GPU來尋找航拍圖像中的道路。他寫了一些代碼，然后被其他學(xué)生用來使用GPU去識別語音中的音素，當(dāng)時他們正在使用預(yù)訓(xùn)練的想法。在他們完成所有這些預(yù)訓(xùn)練之后，只要把標(biāo)簽貼在上面然后使用反向傳播，你就可以有一個經(jīng)過預(yù)訓(xùn)練的非常深的網(wǎng)。然后你可以繼續(xù)使用反向傳播，它確實有效。它在某種程度上超過了語音識別的基準(zhǔn)。

NT：它擊敗了最好的商業(yè)語音識別？也擊敗了語音識別方面最好的學(xué)術(shù)工作？

GH：在一個名為TIMIT的相對較小的數(shù)據(jù)集上，它的表現(xiàn)略好于最好的學(xué)術(shù)作品。還在IBM完成了工作，并且相當(dāng)迅速。很快，人們就意識到這個東西——因為它打敗了花了30年時間開發(fā)的標(biāo)準(zhǔn)模型——如果再多開發(fā)一點就會做得很好。所以我的研究生們?nèi)チ宋④?，IBM和谷歌，谷歌是最快把它變成生產(chǎn)語音識別器的。到2012年，這項2009年首次完成的工作，在Android上出現(xiàn)了。而后Android在語音識別方面突然變得更加擅長。

NT：自從40年前開始產(chǎn)生這個想法的那一刻，你已經(jīng)研究了20年，現(xiàn)在你終于比你的同事出色了。這種感覺怎么樣？

GH：我只有30年的想法！

NT：是的，是的！所以只是一個新想法。新的！

GH：我感覺很好，它終于找到了真正的問題所在。

NT：你還記得第一次得到啟示性的數(shù)據(jù)時，你在哪里嗎？

GH：不記得了。

NT：好的。所以你意識到它適用于語音識別。那又是從什么時候開始將它應(yīng)用于其他問題？

GH：就在那之后我們開始把它應(yīng)用到其他各種問題上。George Dahl是最早從事語音識別研究的人之一，他將其應(yīng)用于預(yù)測一種分子是否會與某種物質(zhì)結(jié)合，并成為一種良好的藥物。還有這么有一場比賽，他只把我們設(shè)計的語音識別標(biāo)準(zhǔn)技術(shù)應(yīng)用到預(yù)測藥物的活性上，就贏得了比賽。表明了這些東西的運用范圍是相當(dāng)普遍的。然后我的一個學(xué)生說，“Geoff，你知道么，這個東西將用于圖像識別，李菲菲已經(jīng)為它創(chuàng)建了正確的數(shù)據(jù)集。還有一個公開的競爭，我們也必須這么做?！?/p>

當(dāng)時是2012年，我們得到的結(jié)果比標(biāo)準(zhǔn)的計算機視覺要好得多。

NT：那么，是什么區(qū)分了哪些區(qū)域工作最快，哪些區(qū)域需要更多間？似乎視覺處理、語音識別，這樣類似于用感官知覺來處理的人類核心活動被認(rèn)為是首先需要清除的障礙，對嗎？

GH：是也不是，因為還有一些比如運動控制這樣的其他領(lǐng)域。我們?nèi)祟惙浅Ｉ瞄L運動控制，我們的大腦顯然就是為此而設(shè)計的。而直到現(xiàn)在，神經(jīng)網(wǎng)絡(luò)才開始與其他最好的技術(shù)競爭。神經(jīng)網(wǎng)絡(luò)技術(shù)最終會贏，但現(xiàn)在才剛剛開始贏。

另外，我認(rèn)為推理——抽象推理，這是我們要學(xué)習(xí)做的最后一件事，我也認(rèn)為這將是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)做的最后一件事。

NT：所以你一直說神經(jīng)網(wǎng)絡(luò)最終會贏得一切。

GH：嗯，我們都是神經(jīng)網(wǎng)絡(luò)。他們可以做任何我們能夠做的事情。

NT：是的，但是人腦并不一定是有史以來最有效的計算機器。

GH：當(dāng)然不是了。

NT：當(dāng)然不是我這人類的腦袋！難道不存在一種比人腦更有效的機器建模方法嗎？

GH：從哲學(xué)的角度來說，我并不反對這樣的想法，即可能有一些完全不同的方式來做出（人類能夠做到的）這一切。比如它可以是這樣的。如果從邏輯開始，你試圖將邏輯自動化，然后再做一些看起來很酷炫的定理證明，再做些推理，然后你決定通過推理來做視覺感知——可能最后成功方法就是這個。事實證明它沒有。但我對這一事實沒有哲學(xué)上的反對意見。只是我們知道大腦可以做到這一點。

NT：但也有一些事情我們的大腦做不好。對于這些事情而言，神經(jīng)網(wǎng)絡(luò)會不會也沒有什么辦法將其做好呢？

GH：很可能（做不好），是的。

NT：我這還有個相對獨立的問題：我們并不完全知道它們到底是如何運作的，對吧？

GH：不，我們確實不知道它們?nèi)绾芜\作。

NT：我們不了解自上而下的神經(jīng)網(wǎng)絡(luò)是如何工作的。這是我們不理解神經(jīng)網(wǎng)絡(luò)運作方式的一個核心要素。麻煩您解釋一下這個問題，然后讓我再問一下這個顯而易見的跟進(jìn)問題：如果我們不知道這些東西是如何工作的，那它們怎么能起作用呢？

GH：如果你看一下目前的計算機視覺系統(tǒng)，其中大部分基本上是前饋；他們不使用反饋連接。當(dāng)前的計算機視覺系統(tǒng)還有一個問題——它們很容易出現(xiàn)對抗性錯誤。你可以稍微改變一張熊貓照片上的幾個像素——現(xiàn)在照片看起來仍然像只熊貓，但系統(tǒng)會突然改口說這其實是一只鴕鳥。顯然，你改變像素的方式是經(jīng)過精心設(shè)計的，從而欺騙它認(rèn)為照片是一只鴕鳥。但重點是，照片對你來說仍然像一只熊貓。

最初我們認(rèn)為這些算法非常有效。但是，當(dāng)我們不得不面對這樣一個事實，即他們明明面對著一只熊貓但確信這其實是一只鴕鳥時，你會有點擔(dān)心。我認(rèn)為這個問題一部分是由于，這些算法不是試圖從概括性表征中重建圖像，而是試圖進(jìn)行歧視性學(xué)習(xí)。在那里你只學(xué)習(xí)特征探測器的層次，而目標(biāo)函數(shù)只是關(guān)于改變權(quán)重以便你更好地得到正確的答案。

最近在多倫多，我們一直在發(fā)現(xiàn)，或者Nick Frost一直在發(fā)現(xiàn)，如果你引入重建，那么它可以幫助你更好地解決對抗性攻擊這一問題。所以我認(rèn)為在人類的視覺中，我們使用重建來進(jìn)行學(xué)習(xí)。并且，因為我們通過重建來進(jìn)行大量學(xué)習(xí)，我們更不易于被對抗性攻擊蒙蔽雙眼。

NT：你相信神經(jīng)網(wǎng)絡(luò)中的自上而下的信息傳導(dǎo)旨在幫助你測試如何進(jìn)行重建。你如何測試并確定它是熊貓而不是鴕鳥？

GH：我認(rèn)為這至關(guān)重要，是的。

NT：但是腦科學(xué)家并不是很贊同這一觀點是嗎？

GH：腦科學(xué)家們都同意這一表述——如果你在感知途徑中有兩個皮質(zhì)區(qū)域，那么一定會有向后的連接。這些科學(xué)家們在其用途上懷有不同的觀點。有人認(rèn)為這可能是為了關(guān)注，可能是為了學(xué)習(xí)，也可能是為了重建?；蛘咚赡馨ㄋ羞@些可能性。

NT：所以我們并不知道向后溝通是什么。您正在將重構(gòu)組合進(jìn)您構(gòu)建的神經(jīng)網(wǎng)絡(luò)（或向后溝通）中，即使我們不能夠確定那就是大腦的運作方式？

GH：是的。

NT：這不是作弊嗎？我的意思是，你是想做一個與大腦一樣的東西，但你目前壓根不知道大腦是如何運作的。

GH：并不是。我不是在做計算神經(jīng)科學(xué)。我也不是想模擬大腦的運作方式。我其實是被大腦激發(fā)靈感，說“這玩意能用，如果我們想做些什么類似有效的東西，我們應(yīng)該從這里來找靈感。“。

所以這是”神經(jīng)啟發(fā)“，而不是神經(jīng)模型。整個模型，包括我們使用的神經(jīng)元，都是受到神經(jīng)元有很多層聯(lián)系并且此聯(lián)系的強度能夠被改變這一事實的啟發(fā)。

NT：這很有趣。那么如果我從事計算機科學(xué)，而且我正在研究神經(jīng)網(wǎng)絡(luò)并想要擊敗你，那么一種選擇就是建立自上而下的溝通機制，并將其建立在其他腦科學(xué)模型上。所以是基于學(xué)習(xí)而不是重建。

GH：如果他們確實是更好的模型那么你就贏了。就這樣。

NT：那真是非常有趣。讓我們轉(zhuǎn)到更一般的話題吧。這么說來，神經(jīng)網(wǎng)絡(luò)將能夠解決各種問題。那么有沒有神經(jīng)網(wǎng)絡(luò)無法捕獲的人類大腦的奧秘？例如，情緒......

GH：不。

NT：那么愛可以通過神經(jīng)網(wǎng)絡(luò)重建嗎？意識可以重建嗎？

GH：當(dāng)然。一旦你弄明白這些東西意味著什么。我們是神經(jīng)網(wǎng)絡(luò)，對吧？意識是我特別感興趣的東西。沒有它我還是能活下來，但......人們并不真正知道它們的含義。有各種不同的定義。我認(rèn)為這是一個非?？茖W(xué)的術(shù)語。100年前，如果你問人們什么是生活，他們會說，“生物有生命力，當(dāng)它們死亡時，生命力消失了。這就是活著和死亡之間的區(qū)別，即你是否具有生命力。

“現(xiàn)在我們不再有生命力這一表述了，我們只是認(rèn)為這是一個科學(xué)發(fā)展前的偽概念。一旦你學(xué)習(xí)一些生物化學(xué)和分子生物學(xué)，你就不再需要生命力這一解釋了，你將能夠理解它是如何運作的。我認(rèn)為這與意識相同。我認(rèn)為意識是一種用某種特殊本質(zhì)來解釋心理現(xiàn)象的嘗試。

而這個特殊的本質(zhì)，你其實并不需要它。一旦你能夠真正解釋它，那么你將能夠解釋我們?nèi)绾巫龀瞿切┳屓藗冋J(rèn)為我們具有意識的行為，你也將能夠解釋所有這些不同的意識含義——完全不需要借助于什么‘意識’這一概念。

NT：所以沒有無法創(chuàng)造的情感？無法創(chuàng)造的思想？一旦我們真正理解了大腦是如何工作的，那么在理論上，人腦所有的功能都能夠被一個完整構(gòu)造的神經(jīng)網(wǎng)絡(luò)所執(zhí)行？

GH：約翰列儂有一首歌，聽起來很像你剛才所說的情況。

NT：你對此有100％的信心嗎？

GH：不，我是貝葉斯派，所以我有99.9％的自信心。

NT：好的，那0.1是什么？

GH：那是說，比如，我們所有人、所有這些都是一個龐大模擬的一部分。

NT：那倒是不假。那么我們從計算機工作中學(xué)到了什么呢？

GH：所以我認(rèn)為我們在過去十年中所學(xué)到的是，如果你采用一個具有數(shù)十億個參數(shù)的系統(tǒng)，以及一個目標(biāo)函數(shù)——就像用文字填補空白一樣——它將能夠比你預(yù)期的更加完美地運行。您可能會想到（傳統(tǒng)AI學(xué)派中的大多數(shù)人也都會這么想），采用具有十億個參數(shù)的系統(tǒng)，用隨機值啟動它們，測量目標(biāo)函數(shù)的梯度（即對于每個參數(shù)，如果你稍微改變一下這個參數(shù)，看目標(biāo)函數(shù)將如何變化）——然后在改善目標(biāo)函數(shù)的方向上改變它。

你可能會覺得這將是一種陷入困境的無望算法。但事實證明，這是一個非常好的算法。你越將其規(guī)模擴大，它就越好。這真的只是一個實踐上的發(fā)現(xiàn)。確實有一些相關(guān)理論出現(xiàn)，但它基本上算是一個實踐發(fā)現(xiàn)?，F(xiàn)在，因為我們已經(jīng)發(fā)現(xiàn)了這一點，它使得”大腦計算某些目標(biāo)函數(shù)的梯度，并更新突觸強度的權(quán)重以遵循該梯度“這一猜想更加合理。我們只需弄清楚它如何進(jìn)行降級，以及目標(biāo)函數(shù)是什么。

NT：但我們當(dāng)時對大腦并不了解吧？我們并不了解重新加權(quán)？

GH：這曾是一個理論。很久以前，人們認(rèn)為這是一種可能性。但總會有一些傳統(tǒng)的計算機科學(xué)家說：“這一切都是隨機的，你只需通過梯度下降來學(xué)習(xí)它——這對于十億個參數(shù)來說永遠(yuǎn)不會有用。你必須掌握很多知識?！拔覀儸F(xiàn)在知道這是錯的；你可以隨便輸入起始參數(shù)，并學(xué)習(xí)一切。

NT：所以讓我們把它擴展一下。當(dāng)我們在模型上運行這些大規(guī)模測試時，根據(jù)我們對人類大腦功能的理解，我們可能會繼續(xù)越來越多地了解大腦實際上是如何運作的。你認(rèn)為這會最終導(dǎo)致這樣一種情形嗎——我們將人類大腦重新連接成更高效的機器？

GH：如果我們真的了解現(xiàn)狀，我們應(yīng)該能夠讓教育工作變得更好。我覺得我們會的。如果你最終能夠了解你的大腦中發(fā)生了什么并且它如何進(jìn)行學(xué)習(xí)，但你卻無法為更好進(jìn)行學(xué)習(xí)而適應(yīng)環(huán)境，那真的是非常奇怪。

NT：未來幾年內(nèi)，您認(rèn)為我們將如何利用我們對大腦的了解以及深度學(xué)習(xí)改變教育的運作方式？您會怎么改變教學(xué)課程？

GH：幾年后，我不確定我們會學(xué)到多少東西。我認(rèn)為改變教育的時間會被拖長。但是你可以看到現(xiàn)在的（機器人）助手正在變得越來越聰明。一旦它們能夠真正理解對話，就可以與孩子進(jìn)行對話并對他們進(jìn)行教育。

NT：理論上，當(dāng)我們更好地理解大腦時，你會根據(jù)我們知道他們將要學(xué)習(xí)的方式，讓助手們與孩子們進(jìn)行更好的對話。

GH：是的，我對此并沒有太多考慮。這不是我的研究內(nèi)容，但聽起來確實很可信。

NT：我們將能夠理解夢是如何運作的嗎？

GH：是的，我對夢超級感興趣。我至少有四種不同的做夢理論哦。

NT：讓我們聽一聽唄，一，二，三，四。

GH：很久以前，有一些叫做Hopfield網(wǎng)絡(luò)的東西，它們把記憶當(dāng)做本地吸引子來學(xué)習(xí)。Hopfield發(fā)現(xiàn)，如果你試圖把太多的記憶放進(jìn)去，它們就會感到困惑。它們會把兩個本地吸引子同時考慮進(jìn)來并將其合并為二者之間的某種吸引子。

然后，F(xiàn)rancis Crick 和Graeme Mitchison發(fā)現(xiàn)，我們可以通過”忘卻“來擺脫這些假極小值。因此我們關(guān)閉輸入，將神經(jīng)網(wǎng)絡(luò)置于隨機狀態(tài)，然后讓它穩(wěn)定下來。我們覺得這很糟糕，改變連接，這樣你就不會一直穩(wěn)定于那個狀態(tài)。如果你這么做了的話，網(wǎng)絡(luò)就能夠存儲更多的記憶了。

然后我和Terry Sejnowski反應(yīng)過來：如果我們不僅有幫助儲存記憶的神經(jīng)元（姑且稱之為名花有主的神經(jīng)元），我們還有一些其他富余的神經(jīng)元（姑且稱之為形同單身的神經(jīng)元），我們是否能夠找到一種算法，能讓這些富余的神經(jīng)元也來協(xié)助存儲記憶？

最后，我們想出了Boltzmann機器學(xué)習(xí)算法，它有著非常有趣的屬性：輸入數(shù)據(jù)，它在其他節(jié)點周圍搖搖晃晃，玩到開心為止。一旦完成，它會基于兩個單元節(jié)點是否處于激活（active）狀態(tài)來增加所有連接的強度。

你還必須歷經(jīng)一個階段：切斷神經(jīng)元的輸入，你讓它四處游蕩并進(jìn)入一個它滿意的狀態(tài)，當(dāng)它玩爽了，你說：“把所有的活躍分子（激活的神經(jīng)元）逮出來不讓它們坐一塊（減弱連接強度）”。

所以這里我這里在介紹玻爾茲曼算法的步驟。但實際上，這個算法背后有著深厚的數(shù)學(xué)背景，你在處理的問題，無非是如何改變連接關(guān)系，使得有著這些隱藏單元（hidden unit）的神經(jīng)網(wǎng)絡(luò)能夠清楚地復(fù)現(xiàn)數(shù)據(jù)。同時，這個算法中，必須還有另一個階段，我們稱之為負(fù)面階段。在網(wǎng)絡(luò)沒有輸入的情況下運行時，它會“忘記”之前所有的狀態(tài)。

我們每晚都要做好幾個小時的夢。如果我隨機叫醒你，你可以告訴我你剛剛夢到了什么，因為夢的信息都儲存在你的短時記憶力。沒錯，你做了好幾個小時的夢。

但是當(dāng)你早上醒來時，你經(jīng)常只能回憶起一串夢中的最后一夢，別的都想不起來了——這是件多么幸運的事情啊，因為夢的記憶越多，現(xiàn)實的記憶也會越少，你會無法分辨一段模糊的記憶究竟是真實發(fā)生的，還是夢里浮現(xiàn)的。那么，為什么我們不能夠記得我們夢里發(fā)生的所有事情呢？Crick的觀點是，夢的全部意義在于忘掉那些事情，這就如同你把所有學(xué)過的東西都還給老師了。

而Terry Sejnowski和我證明，實際上，這便是Boltzmann機器的最大似然的（maximum-likelihood）學(xué)習(xí)邏輯。這和做夢一樣。

NT：我想談?wù)勀愕钠渌碚?。但是你在設(shè)計深度學(xué)習(xí)算法時，真的基于了夢的模式嗎？研究圖像數(shù)據(jù)集一段時間，重置，再次研究，再重置。

GH：是的，我們有些類似的機器學(xué)習(xí)算法。最早一些可以學(xué)習(xí)如何處理隱藏單元的算法都是基于Boltzmann機，但是它們效率很低。不過，我發(fā)現(xiàn)了一種對它們進(jìn)行近似的方法，提高了它們的效率。這個方法才是把深度學(xué)習(xí)救回正軌的東西。那個方法就是限制性Boltzmann機的有效表述形式，它所做的，就是忘記學(xué)習(xí)過的一切。但是，這個神經(jīng)網(wǎng)絡(luò)不是真的在全程睡覺劃水，它只是在運算完每個數(shù)據(jù)點之后，小小地走神一下。

NT：好的吧，所以這些機器人會做夢，夢里還在數(shù)山羊。我們接著來看看第二，第三和第四條理論吧。

GH：第二理論被稱為睡眠喚醒算法（Wake Sleep Algorithm）。你的目的，是得到一個生成模型。所以你會想到，你想擁有一個可以生成數(shù)據(jù)的模型，這個網(wǎng)絡(luò)模型里有著多層的特征檢測器，并能夠從高到低激活從高級到低級的特征，直到它直接激活了像素數(shù)據(jù)（輸入數(shù)據(jù)）——像素數(shù)據(jù)就是圖片的基本表述方式。你也當(dāng)然想反向開車，你想做圖像識別。

因此，你就有了一個由兩個階段組成的算法。在喚醒階段，數(shù)據(jù)輸入，神經(jīng)網(wǎng)絡(luò)做圖像識別，不是學(xué)習(xí)用于識別的連接，而是學(xué)習(xí)生成連接。所以數(shù)據(jù)進(jìn)來，我激活了隱藏單位。

然后我學(xué)會讓那些隱藏的單位善于重構(gòu)那些數(shù)據(jù)，因此它正在學(xué)習(xí)在每一層進(jìn)行重構(gòu)。問題在于，你如何學(xué)習(xí)前向連接？我的想法是，如果你知道前向連接，你可以學(xué)習(xí)后向連接，因為你可以學(xué)習(xí)重建。

現(xiàn)在，事實證明，如果使用后向連接，你可以學(xué)習(xí)前向連接，因為你可以從頂部開始生成一些數(shù)據(jù)。由于你生成了數(shù)據(jù)，你知道了所有隱藏層的激活狀態(tài)，因此您可以學(xué)習(xí)前向連接來恢復(fù)這些狀態(tài)——這就是睡眠階段。當(dāng)你停止輸入時，你只需生成數(shù)據(jù)，然后嘗試重建生成數(shù)據(jù)的隱藏單位。因此，如果你了解了自上而下的連接，你也將學(xué)習(xí)自下而上的連接。

如果你知道自下而上的那些連接，你會學(xué)到自上而下的連接。（譯者：個人理解，假想模型神經(jīng)網(wǎng)絡(luò)前向傳播是一套權(quán)值，反向傳播是另外一套權(quán)值，其一可知其二。）那么，如果你從隨機的連接開始，并嘗試交替使用兩者，會發(fā)生什么呢？嘿，居然真的還能用。當(dāng)然，為了更好的效果，你必須做各種調(diào)整，但是交替使用確實能用。

NT：好的吧，那你準(zhǔn)備介紹一下另外2個理論嗎？我們還有8分鐘，是不是也許我們先問其他的問題？

GH：如果你再給我一個小時，我就能把另外2個家伙搞出來。

NT：好的吧，那我們還是來談?wù)勏乱粋€話題吧。你接下來的研究是什么？你現(xiàn)在準(zhǔn)備解決什么問題？

GH：你最終想做的，還是那些你沒有完成的事情。我認(rèn)為我可能會研究我從未完成的事情，我稱之為膠囊網(wǎng)絡(luò)，它是關(guān)于如何使用重構(gòu)進(jìn)行視覺感知的理論，以及如何將信息規(guī)劃到正確的位置。在標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)中，信息，網(wǎng)絡(luò)層的活性，只是自動地存儲；你不能決定將它們發(fā)送到哪里。膠囊網(wǎng)絡(luò)的理念是決定在哪里發(fā)送信息。

現(xiàn)在，自從我開始研究膠囊網(wǎng)絡(luò)以來，谷歌的其他一些非常聰明的人發(fā)明了transformer，transformer正在做和膠囊網(wǎng)絡(luò)同樣的事情。transformer決定在哪里路由信息，這是一個巨大的突破。

推動膠囊網(wǎng)絡(luò)發(fā)展的另一動力是坐標(biāo)系。當(dāng)人類使用視覺時，他們是在使用坐標(biāo)系的。如果它們在對象上使用了錯誤的坐標(biāo)系，那么他們甚至無法識別該對象。給你舉一個小栗子：想象一個四面體；它有一個三角形底座和三個三角形面，所有等邊三角形。容易想象，對嗎？現(xiàn)在想象一下用一個平面把它切開——你看到了一個正方形截面。

這就不容易想到這個對象其實是個四面體了吧，對吧？每次切片時，你通常都會得到一個三角形的截面。如何獲得一個正方形的截面，并不好想。不，可能這一點都不好想。好的，但我會幫你得到這個詭異的形狀。我需要你的筆。想象一下，如果你拿這樣的筆，你會得到這樣的形狀，另一支像這樣的直角筆，你將這支筆上的所有點連接到這支筆上的所有點。那是一個堅實的四面體。

好的，你看到它其實是另外一套坐標(biāo)系，四面體的邊緣，這兩條線和坐標(biāo)系的標(biāo)線重合。如果你用那一套坐標(biāo)系想象一個四面體，很明顯，這樣，在頂部你有一個長方形，在底部我們也得到一個長方形，中間有一個正方形。所以現(xiàn)在很清楚了，你如何切割它能夠得到一個正方形的截面，前提是你參考的是什么坐標(biāo)系。

因此很明顯，對于人類而言，坐標(biāo)框架對于感知非常重要。

NT：但是你是如何在你的模型中加入?yún)⒖枷敌畔⒌哪兀课业囊馑际牵闶侨绾胃恼四阍?990年代犯的錯誤：嘗試把規(guī)則帶入系統(tǒng)中卻使之與系統(tǒng)非監(jiān)督學(xué)習(xí)的本質(zhì)產(chǎn)生矛盾？

GH：你對這個錯誤的總結(jié)非常到位。我太固執(zhí)了以致于這變成了一個大錯誤，我現(xiàn)在就想彌補一點過失。這有點像尼克松總統(tǒng)當(dāng)年與中國談判一樣。實際上，我在這個事情上，發(fā)揮了不好的作用。

NT：所以你現(xiàn)在的工作主要是針對于視覺識別，還是可以看做提高當(dāng)前坐標(biāo)系規(guī)則的研究？

GH：這個技術(shù)當(dāng)然能用在其他領(lǐng)域里，但是我的興趣主要在于怎么把它用在視覺識別上。

NT：深度學(xué)習(xí)曾經(jīng)是一個獨特的東西，我的意思是，深度學(xué)習(xí)是深度學(xué)習(xí)，人工智能是人工智能（AI）?，F(xiàn)在，深度學(xué)習(xí)變成了AI的同義詞，同時現(xiàn)在AI變成了熱門的營銷術(shù)語，基本上意味著以某些方式驅(qū)動機器。作為幫助創(chuàng)建這一術(shù)語的人，您是如何看待這個現(xiàn)象的？

GH：曾幾何時，人工智能，意味著邏輯主義/符號主義，研究人員用計算機的符號字符串模擬人類的認(rèn)知。還有神經(jīng)網(wǎng)絡(luò)，就意味著你在使用神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。不同的企業(yè)，不同的學(xué)派，百家爭鳴，大放異彩。這就是我當(dāng)年成長的環(huán)境。而現(xiàn)在我看到好多人一邊常年一直在說神經(jīng)網(wǎng)絡(luò)就是廢物，一邊又在說“我是人工智能專業(yè)的教授，我需要錢”。這就很煩人。

NT：嗯，我還有時間，就再問一個問題。在一次采訪中，談到人工智能，你說，好吧，把它想象成一個反鏟——一個可以挖坑的機器，用的不好就會傷到自己。解決問題的關(guān)鍵是，當(dāng)你準(zhǔn)備使用反鏟作業(yè)時，要好好看著準(zhǔn)備挖坑的鏟子和自己的一畝三分地，不要讓鏟子碰了腦袋。對于你的工作而言，你做出的什么選擇和這個例子很接近？

GH：我猜我永遠(yuǎn)不會主動應(yīng)用人工智能技術(shù)制造武器。我的意思是，你的確可以設(shè)計出功于殺戮的反鏟。但是我覺得這一定是反鏟最差勁的應(yīng)用了，我永遠(yuǎn)不會干這事的。

NT：好的，Geoffrey Hinton。這真是一場令人印象深刻的訪談。滿滿的都是干貨。我們“明年”還會回來的——帶著第三和第四的“做夢”理論。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4771

瀏覽量
100712
人工智能

人工智能

+關(guān)注

關(guān)注
1791

文章
47183

瀏覽量
238244
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5500

瀏覽量
121111

原文標(biāo)題：Geoffrey Hinton專訪：如何解釋神經(jīng)網(wǎng)絡(luò)的變遷

文章出處：【微信號：BigDataDigest，微信公眾號：大數(shù)據(jù)文摘】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

在如今的網(wǎng)絡(luò)時代，錯綜復(fù)雜的大數(shù)據(jù)和網(wǎng)絡(luò)環(huán)境，讓傳統(tǒng)信息處理理論、人工智能與人工神經(jīng)網(wǎng)絡(luò)都面臨巨大的挑戰(zhàn)。近些年，深度學(xué)習(xí)逐漸走進(jìn)人們的視線

發(fā)表于 01-11 10:51 ?2022次閱讀

詳解<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>、<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>與卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的應(yīng)用

【專輯精選】人工智能之神經(jīng)網(wǎng)絡(luò)教程與資料

電子發(fā)燒友總結(jié)了以“神經(jīng)網(wǎng)絡(luò)”為主題的精選干貨，今后每天一個主題為一期，希望對各位有所幫助?。c擊標(biāo)題即可進(jìn)入頁面下載相關(guān)資料）人工神經(jīng)網(wǎng)絡(luò)算法的學(xué)習(xí)方法與應(yīng)用實例（pdf彩版）卷積

發(fā)表于 05-07 19:18

神經(jīng)網(wǎng)絡(luò)資料

基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法

發(fā)表于 05-16 17:25

基于賽靈思FPGA的卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)設(shè)計

作者：Nagesh Gupta 創(chuàng)始人兼 CEOAuviz Systems Nagesh@auvizsystems.com憑借出色的性能和功耗指標(biāo)，賽靈思 FPGA 成為設(shè)計人員構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)

發(fā)表于 06-19 07:24

卷積神經(jīng)網(wǎng)絡(luò)—深度卷積網(wǎng)絡(luò)：實例探究及學(xué)習(xí)總結(jié)

《深度學(xué)習(xí)工程師-吳恩達(dá)》03卷積神經(jīng)網(wǎng)絡(luò)—深度卷積網(wǎng)絡(luò)：實例探究 學(xué)習(xí)總結(jié)

發(fā)表于 05-22 17:15

解析深度學(xué)習(xí)：卷積神經(jīng)網(wǎng)絡(luò)原理與視覺實踐

解析深度學(xué)習(xí)：卷積神經(jīng)網(wǎng)絡(luò)原理與視覺實踐

發(fā)表于 06-14 22:21

深度神經(jīng)網(wǎng)絡(luò)是什么

多層感知機深度神經(jīng)網(wǎng)絡(luò)in collaboration with Hsu Chung Chuan, Lin Min Htoo, and Quah Jia Yong. 與許忠傳，林敏濤和華佳勇合作

發(fā)表于 07-12 06:35

卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用轉(zhuǎn)載****地址：http://fcst.ceaj.org/CN/abstract/abstract2521.shtml深度學(xué)習(xí)是機器學(xué)習(xí)和人工智能研究的最新

發(fā)表于 08-02 10:39

《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》講義

《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》講義

發(fā)表于 07-20 08:58 ?0次下載

快速了解神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的教程資料免費下載

本文檔的詳細(xì)介紹的是快速了解神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的教程資料免費下載主要內(nèi)容包括了：機器學(xué)習(xí)概述，線

發(fā)表于 02-11 08:00 ?33次下載

快速了解<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>與<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的教程<b class='flag-5'>資料</b>免費下載

綜述深度神經(jīng)網(wǎng)絡(luò)的解釋方法及發(fā)展趨勢

深度神經(jīng)網(wǎng)絡(luò)具有非線性非凸、多層隱藏結(jié)構(gòu)、特征矢量化、海量模型參數(shù)等特點，但弱解釋性是限制其理論發(fā)展和實際應(yīng)用的巨大障礙，因此，深度神經(jīng)網(wǎng)絡(luò)

發(fā)表于 03-21 09:48 ?19次下載

綜述<b class='flag-5'>深度</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的<b class='flag-5'>解釋</b>方法及發(fā)展趨勢

3小時學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)課件下載

3小時學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)課件下載

發(fā)表于 04-19 09:36 ?0次下載

3小時<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>與<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>課件下載

什么是神經(jīng)網(wǎng)絡(luò)？什么是卷積神經(jīng)網(wǎng)絡(luò)？

在介紹卷積神經(jīng)網(wǎng)絡(luò)之前，我們先回顧一下神經(jīng)網(wǎng)絡(luò)的基本知識。就目前而言，神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)算法的核心，我們所熟知的很多

發(fā)表于 02-23 09:14 ?3489次閱讀

卷積神經(jīng)網(wǎng)絡(luò)的工作原理卷積神經(jīng)網(wǎng)絡(luò)通俗解釋

卷積神經(jīng)網(wǎng)絡(luò)的工作原理卷積神經(jīng)網(wǎng)絡(luò)通俗解釋? 卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network, CNN）是一種眾所周知的深

發(fā)表于 08-21 16:49 ?3745次閱讀

卷積神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點卷積神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)的區(qū)別

深度神經(jīng)網(wǎng)絡(luò)是一種基于神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)算法，其主要特點是由多層神經(jīng)元構(gòu)成，可以根據(jù)數(shù)據(jù)自動調(diào)整神經(jīng)

發(fā)表于 08-21 17:07 ?4087次閱讀

RM新时代网站-首页

搜索歷史

深度學(xué)習(xí)的創(chuàng)始人解釋了神經(jīng)網(wǎng)絡(luò)的變遷資料說明

評論