RM新时代注册,RM平台

Sklearn 與 TensorFlow 機(jī)器學(xué)習(xí)實(shí)用指南 —— Chapter 0.前言

大多數(shù)人聽到“機(jī)器學(xué)習(xí)”，往往會在腦海中勾勒出一個機(jī)器人：一個可靠的管家，或是一個可怕的終結(jié)者，這取決于你問的是誰。但是機(jī)器學(xué)習(xí)并不是未來的幻想，它已經(jīng)來到我們身邊了。事實(shí)上，一些特定領(lǐng)域已經(jīng)應(yīng)用機(jī)器學(xué)習(xí)幾十年了，比如光學(xué)字符識別（Optical Charac ter Recognition，OCR）。但是直到 1990 年代，第一個影響了數(shù)億人的機(jī)器學(xué)習(xí)應(yīng)用才真正成熟，它就是垃圾郵件過濾器（spam filter）。雖然并不是一個有自我意識的天網(wǎng)系統(tǒng)（Skynet），垃圾郵件過濾器從技術(shù)上是符合機(jī)器學(xué)習(xí)的（它可以很好地進(jìn)行學(xué)習(xí)，用戶幾乎不用再標(biāo)記某個郵件為垃圾郵件）。后來出現(xiàn)了更多的數(shù)以百計(jì)的機(jī)器學(xué)習(xí)產(chǎn)品，支撐了更多你經(jīng)常使用的產(chǎn)品和功能，從推薦系統(tǒng)到語音識別。

機(jī)器學(xué)習(xí)的起點(diǎn)和終點(diǎn)分別是什么呢？確切的講，機(jī)器進(jìn)行學(xué)習(xí)是什么意思？如果我下載了一份維基百科的拷貝，我的電腦就真的學(xué)會了什么嗎？它馬上就變聰明了嗎？在本章中，我們首先會澄清機(jī)器學(xué)習(xí)到底是什么，以及為什么你要使用它。

然后，在我們出發(fā)去探索機(jī)器學(xué)習(xí)新大陸之前，我們要觀察下地圖，以便知道這片大陸上的主要地區(qū)和最明顯的地標(biāo)：監(jiān)督學(xué)習(xí)vs非監(jiān)督學(xué)習(xí)，在線學(xué)習(xí)vs批量學(xué)習(xí)，基于實(shí)例vs基于模型學(xué)習(xí)。然后，我們會學(xué)習(xí)一個典型的機(jī)器學(xué)習(xí)項(xiàng)目的工作流程，討論可能碰到的難點(diǎn)，以及如何評估和微調(diào)一個機(jī)器學(xué)習(xí)系統(tǒng)。

這一章介紹了大量每個數(shù)據(jù)科學(xué)家需要牢記在心的基礎(chǔ)概念（和習(xí)語）。第一章只是概覽（唯一不含有代碼的一章），相當(dāng)簡單，但你要確保每一點(diǎn)都搞明白了，再繼續(xù)進(jìn)行學(xué)習(xí)本書其余章節(jié)。端起一杯咖啡，開始學(xué)習(xí)吧！

提示：如果你已經(jīng)知道了機(jī)器學(xué)習(xí)的所有基礎(chǔ)概念，可以直接翻到第2章。如果你不確認(rèn)，可以嘗試回答本章末尾列出的問題，然后再繼續(xù)。

什么是機(jī)器學(xué)習(xí)？

機(jī)器學(xué)習(xí)是通過編程讓計(jì)算機(jī)從數(shù)據(jù)中進(jìn)行學(xué)習(xí)的科學(xué)（和藝術(shù)）。

下面是一個更廣義的概念：

機(jī)器學(xué)習(xí)是讓計(jì)算機(jī)具有學(xué)習(xí)的能力，無需進(jìn)行明確編程。 —— 亞瑟·薩繆爾，1959

和一個工程性的概念：

計(jì)算機(jī)程序利用經(jīng)驗(yàn) E 學(xué)習(xí)任務(wù) T，性能是 P，如果針對任務(wù) T 的性能 P 隨著經(jīng)驗(yàn) E 不斷增長，則稱為機(jī)器學(xué)習(xí)。 —— 湯姆·米切爾，1997

例如，你的垃圾郵件過濾器就是一個機(jī)器學(xué)習(xí)程序，它可以根據(jù)垃圾郵件（比如，用戶標(biāo)記的垃圾郵件）和普通郵件（非垃圾郵件，也稱作 ham）學(xué)習(xí)標(biāo)記垃圾郵件。用來進(jìn)行學(xué)習(xí)的樣例稱作訓(xùn)練集。每個訓(xùn)練樣例稱作訓(xùn)練實(shí)例（或樣本）。在這個例子中，任務(wù) T 就是標(biāo)記新郵件是否是垃圾郵件，經(jīng)驗(yàn)E是訓(xùn)練數(shù)據(jù)，性能P需要定義：例如，可以使用正確分類的比例。這個性能指標(biāo)稱為準(zhǔn)確率，通常用在分類任務(wù)中。

如果你下載了一份維基百科的拷貝，你的電腦雖然有了很多數(shù)據(jù)，但不會馬上變得聰明起來。因此，這不是機(jī)器學(xué)習(xí)。

為什么使用機(jī)器學(xué)習(xí)？

思考一下，你會如何使用傳統(tǒng)的編程技術(shù)寫一個垃圾郵件過濾器（圖 1-1）：

你先觀察下垃圾郵件一般都是什么樣子。你可能注意到一些詞或短語（比如 4U、credit card、free、amazing）在郵件主題中頻繁出現(xiàn)，也許還注意到發(fā)件人名字、郵件正文的格式，等等。

你為觀察到的規(guī)律寫了一個檢測算法，如果檢測到了這些規(guī)律，程序就會標(biāo)記郵件為垃圾郵件。

測試程序，重復(fù)第1步和第2步，直到滿足要求。

圖 1-1 傳統(tǒng)方法

這個問題并不簡單，你的程序很可能會變成一長串復(fù)雜的規(guī)則—— 這樣就會很難維護(hù)。

相反的，基于機(jī)器學(xué)習(xí)技術(shù)的垃圾郵件過濾器會自動學(xué)習(xí)哪個詞和短語是垃圾郵件的預(yù)測值，通過與普通郵件比較，檢測垃圾郵件中反常頻次的詞語格式（圖 1-2）。這個程序短得多，更易維護(hù)，也更精確。

圖 1-2 機(jī)器學(xué)習(xí)方法

進(jìn)而，如果發(fā)送垃圾郵件的人發(fā)現(xiàn)所有包含“4U”的郵件都被屏蔽了，可能會轉(zhuǎn)而使用“For U”。使用傳統(tǒng)方法的垃圾郵件過濾器需要更新以標(biāo)記“For U”。如果發(fā)送垃圾郵件的人持續(xù)更改，你就需要被動地不停地寫入新規(guī)則。

相反的，基于機(jī)器學(xué)習(xí)的垃圾郵件過濾器會自動注意到“For U”在用戶手動標(biāo)記垃圾郵件中的反常頻繁性，然后就能自動標(biāo)記垃圾郵件而無需干預(yù)了（圖1-3）。

圖 1-3 自動適應(yīng)改變

機(jī)器學(xué)習(xí)的另一個優(yōu)點(diǎn)是善于處理對于傳統(tǒng)方法太復(fù)雜或是沒有已知算法的問題。例如，對于語言識別：假如想寫一個可以識別“one”和“two”的簡單程序。你可能注意到“two”起始是一個高音（“T”），所以可以寫一個可以測量高音強(qiáng)度的算法，用它區(qū)分 one 和 two。很明顯，這個方法不能推廣到嘈雜環(huán)境下的數(shù)百萬人的數(shù)千詞匯、數(shù)十種語言。（現(xiàn)在）最佳的方法是根據(jù)大量單詞的錄音，寫一個可以自我學(xué)習(xí)的算法。

最后，機(jī)器學(xué)習(xí)可以幫助人類進(jìn)行學(xué)習(xí)（圖 1-4）：可以檢查機(jī)器學(xué)習(xí)算法已經(jīng)掌握了什么（盡管對于某些算法，這樣做會有點(diǎn)麻煩）。例如，當(dāng)垃圾郵件過濾器被訓(xùn)練了足夠多的垃圾郵件，就可以用它列出垃圾郵件預(yù)測值的單詞和單詞組合列表。有時，可能會發(fā)現(xiàn)不引人關(guān)注的關(guān)聯(lián)或新趨勢，有助于對問題更好的理解。

圖 1-4 機(jī)器學(xué)習(xí)可以幫助人類學(xué)習(xí)

使用機(jī)器學(xué)習(xí)方法挖掘大量數(shù)據(jù)，可以發(fā)現(xiàn)并不顯著的規(guī)律。這稱作數(shù)據(jù)挖掘。

總結(jié)一下，機(jī)器學(xué)習(xí)善于：

需要進(jìn)行大量手工調(diào)整或需要擁有長串規(guī)則才能解決的問題：機(jī)器學(xué)習(xí)算法通?？梢院喕a、提高性能。

問題復(fù)雜，傳統(tǒng)方法難以解決：最好的機(jī)器學(xué)習(xí)方法可以找到解決方案。

環(huán)境有波動：機(jī)器學(xué)習(xí)算法可以適應(yīng)新數(shù)據(jù)。

洞察復(fù)雜問題和大量數(shù)據(jù)。

機(jī)器學(xué)習(xí)系統(tǒng)的類型

機(jī)器學(xué)習(xí)有多種類型，可以根據(jù)如下規(guī)則進(jìn)行分類：

是否在人類監(jiān)督下進(jìn)行訓(xùn)練（監(jiān)督，非監(jiān)督，半監(jiān)督和強(qiáng)化學(xué)習(xí)）

是否可以動態(tài)漸進(jìn)學(xué)習(xí)（在線學(xué)習(xí) vs 批量學(xué)習(xí)）

它們是否只是通過簡單地比較新的數(shù)據(jù)點(diǎn)和已知的數(shù)據(jù)點(diǎn)，或者在訓(xùn)練數(shù)據(jù)中進(jìn)行模式識別，以建立一個預(yù)測模型，就像科學(xué)家所做的那樣（基于實(shí)例學(xué)習(xí) vs 基于模型學(xué)習(xí)）

規(guī)則并不僅限于以上的，你可以將他們進(jìn)行組合。例如，一個先進(jìn)的垃圾郵件過濾器可以使用神經(jīng)網(wǎng)絡(luò)模型動態(tài)進(jìn)行學(xué)習(xí)，用垃圾郵件和普通郵件進(jìn)行訓(xùn)練。這就讓它成了一個在線、基于模型、監(jiān)督學(xué)習(xí)系統(tǒng)。

下面更仔細(xì)地學(xué)習(xí)這些規(guī)則。

監(jiān)督/非監(jiān)督學(xué)習(xí)

機(jī)器學(xué)習(xí)可以根據(jù)訓(xùn)練時監(jiān)督的量和類型進(jìn)行分類。主要有四類：監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

監(jiān)督學(xué)習(xí)

在監(jiān)督學(xué)習(xí)中，用來訓(xùn)練算法的訓(xùn)練數(shù)據(jù)包含了答案，稱為標(biāo)簽（圖 1-5）。

圖 1-5 用于監(jiān)督學(xué)習(xí)（比如垃圾郵件分類）的加了標(biāo)簽的訓(xùn)練集

一個典型的監(jiān)督學(xué)習(xí)任務(wù)是分類。垃圾郵件過濾器就是一個很好的例子：用許多帶有歸類（垃圾郵件或普通郵件）的郵件樣本進(jìn)行訓(xùn)練，過濾器必須還能對新郵件進(jìn)行分類。

另一個典型任務(wù)是預(yù)測目標(biāo)數(shù)值，例如給出一些特征（里程數(shù)、車齡、品牌等等）稱作預(yù)測值，來預(yù)測一輛汽車的價格。這類任務(wù)稱作回歸（圖 1-6）。要訓(xùn)練這個系統(tǒng)，你需要給出大量汽車樣本，包括它們的預(yù)測值和標(biāo)簽（即，它們的價格）。

注解：在機(jī)器學(xué)習(xí)中，一個屬性就是一個數(shù)據(jù)類型（例如，“里程數(shù)”），取決于具體問題一個特征會有多個含義，但通常是屬性加上它的值（例如，“里程數(shù)=15000”）。許多人是不區(qū)分地使用屬性和特征。

圖 1-6 回歸

注意，一些回歸算法也可以用來進(jìn)行分類，反之亦然。例如，邏輯回歸通常用來進(jìn)行分類，它可以生成一個歸屬某一類的可能性的值（例如，20% 幾率為垃圾郵件）。

下面是一些重要的監(jiān)督學(xué)習(xí)算法（本書都有介紹）：

K近鄰算法

線性回歸

邏輯回歸

支持向量機(jī)（SVM）

決策樹和隨機(jī)森林

神經(jīng)網(wǎng)絡(luò)

非監(jiān)督學(xué)習(xí)

在非監(jiān)督學(xué)習(xí)中，你可能猜到了，訓(xùn)練數(shù)據(jù)是沒有加標(biāo)簽的（圖 1-7）。系統(tǒng)在沒有老師的條件下進(jìn)行學(xué)習(xí)。

圖 1-7 非監(jiān)督學(xué)習(xí)的一個不加標(biāo)簽的訓(xùn)練集

下面是一些最重要的非監(jiān)督學(xué)習(xí)算法（我們會在第 8 章介紹降維）：

聚類K 均值層次聚類分析（Hierarchical Cluster Analysis，HCA）期望最大值

可視化和降維主成分分析（Principal Component Analysis，PCA）核主成分分析局部線性嵌入（Locally-Linear Embedding，LLE）t-分布鄰域嵌入算法（t-distributed Stochastic Neighbor Embedding，t-SNE）

關(guān)聯(lián)性規(guī)則學(xué)習(xí)Apriori 算法Eclat 算法

例如，假設(shè)你有一份關(guān)于你的博客訪客的大量數(shù)據(jù)。你想運(yùn)行一個聚類算法，檢測相似訪客的分組（圖 1-8）。你不會告訴算法某個訪客屬于哪一類：它會自己找出關(guān)系，無需幫助。例如，算法可能注意到 40% 的訪客是喜歡漫畫書的男性，通常是晚上訪問，20% 是科幻愛好者，他們是在周末訪問等等。如果你使用層次聚類分析，它可能還會細(xì)分每個分組為更小的組。這可以幫助你為每個分組定位博文。

圖 1-8 聚類

可視化算法也是極佳的非監(jiān)督學(xué)習(xí)案例：給算法大量復(fù)雜的且不加標(biāo)簽的數(shù)據(jù)，算法輸出數(shù)據(jù)的2D或3D圖像（圖 1-9）。算法會試圖保留數(shù)據(jù)的結(jié)構(gòu)（即嘗試保留輸入的獨(dú)立聚類，避免在圖像中重疊），這樣就可以明白數(shù)據(jù)是如何組織起來的，也許還能發(fā)現(xiàn)隱藏的規(guī)律。

圖 1-9 t-SNE 可視化案例，突出了聚類

（注：注意動物是與汽車分開的，馬和鹿很近、與鳥距離遠(yuǎn)，以此類推）

與此有關(guān)聯(lián)的任務(wù)是降維，降維的目的是簡化數(shù)據(jù)、但是不能失去大部分信息。做法之一是合并若干相關(guān)的特征。例如，汽車的里程數(shù)與車齡高度相關(guān)，降維算法就會將它們合并成一個，表示汽車的磨損。這叫做特征提取。

提示：在用訓(xùn)練集訓(xùn)練機(jī)器學(xué)習(xí)算法（比如監(jiān)督學(xué)習(xí)算法）時，最好對訓(xùn)練集進(jìn)行降維。這樣可以運(yùn)行的更快，占用的硬盤和內(nèi)存空間更少，有些情況下性能也更好。

另一個重要的非監(jiān)督任務(wù)是異常檢測（anomaly detection） —— 例如，檢測異常的信用卡轉(zhuǎn)賬以防欺詐，檢測制造缺陷，或者在訓(xùn)練之前自動從訓(xùn)練數(shù)據(jù)集去除異常值。異常檢測的系統(tǒng)使用正常值訓(xùn)練的，當(dāng)它碰到一個新實(shí)例，它可以判斷這個新實(shí)例是像正常值還是異常值（圖 1-10）。

圖 1-10 異常檢測

最后，另一個常見的非監(jiān)督任務(wù)是關(guān)聯(lián)規(guī)則學(xué)習(xí)，它的目標(biāo)是挖掘大量數(shù)據(jù)以發(fā)現(xiàn)屬性間有趣的關(guān)系。例如，假設(shè)你擁有一個超市。在銷售日志上運(yùn)行關(guān)聯(lián)規(guī)則，可能發(fā)現(xiàn)買了燒烤醬和薯片的人也會買牛排。因此，你可以將這些商品放在一起。

半監(jiān)督學(xué)習(xí)

一些算法可以處理部分帶標(biāo)簽的訓(xùn)練數(shù)據(jù)，通常是大量不帶標(biāo)簽數(shù)據(jù)加上小部分帶標(biāo)簽數(shù)據(jù)。這稱作半監(jiān)督學(xué)習(xí)（圖 1-11）。

一些圖片存儲服務(wù)，比如 Google Photos，是半監(jiān)督學(xué)習(xí)的好例子。一旦你上傳了所有家庭相片，它就能自動識別相同的人 A 出現(xiàn)了相片 1、5、11 中，另一個人 B 出現(xiàn)在了相片 2、5、7 中。這是算法的非監(jiān)督部分（聚類）?，F(xiàn)在系統(tǒng)需要的就是你告訴這兩個人是誰。只要給每個人一個標(biāo)簽，算法就可以命名每張照片中的每個人，特別適合搜索照片。

圖 1-11 半監(jiān)督學(xué)習(xí)

多數(shù)半監(jiān)督學(xué)習(xí)算法是非監(jiān)督和監(jiān)督算法的結(jié)合。例如，深度信念網(wǎng)絡(luò)（deep belief networks）是基于被稱為互相疊加的受限玻爾茲曼機(jī)（restricted Boltzmann machines，RBM）的非監(jiān)督組件。RBM 是先用非監(jiān)督方法進(jìn)行訓(xùn)練，再用監(jiān)督學(xué)習(xí)方法進(jìn)行整個系統(tǒng)微調(diào)。

強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)非常不同。學(xué)習(xí)系統(tǒng)在這里被稱為智能體（agent），可以對環(huán)境進(jìn)行觀察，選擇和執(zhí)行動作，獲得獎勵（負(fù)獎勵是懲罰，見圖 1-12）。然后它必須自己學(xué)習(xí)哪個是最佳方法（稱為策略，policy），以得到長久的最大獎勵。策略決定了智能體在給定情況下應(yīng)該采取的行動。

圖 1-12 強(qiáng)化學(xué)習(xí)

例如，許多機(jī)器人運(yùn)行強(qiáng)化學(xué)習(xí)算法以學(xué)習(xí)如何行走。DeepMind 的 AlphaGo 也是強(qiáng)化學(xué)習(xí)的例子：它在 2016 年三月?lián)魯×耸澜鐕骞谲娎钍朗ㄗg者注：2017 年五月，AlphaGo 又擊敗了世界排名第一的柯潔）。它是通過分析數(shù)百萬盤棋局學(xué)習(xí)制勝策略，然后自己和自己下棋。要注意，在比賽中機(jī)器學(xué)習(xí)是關(guān)閉的；AlphaGo 只是使用它學(xué)會的策略。

批量和在線學(xué)習(xí)

另一個用來分類機(jī)器學(xué)習(xí)的準(zhǔn)則是，它是否能從導(dǎo)入的數(shù)據(jù)流進(jìn)行持續(xù)學(xué)習(xí)。

批量學(xué)習(xí)

在批量學(xué)習(xí)中，系統(tǒng)不能進(jìn)行持續(xù)學(xué)習(xí)：必須用所有可用數(shù)據(jù)進(jìn)行訓(xùn)練。這通常會占用大量時間和計(jì)算資源，所以一般是線下做的。首先是進(jìn)行訓(xùn)練，然后部署在生產(chǎn)環(huán)境且停止學(xué)習(xí)，它只是使用已經(jīng)學(xué)到的策略。這稱為離線學(xué)習(xí)。

如果你想讓一個批量學(xué)習(xí)系統(tǒng)明白新數(shù)據(jù)（例如垃圾郵件的新類型），就需要從頭訓(xùn)練一個系統(tǒng)的新版本，使用全部數(shù)據(jù)集（不僅有新數(shù)據(jù)也有老數(shù)據(jù)），然后停掉老系統(tǒng)，換上新系統(tǒng)。

幸運(yùn)的是，訓(xùn)練、評估、部署一套機(jī)器學(xué)習(xí)的系統(tǒng)的整個過程可以自動進(jìn)行（見圖 1-3），所以即便是批量學(xué)習(xí)也可以適應(yīng)改變。只要有需要，就可以方便地更新數(shù)據(jù)、訓(xùn)練一個新版本。

這個方法很簡單，通?？梢詽M足需求，但是用全部數(shù)據(jù)集進(jìn)行訓(xùn)練會花費(fèi)大量時間，所以一般是每 24 小時或每周訓(xùn)練一個新系統(tǒng)。如果系統(tǒng)需要快速適應(yīng)變化的數(shù)據(jù)（比如，預(yù)測股價變化），就需要一個響應(yīng)更及時的方案。

另外，用全部數(shù)據(jù)訓(xùn)練需要大量計(jì)算資源（CPU、內(nèi)存空間、磁盤空間、磁盤 I/O、網(wǎng)絡(luò) I/O 等等）。如果你有大量數(shù)據(jù)，并讓系統(tǒng)每天自動從頭開始訓(xùn)練，就會開銷很大。如果數(shù)據(jù)量巨大，甚至無法使用批量學(xué)習(xí)算法。

最后，如果你的系統(tǒng)需要自動學(xué)習(xí)，但是資源有限（比如，一臺智能手機(jī)或火星車），攜帶大量訓(xùn)練數(shù)據(jù)、每天花費(fèi)數(shù)小時的大量資源進(jìn)行訓(xùn)練是不實(shí)際的。

幸運(yùn)的是，對于上面這些情況，還有一個更佳的方案可以進(jìn)行持續(xù)學(xué)習(xí)。

在線學(xué)習(xí)

在在線學(xué)習(xí)中，是用數(shù)據(jù)實(shí)例持續(xù)地進(jìn)行訓(xùn)練，可以一次一個或一次幾個實(shí)例（稱為小批量）。每個學(xué)習(xí)步驟都很快且廉價，所以系統(tǒng)可以動態(tài)地學(xué)習(xí)到達(dá)的新數(shù)據(jù)（見圖 1-13）。

圖 1-13 在線學(xué)習(xí)

在線學(xué)習(xí)很適合系統(tǒng)接收連續(xù)流的數(shù)據(jù)（比如，股票價格），且需要自動對改變作出調(diào)整。如果計(jì)算資源有限，在線學(xué)習(xí)是一個不錯的方案：一旦在線學(xué)習(xí)系統(tǒng)學(xué)習(xí)了新的數(shù)據(jù)實(shí)例，它就不再需要這些數(shù)據(jù)了，所以扔掉這些數(shù)據(jù)（除非你想滾回到之前的一個狀態(tài)，再次使用數(shù)據(jù)）。這樣可以節(jié)省大量的空間。

在線學(xué)習(xí)算法也可以當(dāng)機(jī)器的內(nèi)存存不下大量數(shù)據(jù)集時，用來訓(xùn)練系統(tǒng)（這稱作核外學(xué)習(xí)，out-of-core learning）。算法加載部分的數(shù)據(jù)，用這些數(shù)據(jù)進(jìn)行訓(xùn)練，重復(fù)這個過程，直到用所有數(shù)據(jù)都進(jìn)行了訓(xùn)練（見圖 1-14）。

警告：這個整個過程通常是離線完成的（即，不在部署的系統(tǒng)上），所以在線學(xué)習(xí)這個名字會讓人疑惑?？梢园阉氤沙掷m(xù)學(xué)習(xí)。

圖 1-14 使用在線學(xué)習(xí)處理大量數(shù)據(jù)集

在線學(xué)習(xí)系統(tǒng)的一個重要參數(shù)是，它們可以多快地適應(yīng)數(shù)據(jù)的改變：這被稱為學(xué)習(xí)速率。如果你設(shè)定一個高學(xué)習(xí)速率，系統(tǒng)就可以快速適應(yīng)新數(shù)據(jù)，但是也會快速忘記老書記（你可不想讓垃圾郵件過濾器只標(biāo)記最新的垃圾郵件種類）。相反的，如果你設(shè)定的學(xué)習(xí)速率低，系統(tǒng)的惰性就會強(qiáng)：即，它學(xué)的更慢，但對新數(shù)據(jù)中的噪聲或沒有代表性的數(shù)據(jù)點(diǎn)結(jié)果不那么敏感。

在線學(xué)習(xí)的挑戰(zhàn)之一是，如果壞數(shù)據(jù)被用來進(jìn)行訓(xùn)練，系統(tǒng)的性能就會逐漸下滑。如果這是一個部署的系統(tǒng)，用戶就會注意到。例如，壞數(shù)據(jù)可能來自失靈的傳感器或機(jī)器人，或某人向搜索引擎?zhèn)魅肜畔⒁蕴岣咚阉髋琶?。要減小這種風(fēng)險，你需要密集監(jiān)測，如果檢測到性能下降，要快速關(guān)閉（或是滾回到一個之前的狀態(tài)）。你可能還要監(jiān)測輸入數(shù)據(jù)，對反常數(shù)據(jù)做出反應(yīng)（比如，使用異常檢測算法）。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

過濾器

過濾器

+關(guān)注

關(guān)注
1

文章
428

瀏覽量
19593
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8406

瀏覽量
132561

原文標(biāo)題：【翻譯】Sklearn 與 TensorFlow 機(jī)器學(xué)習(xí)實(shí)用指南 —— 第1章機(jī)器學(xué)習(xí)概覽（上）

文章出處：【微信號：AI_shequ，微信公眾號：人工智能愛好者社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

#機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)框圖的分類

人工智能機(jī)器學(xué)習(xí)

電子技術(shù)那些事兒

發(fā)布于 :2022年09月09日 21:31:17

#機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)中的開放挑戰(zhàn)

人工智能機(jī)器學(xué)習(xí)

電子技術(shù)那些事兒

發(fā)布于 :2022年09月10日 22:12:29

#機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)正在去向哪里?

人工智能機(jī)器學(xué)習(xí)

電子技術(shù)那些事兒

發(fā)布于 :2022年09月10日 22:13:51

機(jī)器學(xué)習(xí)#機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

未來加油dz

發(fā)布于 :2023年07月14日 16:35:43

【下載】《機(jī)器學(xué)習(xí)》+《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》

`1.機(jī)器學(xué)習(xí)簡介：機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)與人工智能的重要分支領(lǐng)域. 本書作為該領(lǐng)域的入門教材，在內(nèi)容上盡可能涵蓋機(jī)器

發(fā)表于 06-01 15:49

python人工智能/機(jī)器學(xué)習(xí)基礎(chǔ)是什么

python人工智能——機(jī)器學(xué)習(xí)——機(jī)器學(xué)習(xí)基礎(chǔ)

發(fā)表于 04-28 14:46

什么是機(jī)器學(xué)習(xí)? 機(jī)器學(xué)習(xí)基礎(chǔ)入門

本文旨在為硬件和嵌入式工程師提供機(jī)器學(xué)習(xí)(ML)的背景，它是什么，它是如何工作的，它為什么重要，以及 TinyML 是如何適應(yīng)的機(jī)器學(xué)習(xí)是一個始終存在并經(jīng)常被誤解的技術(shù)概念。數(shù)十年來，

發(fā)表于 06-21 11:06

什么是機(jī)器學(xué)習(xí)？機(jī)器學(xué)習(xí)能解決什么問題？（案例分析）

隨著大數(shù)據(jù)時代的到來，機(jī)器學(xué)習(xí)成為解決問題的一種重要且關(guān)鍵的工具。不管是工業(yè)界還是學(xué)術(shù)界，機(jī)器學(xué)習(xí)都是一個炙手可熱的方向，但是學(xué)術(shù)界和工業(yè)界對機(jī)器

發(fā)表于 05-18 13:13 ?1.6w次閱讀

如何開始接觸機(jī)器學(xué)習(xí)_機(jī)器學(xué)習(xí)入門方法盤點(diǎn)

機(jī)器學(xué)習(xí)入門方法一說到機(jī)器學(xué)習(xí)，我被問得最多的問題是：給那些開始學(xué)習(xí)機(jī)器學(xué)習(xí)的人的最好的建議是

發(fā)表于 05-20 07:10 ?4066次閱讀

什么是機(jī)器學(xué)習(xí)？機(jī)器學(xué)習(xí)是如何工作的呢？

為了更清楚地理解機(jī)器學(xué)習(xí)的過程，我們將以開發(fā)能夠識別手寫數(shù)字的機(jī)器為具體例子來考慮模式識別的問題。這樣的機(jī)器應(yīng)該能夠準(zhǔn)確識別一個字符所代表的數(shù)字，而無論它的書寫格式如何變化。

發(fā)表于 01-12 10:05 ?7753次閱讀

闡述機(jī)器學(xué)習(xí)如何與機(jī)器學(xué)習(xí)相互作用

知識圖譜和機(jī)器學(xué)習(xí)，這兩個看似不相關(guān)的事物，放在一起會發(fā)生什么樣的化學(xué)反應(yīng)？本文將從五個方面，闡述機(jī)器學(xué)習(xí)如何與機(jī)器

發(fā)表于 07-28 09:10 ?932次閱讀

機(jī)器學(xué)習(xí)是什么，機(jī)器學(xué)習(xí)的定義

機(jī)器學(xué)習(xí)是一門能夠讓編程計(jì)算機(jī)從數(shù)據(jù)中學(xué)習(xí)的計(jì)算機(jī)科學(xué)（和藝術(shù)）。

發(fā)表于 02-03 09:18 ?8311次閱讀

機(jī)器學(xué)習(xí)是什么，機(jī)器學(xué)習(xí)分為幾類

大多數(shù)人聽到“機(jī)器學(xué)習(xí)”這個詞，腦海中會浮現(xiàn)出一個機(jī)器人：可能是一個可靠的管家，也可能是一個致命的終結(jié)者形象，這取決于你問的對象是誰。

發(fā)表于 02-03 10:04 ?1.3w次閱讀

什么是機(jī)器學(xué)習(xí)？機(jī)器學(xué)習(xí)基礎(chǔ)介紹

本文旨在為硬件和嵌入式工程師介紹機(jī)器學(xué)習(xí) (ML) 的背景，了解它是什么、它是如何工作的、它為何重要以及 TinyML 如何融入其中。 機(jī)器學(xué)習(xí)是一個永遠(yuǎn)存在且經(jīng)常被誤解的技術(shù)概念。這

發(fā)表于 08-25 17:19 ?2448次閱讀

機(jī)器學(xué)習(xí)是什么意思？機(jī)器學(xué)習(xí)屬于什么分支？機(jī)器學(xué)習(xí)有什么用處？

機(jī)器學(xué)習(xí)是什么意思？機(jī)器學(xué)習(xí)屬于什么分支？機(jī)器學(xué)習(xí)是什么有什么用處？

發(fā)表于 08-17 16:30 ?1731次閱讀

RM新时代网站-首页

搜索歷史

什么是機(jī)器學(xué)習(xí)？為什么使用機(jī)器學(xué)習(xí)？

評論

#機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)框圖的分類

#機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)中的開放挑戰(zhàn)

#機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)正在去向哪里?

機(jī)器學(xué)習(xí)#機(jī)器學(xué)習(xí)

【下載】《機(jī)器學(xué)習(xí)》+《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》

python人工智能/機(jī)器學(xué)習(xí)基礎(chǔ)是什么

什么是機(jī)器學(xué)習(xí)? 機(jī)器學(xué)習(xí)基礎(chǔ)入門

什么是機(jī)器學(xué)習(xí)？機(jī)器學(xué)習(xí)能解決什么問題？（案例分析）

如何開始接觸機(jī)器學(xué)習(xí)_機(jī)器學(xué)習(xí)入門方法盤點(diǎn)

什么是機(jī)器學(xué)習(xí)？機(jī)器學(xué)習(xí)是如何工作的呢？

闡述機(jī)器學(xué)習(xí)如何與機(jī)器學(xué)習(xí)相互作用

機(jī)器學(xué)習(xí)是什么，機(jī)器學(xué)習(xí)的定義

機(jī)器學(xué)習(xí)是什么，機(jī)器學(xué)習(xí)分為幾類

什么是機(jī)器學(xué)習(xí)？機(jī)器學(xué)習(xí)基礎(chǔ)介紹

機(jī)器學(xué)習(xí)是什么意思？機(jī)器學(xué)習(xí)屬于什么分支？機(jī)器學(xué)習(xí)有什么用處？