在3.1 節(jié)中,我們介紹了線性回歸,在3.4 節(jié)中從頭開(kāi)始實(shí)現(xiàn) ,并在3.5 節(jié)中再次使用深度學(xué)習(xí)框架的高級(jí) API來(lái)完成繁重的工作。
回歸是我們想回答多少的時(shí)候伸手去拿的錘子? 或者有多少?問(wèn)題。如果你想預(yù)測(cè)房子的售價(jià)(價(jià)格),或者一支棒球隊(duì)可能獲勝的次數(shù),或者病人出院前住院的天數(shù),那么你可能是尋找回歸模型。然而,即使在回歸模型中,也存在重要的區(qū)別。例如,房屋的價(jià)格永遠(yuǎn)不會(huì)是負(fù)數(shù),并且變化可能通常與其基準(zhǔn)價(jià)格有關(guān)。因此,對(duì)價(jià)格的對(duì)數(shù)進(jìn)行回歸可能更有效。同樣,患者住院的天數(shù)是 離散的非負(fù)數(shù)隨機(jī)變量。因此,最小均方可能也不是理想的方法。這種時(shí)間-事件建模伴隨著許多其他并發(fā)癥,這些并發(fā)癥在稱為生存建模的專門子領(lǐng)域中處理。
這里的重點(diǎn)不是要讓你不知所措,而只是讓你知道,除了簡(jiǎn)單地最小化平方誤差之外,還有很多東西需要估計(jì)。更廣泛地說(shuō),監(jiān)督學(xué)習(xí)比回歸要多得多。在這一節(jié)中,我們重點(diǎn)關(guān)注分類問(wèn)題,我們擱置了多少?問(wèn)題,而是關(guān)注哪個(gè)類別?問(wèn)題。
-
這封電子郵件屬于垃圾郵件文件夾還是收件箱?
-
該客戶是否更有可能注冊(cè)或不注冊(cè)訂閱服務(wù)?
-
這個(gè)圖像描繪的是驢、狗、貓還是公雞?
-
阿斯頓接下來(lái)最有可能看哪部電影?
-
您接下來(lái)要閱讀本書的哪一部分?
通俗地說(shuō),機(jī)器學(xué)習(xí)從業(yè)者重載了單詞 分類來(lái)描述兩個(gè)細(xì)微不同的問(wèn)題:(i)那些我們只對(duì)將示例硬分配給類別(類)感興趣的問(wèn)題;(ii) 那些我們希望進(jìn)行軟分配的地方,即評(píng)估每個(gè)類別適用的概率。這種區(qū)別往往會(huì)變得模糊,部分原因是,即使我們只關(guān)心硬分配,我們?nèi)匀唤?jīng)常使用進(jìn)行軟分配的模型。
更重要的是,在某些情況下,不止一個(gè)標(biāo)簽可能是真實(shí)的。例如,一篇新聞文章可能同時(shí)涵蓋娛樂(lè)、商業(yè)和太空飛行等主題,但不會(huì)涵蓋醫(yī)學(xué)或體育主題。因此,將其單獨(dú)歸入上述類別之一并不是很有用。這個(gè)問(wèn)題通常被稱為多標(biāo)簽分類。參見(jiàn)Tsoumakas 和 Katakis ( 2007 )的概述和 Huang等人。( 2015 )用于標(biāo)記圖像時(shí)的有效算法。
4.1.1. 分類
讓我們先從一個(gè)簡(jiǎn)單的圖像分類問(wèn)題開(kāi)始。這里,每個(gè)輸入包含一個(gè)2×2灰度圖像。我們可以用一個(gè)標(biāo)量表示每個(gè)像素值,給我們四個(gè)特征x1,x2,x3,x4. 此外,假設(shè)每個(gè)圖像屬于類別“貓”、“雞”和“狗”中的一個(gè)。
接下來(lái),我們必須選擇如何表示標(biāo)簽。我們有兩個(gè)明顯的選擇。也許最自然的沖動(dòng)是選擇 y∈{1,2,3},其中整數(shù)代表 {dog,cat,chicken}分別。這是在計(jì)算機(jī)上存儲(chǔ)此類信息的好方法。如果類別之間有一些自然順序,比如說(shuō)我們是否試圖預(yù)測(cè) {baby,toddler,adolescent,young adult,adult,geriatric},那么將其轉(zhuǎn)換為有序回歸問(wèn)題并以這種格式保留標(biāo)簽甚至可能是有意義的。參見(jiàn) Moon等人。( 2010 )概述了不同類型的排名損失函數(shù)和Beutel等人。( 2014 ) 用于解決具有多個(gè)模式的響應(yīng)的貝葉斯方法。
一般而言,分類問(wèn)題并不伴隨著類別之間的自然排序。幸運(yùn)的是,統(tǒng)計(jì)學(xué)家很久以前就發(fā)明了一種表示分類數(shù)據(jù)的簡(jiǎn)單方法:one-hot encoding。one-hot 編碼是一個(gè)向量,其分量與我們的類別一樣多。對(duì)應(yīng)于特定實(shí)例類別的組件設(shè)置為 1,所有其他組件設(shè)置為 0。在我們的例子中,標(biāo)簽y 將是一個(gè)三維向量,具有(1,0,0) 對(duì)應(yīng)“貓”,(0,1,0)到“雞”,和 (0,0,1)對(duì)“狗”:
4.1.1.1. 線性模型
為了估計(jì)與所有可能類別相關(guān)的條件概率,我們需要一個(gè)具有多個(gè)輸出的模型,每個(gè)類別一個(gè)。為了解決線性模型的分類問(wèn)題,我們需要與輸出一樣多的仿射函數(shù)。嚴(yán)格來(lái)說(shuō),我們只需要少一個(gè),因?yàn)樽詈笠活惐仨毷?1和其他類別的總和,但出于對(duì)稱的原因,我們使用了稍微冗余的參數(shù)化。每個(gè)輸出對(duì)應(yīng)于它自己的仿射函數(shù)。在我們的例子中,由于我們有 4 個(gè)特征和 3 個(gè)可能的輸出類別,我們需要 12 個(gè)標(biāo)量來(lái)表示權(quán)重(w帶下標(biāo))和 3 個(gè)標(biāo)量來(lái)表示偏差(b帶下標(biāo))。這產(chǎn)生:
評(píng)論
查看更多