電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>PyTorch教程4.1之Softmax回歸

PyTorch教程4.1之Softmax回歸

2512987 2023-06-05 | pdf | 0.23 MB | 次下載 | 免費(fèi)

資料介紹

在3.1 節(jié)中，我們介紹了線性回歸，在 3.4 節(jié)中從頭開(kāi)始實(shí)現(xiàn) ，并在3.5 節(jié)中再次使用深度學(xué)習(xí)框架的高級(jí) API來(lái)完成繁重的工作。

回歸是我們想回答多少的時(shí)候伸手去拿的錘子？ 或者有多少？問(wèn)題。如果你想預(yù)測(cè)房子的售價(jià)（價(jià)格），或者一支棒球隊(duì)可能獲勝的次數(shù)，或者病人出院前住院的天數(shù)，那么你可能是尋找回歸模型。然而，即使在回歸模型中，也存在重要的區(qū)別。例如，房屋的價(jià)格永遠(yuǎn)不會(huì)是負(fù)數(shù)，并且變化可能通常與其基準(zhǔn)價(jià)格有關(guān)。因此，對(duì)價(jià)格的對(duì)數(shù)進(jìn)行回歸可能更有效。同樣，患者住院的天數(shù)是 離散的非負(fù)數(shù)隨機(jī)變量。因此，最小均方可能也不是理想的方法。這種時(shí)間-事件建模伴隨著許多其他并發(fā)癥，這些并發(fā)癥在稱為生存建模的專門子領(lǐng)域中處理。

這里的重點(diǎn)不是要讓你不知所措，而只是讓你知道，除了簡(jiǎn)單地最小化平方誤差之外，還有很多東西需要估計(jì)。更廣泛地說(shuō)，監(jiān)督學(xué)習(xí)比回歸要多得多。在這一節(jié)中，我們重點(diǎn)關(guān)注分類問(wèn)題，我們擱置了多少？問(wèn)題，而是關(guān)注哪個(gè)類別？問(wèn)題。

這封電子郵件屬于垃圾郵件文件夾還是收件箱？
該客戶是否更有可能注冊(cè)或不注冊(cè)訂閱服務(wù)？
這個(gè)圖像描繪的是驢、狗、貓還是公雞？
阿斯頓接下來(lái)最有可能看哪部電影？
您接下來(lái)要閱讀本書的哪一部分？

通俗地說(shuō)，機(jī)器學(xué)習(xí)從業(yè)者重載了單詞分類來(lái)描述兩個(gè)細(xì)微不同的問(wèn)題：（i）那些我們只對(duì)將示例硬分配給類別（類）感興趣的問(wèn)題；(ii) 那些我們希望進(jìn)行軟分配的地方，即評(píng)估每個(gè)類別適用的概率。這種區(qū)別往往會(huì)變得模糊，部分原因是，即使我們只關(guān)心硬分配，我們?nèi)匀唤?jīng)常使用進(jìn)行軟分配的模型。

更重要的是，在某些情況下，不止一個(gè)標(biāo)簽可能是真實(shí)的。例如，一篇新聞文章可能同時(shí)涵蓋娛樂(lè)、商業(yè)和太空飛行等主題，但不會(huì)涵蓋醫(yī)學(xué)或體育主題。因此，將其單獨(dú)歸入上述類別之一并不是很有用。這個(gè)問(wèn)題通常被稱為多標(biāo)簽分類。參見(jiàn)Tsoumakas 和 Katakis ( 2007 )的概述和 Huang等人。( 2015 )用于標(biāo)記圖像時(shí)的有效算法。

4.1.1. 分類

讓我們先從一個(gè)簡(jiǎn)單的圖像分類問(wèn)題開(kāi)始。這里，每個(gè)輸入包含一個(gè)2×2灰度圖像。我們可以用一個(gè)標(biāo)量表示每個(gè)像素值，給我們四個(gè)特征x1,x2,x3,x4. 此外，假設(shè)每個(gè)圖像屬于類別“貓”、“雞”和“狗”中的一個(gè)。

接下來(lái)，我們必須選擇如何表示標(biāo)簽。我們有兩個(gè)明顯的選擇。也許最自然的沖動(dòng)是選擇 y∈{1,2,3}，其中整數(shù)代表 {dog,cat,chicken}分別。這是在計(jì)算機(jī)上存儲(chǔ)此類信息的好方法。如果類別之間有一些自然順序，比如說(shuō)我們是否試圖預(yù)測(cè) {baby,toddler,adolescent,young adult,adult,geriatric}，那么將其轉(zhuǎn)換為有序回歸問(wèn)題并以這種格式保留標(biāo)簽甚至可能是有意義的。參見(jiàn) Moon等人。( 2010 )概述了不同類型的排名損失函數(shù)和Beutel等人。( 2014 ) 用于解決具有多個(gè)模式的響應(yīng)的貝葉斯方法。

一般而言，分類問(wèn)題并不伴隨著類別之間的自然排序。幸運(yùn)的是，統(tǒng)計(jì)學(xué)家很久以前就發(fā)明了一種表示分類數(shù)據(jù)的簡(jiǎn)單方法：one-hot encoding。one-hot 編碼是一個(gè)向量，其分量與我們的類別一樣多。對(duì)應(yīng)于特定實(shí)例類別的組件設(shè)置為 1，所有其他組件設(shè)置為 0。在我們的例子中，標(biāo)簽y 將是一個(gè)三維向量，具有(1,0,0) 對(duì)應(yīng)“貓”，(0,1,0)到“雞”，和 (0,0,1)對(duì)“狗”：

(4.1.1)y∈{(1,0,0),(0,1,0),(0,0,1)}.

4.1.1.1. 線性模型

為了估計(jì)與所有可能類別相關(guān)的條件概率，我們需要一個(gè)具有多個(gè)輸出的模型，每個(gè)類別一個(gè)。為了解決線性模型的分類問(wèn)題，我們需要與輸出一樣多的仿射函數(shù)。嚴(yán)格來(lái)說(shuō)，我們只需要少一個(gè)，因?yàn)樽詈笠活惐仨毷?1和其他類別的總和，但出于對(duì)稱的原因，我們使用了稍微冗余的參數(shù)化。每個(gè)輸出對(duì)應(yīng)于它自己的仿射函數(shù)。在我們的例子中，由于我們有 4 個(gè)特征和 3 個(gè)可能的輸出類別，我們需要 12 個(gè)標(biāo)量來(lái)表示權(quán)重（w帶下標(biāo)）和 3 個(gè)標(biāo)量來(lái)表示偏差（b帶下標(biāo)）。這產(chǎn)生：