導(dǎo)讀
今天給大家介紹半監(jiān)督學(xué)習(xí)中的3個(gè)最基礎(chǔ)的概念:一致性正則化,熵最小化和偽標(biāo)簽,并介紹了兩個(gè)經(jīng)典的半監(jiān)督學(xué)習(xí)方法。
沒(méi)看一的點(diǎn)這里哈:半監(jiān)督學(xué)習(xí)入門(mén)基礎(chǔ)(一)
半監(jiān)督學(xué)習(xí) (SSL) 是一種非常有趣的方法,用來(lái)解決機(jī)器學(xué)習(xí)中缺少標(biāo)簽數(shù)據(jù)的問(wèn)題。SSL利用未標(biāo)記的數(shù)據(jù)和標(biāo)記的數(shù)據(jù)集來(lái)學(xué)習(xí)任務(wù)。SSL的目標(biāo)是得到比單獨(dú)使用標(biāo)記數(shù)據(jù)訓(xùn)練的監(jiān)督學(xué)習(xí)模型更好的結(jié)果。這是關(guān)于半監(jiān)督學(xué)習(xí)的系列文章的第2部分,詳細(xì)介紹了一些基本的SSL技術(shù)。
一致性正則化,熵最小化,偽標(biāo)簽
SSL的流行方法是在訓(xùn)練期間往典型的監(jiān)督學(xué)習(xí)中添加一個(gè)新的損失項(xiàng)。通常使用三個(gè)概念來(lái)實(shí)現(xiàn)半監(jiān)督學(xué)習(xí),即一致性正則化、熵最小化和偽標(biāo)簽。在進(jìn)一步討論之前,讓我們先理解這些概念。
一致性正則化強(qiáng)制數(shù)據(jù)點(diǎn)的實(shí)際擾動(dòng)不應(yīng)顯著改變預(yù)測(cè)器的輸出。簡(jiǎn)單地說(shuō),模型應(yīng)該為輸入及其實(shí)際擾動(dòng)變量給出一致的輸出。我們?nèi)祟?lèi)對(duì)于小的干擾是相當(dāng)魯棒的。例如,給圖像添加小的噪聲(例如改變一些像素值)對(duì)我們來(lái)說(shuō)是察覺(jué)不到的。機(jī)器學(xué)習(xí)模型也應(yīng)該對(duì)這種擾動(dòng)具有魯棒性。這通常通過(guò)最小化對(duì)原始輸入的預(yù)測(cè)與對(duì)該輸入的擾動(dòng)版本的預(yù)測(cè)之間的差異來(lái)實(shí)現(xiàn)。
模型對(duì)輸入x及其擾動(dòng)x^的一致性度量
d(.,.) 可以是均方誤差或KL散度或任何其他距離度量。
一致性正則化是利用未標(biāo)記數(shù)據(jù)找到數(shù)據(jù)集所在的平滑流形的一種方法。這種方法的例子包括π模型、Temporal Ensembling,Mean Teacher,Virtual Adversarial Training等。
熵最小化鼓勵(lì)對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行更有信心的預(yù)測(cè),即預(yù)測(cè)應(yīng)該具有低熵,而與ground truth無(wú)關(guān)(因?yàn)間round truth對(duì)于未標(biāo)記數(shù)據(jù)是未知的)。讓我們從數(shù)學(xué)上理解下這個(gè)。
熵的計(jì)算
這里,K是類(lèi)別的數(shù)量,是模型對(duì)x預(yù)測(cè)是否屬于類(lèi)別k的置信度。
此外,輸入示例中所有類(lèi)的置信度之和應(yīng)該為1。這意味著,當(dāng)某個(gè)類(lèi)的預(yù)測(cè)值接近1,而其他所有類(lèi)的預(yù)測(cè)值接近0時(shí),熵將最小化。因此,這個(gè)目標(biāo)鼓勵(lì)模型給出高可信度的預(yù)測(cè)。
理想情況下,熵的最小化將阻止決策邊界通過(guò)附近的數(shù)據(jù)點(diǎn),否則它將被迫產(chǎn)生一個(gè)低可信的預(yù)測(cè)。請(qǐng)參閱下圖以更好地理解此概念。
由不同的半監(jiān)督學(xué)習(xí)方法生成的決策邊界
偽標(biāo)簽是實(shí)現(xiàn)半監(jiān)督學(xué)習(xí)最簡(jiǎn)單的方法。一個(gè)模型一開(kāi)始在有標(biāo)記的數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后用來(lái)對(duì)沒(méi)有標(biāo)記的數(shù)據(jù)進(jìn)行預(yù)測(cè)。它從未標(biāo)記的數(shù)據(jù)集中選擇那些具有高置信度(高于預(yù)定義的閾值)的樣本,并將其預(yù)測(cè)視為偽標(biāo)簽。然后將這個(gè)偽標(biāo)簽數(shù)據(jù)集添加到標(biāo)記數(shù)據(jù)集,然后在擴(kuò)展的標(biāo)記數(shù)據(jù)集上再次訓(xùn)練模型。這些步驟可以執(zhí)行多次。這和自訓(xùn)練很相關(guān)。
在現(xiàn)實(shí)中視覺(jué)和語(yǔ)言上擾動(dòng)的例子
視覺(jué):
翻轉(zhuǎn),旋轉(zhuǎn),裁剪,鏡像等是圖像常用的擾動(dòng)。
語(yǔ)言
反向翻譯是語(yǔ)言中最常見(jiàn)的擾動(dòng)方式。在這里,輸入被翻譯成不同的語(yǔ)言,然后再翻譯成相同的語(yǔ)言。這樣就獲得了具有相同語(yǔ)義屬性的新輸入。
NLP中的反向翻譯
半監(jiān)督學(xué)習(xí)方法
π model:
這里的目標(biāo)是一致性正則化。
π模型鼓勵(lì)模型對(duì)兩個(gè)相同的輸入(即同一個(gè)輸入的兩個(gè)擾動(dòng)變量)輸出之間的一致性。
π模型有幾個(gè)缺點(diǎn),首先,訓(xùn)練計(jì)算量大,因?yàn)槊總€(gè)epoch中單個(gè)輸入需要送到網(wǎng)絡(luò)中兩次。第二,訓(xùn)練目標(biāo)zi?是有噪聲的。
Temporal Ensembling:
這個(gè)方法的目標(biāo)也是一致性正則化,但是實(shí)現(xiàn)方法有點(diǎn)不一樣。
眾所周知,與單一模型相比,模型集成通常能提供更好的預(yù)測(cè)。通過(guò)在訓(xùn)練期間使用單個(gè)模型在不同訓(xùn)練時(shí)期的輸出來(lái)形成集成預(yù)測(cè),這一思想得到了擴(kuò)展。
簡(jiǎn)單來(lái)說(shuō),不是比較模型的相同輸入的兩個(gè)擾動(dòng)的預(yù)測(cè)(如π模型),模型的預(yù)測(cè)與之前的epoch中模型對(duì)該輸入的預(yù)測(cè)的加權(quán)平均進(jìn)行比較。
這種方法克服了π模型的兩個(gè)缺點(diǎn)。它在每個(gè)epoch中,單個(gè)輸入只進(jìn)入一次,而且訓(xùn)練目標(biāo)zi? 的噪聲更小,因?yàn)闀?huì)進(jìn)行滑動(dòng)平均。
這種方法的缺點(diǎn)是需要存儲(chǔ)數(shù)據(jù)集中所有的zi? 。
英文原文:https://medium.com/analytics-vidhya/a-primer-on-semi-supervised-learning-part-2-803f45edac2
責(zé)任編輯:xj
原文標(biāo)題:半監(jiān)督學(xué)習(xí)入門(mén)基礎(chǔ)(二):最基礎(chǔ)的3個(gè)概念
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
SSL
+關(guān)注
關(guān)注
0文章
125瀏覽量
25737 -
半監(jiān)督
+關(guān)注
關(guān)注
0文章
5瀏覽量
6325 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8406瀏覽量
132558 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5500瀏覽量
121111
原文標(biāo)題:半監(jiān)督學(xué)習(xí)入門(mén)基礎(chǔ)(二):最基礎(chǔ)的3個(gè)概念
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論