集成學(xué)習(xí)是功能強(qiáng)大的機(jī)器學(xué)習(xí)技術(shù)之一。集成學(xué)習(xí)通過(guò)使用多種機(jī)器學(xué)習(xí)模型來(lái)提高預(yù)測(cè)結(jié)果的可靠性和準(zhǔn)確性。但是,使用多種機(jī)器學(xué)習(xí)模型如何使預(yù)測(cè)結(jié)果更準(zhǔn)確?可以采用什么樣的技術(shù)創(chuàng)建整體學(xué)習(xí)模型?以下將探討解答這些問(wèn)題,并研究使用集成模型的基本原理以及創(chuàng)建集成模型的主要方法。
什么是集成學(xué)習(xí)?
簡(jiǎn)而言之,集成學(xué)習(xí)是訓(xùn)練多個(gè)機(jī)器學(xué)習(xí)模型并將其輸出組合在一起的過(guò)程。組織以不同的模型為基礎(chǔ),致力構(gòu)建一個(gè)最優(yōu)的預(yù)測(cè)模型。組合各種不同的機(jī)器學(xué)習(xí)模型可以提高整體模型的穩(wěn)定性,從而獲得更準(zhǔn)確的預(yù)測(cè)結(jié)果。集成學(xué)習(xí)模型通常比單個(gè)模型更可靠,因此,它們經(jīng)常在許多機(jī)器學(xué)習(xí)競(jìng)賽中獲勝。
工程師可以使用多種技術(shù)來(lái)創(chuàng)建集成學(xué)習(xí)模型。而簡(jiǎn)單的集成學(xué)習(xí)技術(shù)包括平均不同模型的輸出結(jié)果,同時(shí)還開(kāi)發(fā)了更復(fù)雜的方法和算法,專門用于將許多基礎(chǔ)學(xué)習(xí)者/模型的預(yù)測(cè)結(jié)果組合在一起。
為什么要使用集成訓(xùn)練方法?
出于多種原因,機(jī)器學(xué)習(xí)模型可能會(huì)彼此不同。不同的機(jī)器學(xué)習(xí)模型可以對(duì)總體數(shù)據(jù)的不同樣本進(jìn)行操作,可以使用不同的建模技術(shù),并且使用不同的假設(shè)。
想象一下,如果你加入由不同專業(yè)人員組成的團(tuán)隊(duì),那么肯定會(huì)有一些你知道和不知道的技術(shù),假設(shè)你正在和其他成員一起討論一個(gè)技術(shù)主題。他們也像你一樣,只對(duì)自己的專業(yè)有所了解,而對(duì)其他專業(yè)技術(shù)一無(wú)所知。但是,如果最終能將這些技術(shù)知識(shí)組合在一起,將會(huì)對(duì)更多領(lǐng)域有更準(zhǔn)確的猜測(cè),這是集成學(xué)習(xí)的原理,也就是結(jié)合不同個(gè)體模型(團(tuán)隊(duì)成員)的預(yù)測(cè)以提高準(zhǔn)確性,并最大程度地減少錯(cuò)誤。
統(tǒng)計(jì)學(xué)家已經(jīng)證明,當(dāng)一群人被要求用一系列可能的答案來(lái)猜測(cè)一個(gè)給定問(wèn)題的正確答案時(shí),他們所有的答案都會(huì)形成一個(gè)概率分布。真正知道正確答案的人會(huì)自信地選擇正確的答案,而選擇錯(cuò)誤答案的人會(huì)將他們的猜測(cè)分散到可能的錯(cuò)誤答案范圍內(nèi)。例如玩一個(gè)猜迷游戲,如果你和兩個(gè)朋友都知道正確的答案是A,那么你們?nèi)齻€(gè)人都會(huì)選A,而團(tuán)隊(duì)中其他三個(gè)不知道答案的人很可能會(huì)錯(cuò)誤地猜測(cè)是B、C、D或E,其結(jié)果是A有三票,其他答案可能只有一到兩票。
所有的模型都有一定的誤差。一個(gè)模型的誤差將不同于另一個(gè)模型產(chǎn)生的誤差,因?yàn)槟P捅旧碛捎谏鲜鲈蚨煌?。?dāng)檢查所有的錯(cuò)誤時(shí),它們不會(huì)聚集在某一個(gè)答案周圍,而是廣泛分布。不正確的猜測(cè)基本上分散在所有可能的錯(cuò)誤答案上,并相互抵消。與此同時(shí),來(lái)自不同模型的正確猜測(cè)將聚集在正確的答案周圍。當(dāng)使用集成訓(xùn)練方法時(shí),可以找到更可靠的正確答案。
簡(jiǎn)單的集成訓(xùn)練方法
簡(jiǎn)單的集成訓(xùn)練方法通常只涉及統(tǒng)計(jì)集成技術(shù)的應(yīng)用,例如確定一組預(yù)測(cè)的模式、平均值或加權(quán)平均值。
模型是指一組數(shù)字中出現(xiàn)頻率最高的元素。為了得到這個(gè)模型,各個(gè)學(xué)習(xí)模型返回他們的預(yù)測(cè),這些預(yù)測(cè)被認(rèn)為是對(duì)最終預(yù)測(cè)的投票。通過(guò)計(jì)算預(yù)測(cè)的算術(shù)平均值(四舍五入到最接近的整數(shù))來(lái)確定預(yù)測(cè)的平均值。最后,可以通過(guò)為用于創(chuàng)建預(yù)測(cè)的模型分配不同的權(quán)重來(lái)計(jì)算加權(quán)平均值,其中權(quán)重代表該模型的預(yù)測(cè)重要性。將類別預(yù)測(cè)的數(shù)值表示與權(quán)重(從0到1.0)相乘,然后將各個(gè)加權(quán)的預(yù)測(cè)相加在一起,并將其結(jié)果進(jìn)行四舍五入,從而得出最接近的整數(shù)。
高級(jí)集成訓(xùn)練方法
現(xiàn)在有三種主要的高級(jí)集成訓(xùn)練技術(shù),每種技術(shù)都旨在解決特定類型的機(jī)器學(xué)習(xí)問(wèn)題。 “裝袋”(Bagging)技術(shù)用于減少模型預(yù)測(cè)的方差,方差是指當(dāng)基于相同的觀察結(jié)果時(shí)預(yù)測(cè)的結(jié)果相差多少。使用“提升”(Boosting)技術(shù)來(lái)消除模型的偏差。最后,通常使用“堆疊”(Stacking)來(lái)改善預(yù)測(cè)結(jié)果。
集成學(xué)習(xí)方法通??梢苑譃閮深悾喉樞蚣煞椒ê筒⑿屑煞椒?。
順序集成方法的名稱為“順序”,因?yàn)榛A(chǔ)學(xué)習(xí)器/模型是順序生成的。在順序集成方法的情況下,基本思想是利用基礎(chǔ)學(xué)習(xí)者之間的依賴關(guān)系來(lái)獲得更準(zhǔn)確的預(yù)測(cè)。標(biāo)簽錯(cuò)誤的示例將調(diào)整其權(quán)重,而標(biāo)簽正確的示例將保持相同的權(quán)重。在每次生成新的學(xué)習(xí)者時(shí),權(quán)重都會(huì)改變,其準(zhǔn)確性將會(huì)提高。
與順序集成模型相反,并行集成方法將會(huì)并行生成基礎(chǔ)學(xué)習(xí)器。在進(jìn)行并行集成學(xué)習(xí)時(shí),可以利用基礎(chǔ)學(xué)習(xí)器具有獨(dú)立性這一事實(shí),因?yàn)榭梢酝ㄟ^(guò)平均每個(gè)學(xué)習(xí)器的預(yù)測(cè)值來(lái)降低總體錯(cuò)誤率。
集成訓(xùn)練方法可以是同質(zhì)的,也可以是異質(zhì)的。大多數(shù)集成學(xué)習(xí)方法是同質(zhì)的,這意味著它們使用單一類型的基本學(xué)習(xí)模型/算法。與其相反,異構(gòu)集成使用不同的學(xué)習(xí)算法,使學(xué)習(xí)者多樣化,以確保盡可能高的準(zhǔn)確性。
集成學(xué)習(xí)算法的示例
集成提升的可視化
順序集成方法的示例包括AdaBoost、XGBoost和Gradient tree boosting。這些都是提升升模型。對(duì)于這些提升模型,目標(biāo)是將表現(xiàn)欠佳的弱勢(shì)學(xué)習(xí)者轉(zhuǎn)變?yōu)楣δ軓?qiáng)大的學(xué)習(xí)者。像AdaBoost和XGBoost這樣的模型從許多弱勢(shì)學(xué)習(xí)者開(kāi)始,這些學(xué)習(xí)者的表現(xiàn)比隨機(jī)猜測(cè)要好一些。隨著訓(xùn)練的繼續(xù),將權(quán)重應(yīng)用于數(shù)據(jù)并進(jìn)行調(diào)整。在較早的培訓(xùn)中被學(xué)習(xí)者錯(cuò)誤分類的實(shí)例將具有更大的權(quán)重。在為所需的訓(xùn)練回合次數(shù)重復(fù)此過(guò)程之后,通過(guò)加權(quán)和(對(duì)于回歸任務(wù))和加權(quán)投票(對(duì)于分類任務(wù))將預(yù)測(cè)合并在一起。
裝袋學(xué)習(xí)過(guò)程
并行集成模型的一個(gè)示例是隨機(jī)森林分類器,并且隨機(jī)森林也是裝袋技術(shù)的一個(gè)示例。 “裝袋”這個(gè)術(shù)語(yǔ)來(lái)自“引導(dǎo)聚合”。使用稱為“自舉抽樣”的抽樣技術(shù)從總數(shù)據(jù)集中抽取樣本,基本學(xué)習(xí)者使用這些技術(shù)進(jìn)行預(yù)測(cè)。對(duì)于分類任務(wù),基本模型的輸出使用投票進(jìn)行聚合,而對(duì)于回歸任務(wù)則將它們進(jìn)行平均。隨機(jī)森林使用單獨(dú)的決策樹(shù)作為基礎(chǔ)學(xué)習(xí)者,并且集合中的每個(gè)決策樹(shù)都是使用來(lái)自數(shù)據(jù)集的不同樣本構(gòu)建的。特征的隨機(jī)子集也用于生成決策樹(shù)。導(dǎo)致高度隨機(jī)化的個(gè)體決策樹(shù),這些決策樹(shù)全部組合在一起以提供可靠的預(yù)測(cè)。
堆疊集成可視化
在堆疊集成技術(shù)方面,多元回歸或分類模型通過(guò)更高級(jí)別的元模型組合在一起。較低級(jí)別的基本模型通過(guò)輸入整個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練。然后將基本模型的輸出作為訓(xùn)練元模型的功能。堆疊集成模型在本質(zhì)上通常是異質(zhì)的。
責(zé)任編輯人:CC
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8406瀏覽量
132558 -
集成模型
+關(guān)注
關(guān)注
0文章
2瀏覽量
6428 -
機(jī)器學(xué)習(xí)技術(shù)
+關(guān)注
關(guān)注
0文章
7瀏覽量
2957
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論