RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

集成模型的原理及創(chuàng)建集成模型的方法

h1654155282.3538 ? 來(lái)源:51CTO觀察 ? 作者:51CTO觀察 ? 2020-11-11 11:13 ? 次閱讀

集成學(xué)習(xí)是功能強(qiáng)大的機(jī)器學(xué)習(xí)技術(shù)之一。集成學(xué)習(xí)通過(guò)使用多種機(jī)器學(xué)習(xí)模型來(lái)提高預(yù)測(cè)結(jié)果的可靠性和準(zhǔn)確性。但是,使用多種機(jī)器學(xué)習(xí)模型如何使預(yù)測(cè)結(jié)果更準(zhǔn)確?可以采用什么樣的技術(shù)創(chuàng)建整體學(xué)習(xí)模型?以下將探討解答這些問(wèn)題,并研究使用集成模型的基本原理以及創(chuàng)建集成模型的主要方法。

什么是集成學(xué)習(xí)?

簡(jiǎn)而言之,集成學(xué)習(xí)是訓(xùn)練多個(gè)機(jī)器學(xué)習(xí)模型并將其輸出組合在一起的過(guò)程。組織以不同的模型為基礎(chǔ),致力構(gòu)建一個(gè)最優(yōu)的預(yù)測(cè)模型。組合各種不同的機(jī)器學(xué)習(xí)模型可以提高整體模型的穩(wěn)定性,從而獲得更準(zhǔn)確的預(yù)測(cè)結(jié)果。集成學(xué)習(xí)模型通常比單個(gè)模型更可靠,因此,它們經(jīng)常在許多機(jī)器學(xué)習(xí)競(jìng)賽中獲勝。

工程師可以使用多種技術(shù)來(lái)創(chuàng)建集成學(xué)習(xí)模型。而簡(jiǎn)單的集成學(xué)習(xí)技術(shù)包括平均不同模型的輸出結(jié)果,同時(shí)還開(kāi)發(fā)了更復(fù)雜的方法和算法,專門用于將許多基礎(chǔ)學(xué)習(xí)者/模型的預(yù)測(cè)結(jié)果組合在一起。

為什么要使用集成訓(xùn)練方法?

出于多種原因,機(jī)器學(xué)習(xí)模型可能會(huì)彼此不同。不同的機(jī)器學(xué)習(xí)模型可以對(duì)總體數(shù)據(jù)的不同樣本進(jìn)行操作,可以使用不同的建模技術(shù),并且使用不同的假設(shè)。

想象一下,如果你加入由不同專業(yè)人員組成的團(tuán)隊(duì),那么肯定會(huì)有一些你知道和不知道的技術(shù),假設(shè)你正在和其他成員一起討論一個(gè)技術(shù)主題。他們也像你一樣,只對(duì)自己的專業(yè)有所了解,而對(duì)其他專業(yè)技術(shù)一無(wú)所知。但是,如果最終能將這些技術(shù)知識(shí)組合在一起,將會(huì)對(duì)更多領(lǐng)域有更準(zhǔn)確的猜測(cè),這是集成學(xué)習(xí)的原理,也就是結(jié)合不同個(gè)體模型(團(tuán)隊(duì)成員)的預(yù)測(cè)以提高準(zhǔn)確性,并最大程度地減少錯(cuò)誤。

統(tǒng)計(jì)學(xué)家已經(jīng)證明,當(dāng)一群人被要求用一系列可能的答案來(lái)猜測(cè)一個(gè)給定問(wèn)題的正確答案時(shí),他們所有的答案都會(huì)形成一個(gè)概率分布。真正知道正確答案的人會(huì)自信地選擇正確的答案,而選擇錯(cuò)誤答案的人會(huì)將他們的猜測(cè)分散到可能的錯(cuò)誤答案范圍內(nèi)。例如玩一個(gè)猜迷游戲,如果你和兩個(gè)朋友都知道正確的答案是A,那么你們?nèi)齻€(gè)人都會(huì)選A,而團(tuán)隊(duì)中其他三個(gè)不知道答案的人很可能會(huì)錯(cuò)誤地猜測(cè)是B、C、D或E,其結(jié)果是A有三票,其他答案可能只有一到兩票。

所有的模型都有一定的誤差。一個(gè)模型的誤差將不同于另一個(gè)模型產(chǎn)生的誤差,因?yàn)槟P捅旧碛捎谏鲜鲈蚨煌?。?dāng)檢查所有的錯(cuò)誤時(shí),它們不會(huì)聚集在某一個(gè)答案周圍,而是廣泛分布。不正確的猜測(cè)基本上分散在所有可能的錯(cuò)誤答案上,并相互抵消。與此同時(shí),來(lái)自不同模型的正確猜測(cè)將聚集在正確的答案周圍。當(dāng)使用集成訓(xùn)練方法時(shí),可以找到更可靠的正確答案。

簡(jiǎn)單的集成訓(xùn)練方法

簡(jiǎn)單的集成訓(xùn)練方法通常只涉及統(tǒng)計(jì)集成技術(shù)的應(yīng)用,例如確定一組預(yù)測(cè)的模式、平均值或加權(quán)平均值。

模型是指一組數(shù)字中出現(xiàn)頻率最高的元素。為了得到這個(gè)模型,各個(gè)學(xué)習(xí)模型返回他們的預(yù)測(cè),這些預(yù)測(cè)被認(rèn)為是對(duì)最終預(yù)測(cè)的投票。通過(guò)計(jì)算預(yù)測(cè)的算術(shù)平均值(四舍五入到最接近的整數(shù))來(lái)確定預(yù)測(cè)的平均值。最后,可以通過(guò)為用于創(chuàng)建預(yù)測(cè)的模型分配不同的權(quán)重來(lái)計(jì)算加權(quán)平均值,其中權(quán)重代表該模型的預(yù)測(cè)重要性。將類別預(yù)測(cè)的數(shù)值表示與權(quán)重(從0到1.0)相乘,然后將各個(gè)加權(quán)的預(yù)測(cè)相加在一起,并將其結(jié)果進(jìn)行四舍五入,從而得出最接近的整數(shù)。

高級(jí)集成訓(xùn)練方法

現(xiàn)在有三種主要的高級(jí)集成訓(xùn)練技術(shù),每種技術(shù)都旨在解決特定類型的機(jī)器學(xué)習(xí)問(wèn)題。 “裝袋”(Bagging)技術(shù)用于減少模型預(yù)測(cè)的方差,方差是指當(dāng)基于相同的觀察結(jié)果時(shí)預(yù)測(cè)的結(jié)果相差多少。使用“提升”(Boosting)技術(shù)來(lái)消除模型的偏差。最后,通常使用“堆疊”(Stacking)來(lái)改善預(yù)測(cè)結(jié)果。

集成學(xué)習(xí)方法通??梢苑譃閮深悾喉樞蚣煞椒ê筒⑿屑煞椒?。

順序集成方法的名稱為“順序”,因?yàn)榛A(chǔ)學(xué)習(xí)器/模型是順序生成的。在順序集成方法的情況下,基本思想是利用基礎(chǔ)學(xué)習(xí)者之間的依賴關(guān)系來(lái)獲得更準(zhǔn)確的預(yù)測(cè)。標(biāo)簽錯(cuò)誤的示例將調(diào)整其權(quán)重,而標(biāo)簽正確的示例將保持相同的權(quán)重。在每次生成新的學(xué)習(xí)者時(shí),權(quán)重都會(huì)改變,其準(zhǔn)確性將會(huì)提高。

與順序集成模型相反,并行集成方法將會(huì)并行生成基礎(chǔ)學(xué)習(xí)器。在進(jìn)行并行集成學(xué)習(xí)時(shí),可以利用基礎(chǔ)學(xué)習(xí)器具有獨(dú)立性這一事實(shí),因?yàn)榭梢酝ㄟ^(guò)平均每個(gè)學(xué)習(xí)器的預(yù)測(cè)值來(lái)降低總體錯(cuò)誤率。

集成訓(xùn)練方法可以是同質(zhì)的,也可以是異質(zhì)的。大多數(shù)集成學(xué)習(xí)方法是同質(zhì)的,這意味著它們使用單一類型的基本學(xué)習(xí)模型/算法。與其相反,異構(gòu)集成使用不同的學(xué)習(xí)算法,使學(xué)習(xí)者多樣化,以確保盡可能高的準(zhǔn)確性。

集成學(xué)習(xí)算法的示例

集成提升的可視化

順序集成方法的示例包括AdaBoost、XGBoost和Gradient tree boosting。這些都是提升升模型。對(duì)于這些提升模型,目標(biāo)是將表現(xiàn)欠佳的弱勢(shì)學(xué)習(xí)者轉(zhuǎn)變?yōu)楣δ軓?qiáng)大的學(xué)習(xí)者。像AdaBoost和XGBoost這樣的模型從許多弱勢(shì)學(xué)習(xí)者開(kāi)始,這些學(xué)習(xí)者的表現(xiàn)比隨機(jī)猜測(cè)要好一些。隨著訓(xùn)練的繼續(xù),將權(quán)重應(yīng)用于數(shù)據(jù)并進(jìn)行調(diào)整。在較早的培訓(xùn)中被學(xué)習(xí)者錯(cuò)誤分類的實(shí)例將具有更大的權(quán)重。在為所需的訓(xùn)練回合次數(shù)重復(fù)此過(guò)程之后,通過(guò)加權(quán)和(對(duì)于回歸任務(wù))和加權(quán)投票(對(duì)于分類任務(wù))將預(yù)測(cè)合并在一起。

裝袋學(xué)習(xí)過(guò)程

并行集成模型的一個(gè)示例是隨機(jī)森林分類器,并且隨機(jī)森林也是裝袋技術(shù)的一個(gè)示例。 “裝袋”這個(gè)術(shù)語(yǔ)來(lái)自“引導(dǎo)聚合”。使用稱為“自舉抽樣”的抽樣技術(shù)從總數(shù)據(jù)集中抽取樣本,基本學(xué)習(xí)者使用這些技術(shù)進(jìn)行預(yù)測(cè)。對(duì)于分類任務(wù),基本模型的輸出使用投票進(jìn)行聚合,而對(duì)于回歸任務(wù)則將它們進(jìn)行平均。隨機(jī)森林使用單獨(dú)的決策樹(shù)作為基礎(chǔ)學(xué)習(xí)者,并且集合中的每個(gè)決策樹(shù)都是使用來(lái)自數(shù)據(jù)集的不同樣本構(gòu)建的。特征的隨機(jī)子集也用于生成決策樹(shù)。導(dǎo)致高度隨機(jī)化的個(gè)體決策樹(shù),這些決策樹(shù)全部組合在一起以提供可靠的預(yù)測(cè)。

堆疊集成可視化

在堆疊集成技術(shù)方面,多元回歸或分類模型通過(guò)更高級(jí)別的元模型組合在一起。較低級(jí)別的基本模型通過(guò)輸入整個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練。然后將基本模型的輸出作為訓(xùn)練元模型的功能。堆疊集成模型在本質(zhì)上通常是異質(zhì)的。
責(zé)任編輯人:CC

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    PSpice子電路模型創(chuàng)建

    對(duì)于常用的電路單元以及集成電路新產(chǎn)品 , 建立一個(gè)子電路模型 , 并作為一個(gè)器件添加到 PSpice 模型庫(kù)中 , 就可以使電路系統(tǒng)設(shè)計(jì)人員非常方便地使用這些產(chǎn)品。文章在介紹 Pspice
    發(fā)表于 07-02 11:13

    如何提升模型能力?

    目標(biāo)檢測(cè)的模型集成方法及實(shí)驗(yàn)常見(jiàn)的提升模型能力的方式
    發(fā)表于 02-24 07:10

    介紹支持向量機(jī)與決策樹(shù)集成模型的應(yīng)用

    本文主要介紹支持向量機(jī)、k近鄰、樸素貝葉斯分類 、決策樹(shù)、決策樹(shù)集成模型的應(yīng)用。講解了支持向量機(jī)SVM線性與非線性模型的適用環(huán)境,并對(duì)核函數(shù)技巧作出深入的分析,對(duì)線性Linear核函數(shù)、多項(xiàng)式
    發(fā)表于 09-01 06:57

    深度學(xué)習(xí)模型是如何創(chuàng)建的?

    嵌入式系統(tǒng)已被證明可以降低成本并增加各個(gè)行業(yè)的收入,包括制造工廠,供應(yīng)鏈管理,醫(yī)療保健等等。本文將介紹有關(guān)深度學(xué)習(xí)嵌入式系統(tǒng)的信息。深度學(xué)習(xí)模型是如何創(chuàng)建的?創(chuàng)建深度學(xué)習(xí)模型涉及多個(gè)階
    發(fā)表于 10-27 06:34

    如何創(chuàng)建Proteus仿真模型

    我們緊接著介紹以原理圖方式創(chuàng)建Proteus仿真模型的詳細(xì)過(guò)程。有些讀者可能會(huì)想:不就是從器件庫(kù)中調(diào)出元件創(chuàng)建嘛,我可以做一個(gè)超級(jí)器件,里面包含51、AVR、PIC等單片機(jī)器件構(gòu)成的超級(jí)模組,反正
    發(fā)表于 01-24 08:08

    如何構(gòu)建UVM寄存器模型并將寄存器模型集成到驗(yàn)證環(huán)境中

    ),通常也叫寄存器模型,顧名思義就是對(duì)寄存器這個(gè)部件的建模。本文要介紹的內(nèi)容,包括對(duì)UVM寄存器模型的概述,如何構(gòu)建寄存器模型,以及如何將寄存器模型
    發(fā)表于 09-23 14:29

    一種工業(yè)通信網(wǎng)絡(luò)模型與網(wǎng)絡(luò)集成設(shè)計(jì)

    本文介紹了基于現(xiàn)場(chǎng)總線的工業(yè)通信網(wǎng)絡(luò)模型與網(wǎng)絡(luò)集成的原理及集成方法。詳細(xì)介紹了 OPC 技術(shù)原理及其在網(wǎng)絡(luò)集成中的實(shí)現(xiàn),ProfiBus總線與以太網(wǎng)技術(shù)結(jié)合的產(chǎn)物PROFINET的基本
    發(fā)表于 07-22 16:31 ?31次下載
    一種工業(yè)通信網(wǎng)絡(luò)<b class='flag-5'>模型</b>與網(wǎng)絡(luò)<b class='flag-5'>集成</b>設(shè)計(jì)

    創(chuàng)建Proteus原理圖仿真模型

    創(chuàng)建6位D/A轉(zhuǎn)換器和TTL7458原理圖模型為例,論述創(chuàng)建Proteus原理圖仿真模型的思路與方法、
    發(fā)表于 03-28 15:10 ?95次下載
    <b class='flag-5'>創(chuàng)建</b>Proteus原理圖仿真<b class='flag-5'>模型</b>

    風(fēng)河與Mathworks領(lǐng)先工具集成,基于模型設(shè)計(jì)效率倍增

    風(fēng)河在PIL(Processor-in-the-Loop,處理器在環(huán))模擬中實(shí)現(xiàn)了Simics和Simulink集成,顯著提升基于模型設(shè)計(jì)的驗(yàn)證效率Simics可在基于模型設(shè)計(jì)工作流程中實(shí)現(xiàn)早期目標(biāo)
    發(fā)表于 04-14 15:50 ?1963次閱讀

    面向服務(wù)集成的工作流模型

    新的工作流模型。首先,通過(guò)分析服務(wù)集成環(huán)境下的實(shí)際業(yè)務(wù)流程確定了模型的三部分信息:結(jié)構(gòu)信息、服務(wù)信息和人員信息;其次,將模型中各部分信息與JPDL作了對(duì)應(yīng)說(shuō)明,表明了
    發(fā)表于 01-07 09:55 ?0次下載
    面向服務(wù)<b class='flag-5'>集成</b>的工作流<b class='flag-5'>模型</b>

    關(guān)于模型測(cè)試與持續(xù)集成相結(jié)合的可行性分析

    ,可以無(wú)縫集成 Simulink 的模型測(cè)試套件(Simulink Test 的圖形化的測(cè)試管理環(huán)境提供了模型測(cè)試套件的框架創(chuàng)建環(huán)境)。
    的頭像 發(fā)表于 09-16 08:42 ?1913次閱讀
    關(guān)于<b class='flag-5'>模型</b>測(cè)試與持續(xù)<b class='flag-5'>集成</b>相結(jié)合的可行性分析

    目標(biāo)檢測(cè)的模型集成方法及實(shí)驗(yàn)

    模型集成是一種提升模型能力的常用方法,但也會(huì)帶來(lái)推理時(shí)間的增加,在物體檢測(cè)上效果如何,可以看看。
    發(fā)表于 01-26 09:05 ?7次下載
    目標(biāo)檢測(cè)的<b class='flag-5'>模型</b><b class='flag-5'>集成方法</b>及實(shí)驗(yàn)

    基于圖集成模型的自動(dòng)摘要生產(chǎn)方法

    現(xiàn)有長(zhǎng)文本自動(dòng)摘要生成方法存在句子特征單一化和無(wú)法全面衡量句子相似特征的問(wèn)題,導(dǎo)致摘要生成的準(zhǔn)確率降低。為此,提岀一種基于圖集成模型的自動(dòng)摘要生成方法。在計(jì)算得到文本句子詞頻、語(yǔ)義和句
    發(fā)表于 03-22 14:40 ?10次下載
    基于圖<b class='flag-5'>集成</b><b class='flag-5'>模型</b>的自動(dòng)摘要生產(chǎn)<b class='flag-5'>方法</b>

    目標(biāo)檢測(cè)多模型集成方法總結(jié)

    模型集成是一種提升模型能力的常用方法,但通常也會(huì)帶來(lái)推理時(shí)間的增加,在物體檢測(cè)上效果如何,可以看看。
    的頭像 發(fā)表于 06-07 17:39 ?1143次閱讀
    目標(biāo)檢測(cè)多<b class='flag-5'>模型</b><b class='flag-5'>集成方法</b>總結(jié)

    Simulink集成模型測(cè)試太慢怎么辦?

    作者|單線程生物小編|吃不飽Tips:現(xiàn)階段模型開(kāi)發(fā)大部分采用Simulink,為了驗(yàn)證模型實(shí)現(xiàn)了相關(guān)功能,需要對(duì)模型進(jìn)行測(cè)試。模型測(cè)試(MiL)有單元測(cè)試和
    的頭像 發(fā)表于 09-09 14:53 ?1178次閱讀
    Simulink<b class='flag-5'>集成</b><b class='flag-5'>模型</b>測(cè)試太慢怎么辦?
    RM新时代网站-首页