RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用于模型評估和選擇的常見方法

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2022-10-25 10:45 ? 次閱讀

摘要:模型評估、模型選擇和算法選擇技術(shù)的正確使用在學(xué)術(shù)性機(jī)器學(xué)習(xí)研究和諸多產(chǎn)業(yè)環(huán)境中異常關(guān)鍵。本文回顧了用于解決以上三項(xiàng)任務(wù)中任何一個(gè)的不同技術(shù),并參考理論和實(shí)證研究討論了每一項(xiàng)技術(shù)的主要優(yōu)勢和劣勢。進(jìn)而,給出建議以促進(jìn)機(jī)器學(xué)習(xí)研究與應(yīng)用方面的最佳實(shí)踐。本文涵蓋了用于模型評估和選擇的常見方法,比如留出方法,但是不推薦用于小數(shù)據(jù)集。不同風(fēng)格的 bootstrap 技術(shù)也被介紹,以評估性能的不確定性,以作為通過正態(tài)空間的置信區(qū)間的替代,如果 bootstrapping 在計(jì)算上是可行的。在討論偏差-方差權(quán)衡時(shí),把 leave-one-out 交叉驗(yàn)證和 k 折交叉驗(yàn)證進(jìn)行對比,并基于實(shí)證證據(jù)給出 k 的最優(yōu)選擇的實(shí)際提示。論文展示了用于算法對比的不同統(tǒng)計(jì)測試,以及處理多種對比的策略(比如綜合測試、多對比糾正)。最后,當(dāng)數(shù)據(jù)集很小時(shí),本文推薦替代方法(比如 5×2cv 交叉驗(yàn)證和嵌套交叉驗(yàn)證)以對比機(jī)器學(xué)習(xí)算法。


1 簡介:基本的模型評估項(xiàng)和技術(shù)

機(jī)器學(xué)習(xí)已經(jīng)成為我們生活的中心,無論是作為消費(fèi)者、客戶、研究者還是從業(yè)人員。無論將預(yù)測建模技術(shù)應(yīng)用到研究還是商業(yè)問題,我認(rèn)為其共同點(diǎn)是:做出足夠好的預(yù)測。用模型擬合訓(xùn)練數(shù)據(jù)是一回事,但我們?nèi)绾瘟私饽P偷姆夯芰??我們?nèi)绾未_定模型是否只是簡單地記憶訓(xùn)練數(shù)據(jù),無法對未見過的樣本做出好的預(yù)測?還有,我們?nèi)绾芜x擇好的模型呢?也許還有更好的算法可以處理眼前的問題呢?

模型評估當(dāng)然不是機(jī)器學(xué)習(xí)工作流程的終點(diǎn)。在處理數(shù)據(jù)之前,我們希望事先計(jì)劃并使用合適的技術(shù)。本文將概述這類技術(shù)和選擇方法,并介紹如何將其應(yīng)用到更大的工程中,即典型的機(jī)器學(xué)習(xí)工作流。

1.1 性能評估:泛化性能 vs. 模型選擇

讓我們考慮這個(gè)問題:「如何評估機(jī)器學(xué)習(xí)模型的性能?」典型的回答可能是:「首先,將訓(xùn)練數(shù)據(jù)饋送給學(xué)習(xí)算法以學(xué)習(xí)一個(gè)模型。第二,預(yù)測測試集的標(biāo)簽。第三,計(jì)算模型對測試集的預(yù)測準(zhǔn)確率?!谷欢?,評估模型性能并非那么簡單。也許我們應(yīng)該從不同的角度解決之前的問題:「為什么我們要關(guān)心性能評估呢?」理論上,模型的性能評估能給出模型的泛化能力,在未見過的數(shù)據(jù)上執(zhí)行預(yù)測是應(yīng)用機(jī)器學(xué)習(xí)或開發(fā)新算法的主要問題。通常,機(jī)器學(xué)習(xí)包含大量實(shí)驗(yàn),例如超參數(shù)調(diào)整。在訓(xùn)練數(shù)據(jù)集上用不同的超參數(shù)設(shè)置運(yùn)行學(xué)習(xí)算法最終會(huì)得到不同的模型。由于我們感興趣的是從該超參數(shù)設(shè)置中選擇最優(yōu)性能的模型,因此我們需要找到評估每個(gè)模型性能的方法,以將它們進(jìn)行排序。

我們需要在微調(diào)算法之外更進(jìn)一步,即不僅僅是在給定的環(huán)境下實(shí)驗(yàn)單個(gè)算法,而是對比不同的算法,通常從預(yù)測性能和計(jì)算性能方面進(jìn)行比較。我們總結(jié)一下評估模型的預(yù)測性能的主要作用:

評估模型的泛化性能,即模型泛化到未見過數(shù)據(jù)的能力;

通過調(diào)整學(xué)習(xí)算法和在給定的假設(shè)空間中選擇性能最優(yōu)的模型,以提升預(yù)測性能;

確定最適用于待解決問題的機(jī)器學(xué)習(xí)算法。因此,我們可以比較不同的算法,選擇其中性能最優(yōu)的模型;或者選擇算法的假設(shè)空間中的性能最優(yōu)模型。

雖然上面列出的三個(gè)子任務(wù)都是為了評估模型的性能,但是它們需要使用的方法是不同的。本文將概述解決這些子任務(wù)需要的不同方法。

我們當(dāng)然希望盡可能精確地預(yù)測模型的泛化性能。然而,本文的一個(gè)要點(diǎn)就是,如果偏差對所有模型的影響是等價(jià)的,那么偏差性能評估基本可以完美地進(jìn)行模型選擇和算法選擇。如果要用排序選擇最優(yōu)的模型或算法,我們只需要知道它們的相對性能就可以了。例如,如果所有的性能評估都是有偏差的,并且低估了它們的性能(10%),這不會(huì)影響最終的排序。更具體地說,如果我們得到如下三個(gè)模型,這些模型的預(yù)測準(zhǔn)確率如下:

M2: 75% > M1: 70% > M3: 65%,

如果我們添加了 10% 的性能偏差(低估),則三種模型的排序沒有發(fā)生改變:

M2: 65% > M1: 60% > M3: 55%.

但是,注意如果最佳模型(M2)的泛化準(zhǔn)確率是 65%,很明顯這個(gè)精度是非常低的。評估模型的絕對性能可能是機(jī)器學(xué)習(xí)中最難的任務(wù)之一。

2f99b01a-5398-11ed-a3b6-dac502259ad0.jpg

圖 2:留出驗(yàn)證方法的圖示。

2 Bootstrapping 和不確定性 2f894ed2-5398-11ed-a3b6-dac502259ad0.png

本章介紹一些用于模型評估的高級技術(shù)。我們首先討論用來評估模型性能不確定性和模型方差、穩(wěn)定性的技術(shù)。之后我們將介紹交叉驗(yàn)證方法用于模型選擇。如第一章所述,關(guān)于我們?yōu)槭裁匆P(guān)心模型評估,存在三個(gè)相關(guān)但不同的任務(wù)或原因。

我們想評估泛化準(zhǔn)確度,即模型在未見數(shù)據(jù)上的預(yù)測性能。

我們想通過調(diào)整學(xué)習(xí)算法、從給定假設(shè)空間中選擇性能最好的模型,來改善預(yù)測性能。

我們想確定手頭最適合待解決問題的機(jī)器學(xué)習(xí)算法。因此,我們想對比不同的算法,選出性能最好的一個(gè);或從算法的假設(shè)空間中選出性能最好的模型。

2fb2eefe-5398-11ed-a3b6-dac502259ad0.jpg

圖 3:偏差和方差的不同組合的圖示。

2fee3b62-5398-11ed-a3b6-dac502259ad0.png

圖 4:在 MNIST 數(shù)據(jù)集上 softmax 分類器的學(xué)習(xí)曲線。

3002a764-5398-11ed-a3b6-dac502259ad0.jpg

圖 5:二維高斯分布中的重復(fù)子采樣。

3 交叉驗(yàn)證和超參數(shù)優(yōu)化 2f894ed2-5398-11ed-a3b6-dac502259ad0.png

幾乎所有機(jī)器學(xué)習(xí)算法都需要我們機(jī)器學(xué)習(xí)研究者和從業(yè)者指定大量設(shè)置。這些超參數(shù)幫助我們控制機(jī)器學(xué)習(xí)算法在優(yōu)化性能、找出偏差方差最佳平衡時(shí)的行為。用于性能優(yōu)化的超參數(shù)調(diào)整本身就是一門藝術(shù),沒有固定規(guī)則可以保證在給定數(shù)據(jù)集上的性能最優(yōu)。前面的章節(jié)提到了用于評估模型泛化性能的留出技術(shù)和 bootstrap 技術(shù)。偏差-方差權(quán)衡和計(jì)算性能估計(jì)的不穩(wěn)定性方法都得到了介紹。本章主要介紹用于模型評估和選擇的不同交叉驗(yàn)證方法,包括對不同超參數(shù)配置的模型進(jìn)行排序和評估其泛化至獨(dú)立數(shù)據(jù)集的性能。

本章生成圖像的代碼詳見:https://github.com/rasbt/model-eval-article-supplementary/blob/master/code/resampling-and-kfold.ipynb。

302531d0-5398-11ed-a3b6-dac502259ad0.jpg

圖 11:logistic 回歸的概念圖示。

我們可以把超參數(shù)調(diào)整(又稱超參數(shù)優(yōu)化)和模型選擇的過程看作元優(yōu)化任務(wù)。當(dāng)學(xué)習(xí)算法在訓(xùn)練集上優(yōu)化目標(biāo)函數(shù)時(shí)(懶惰學(xué)習(xí)器是例外),超參數(shù)優(yōu)化是基于它的另一項(xiàng)任務(wù)。這里,我們通常想優(yōu)化性能指標(biāo),如分類準(zhǔn)確度或接受者操作特征曲線(ROC 曲線)下面積。超參數(shù)調(diào)整階段之后,基于測試集性能選擇模型似乎是一種合理的方法。但是,多次重復(fù)使用測試集可能會(huì)帶來偏差和最終性能估計(jì),且可能導(dǎo)致對泛化性能的預(yù)期過分樂觀,可以說是「測試集泄露信息」。為了避免這個(gè)問題,我們可以使用三次分割(three-way split),將數(shù)據(jù)集分割成訓(xùn)練集、驗(yàn)證集和測試集。對超參數(shù)調(diào)整和模型選擇進(jìn)行訓(xùn)練-驗(yàn)證可以保證測試集「獨(dú)立」于模型選擇。這里,我們再回顧一下性能估計(jì)的「3 個(gè)目標(biāo)」:

我們想評估泛化準(zhǔn)確度,即模型在未見數(shù)據(jù)上的預(yù)測性能。

我們想通過調(diào)整學(xué)習(xí)算法、從給定假設(shè)空間中選擇性能最好的模型,來改善預(yù)測性能。

我們想確定最適合待解決問題的機(jī)器學(xué)習(xí)算法。因此,我們想對比不同的算法,選出性能最好的一個(gè),從算法的假設(shè)空間中選出性能最好的模型。

30702866-5398-11ed-a3b6-dac502259ad0.jpg

圖 12:超參數(shù)調(diào)整中三路留出方法(three-way holdout method)圖示。

30e0a76c-5398-11ed-a3b6-dac502259ad0.jpg

圖 13:k 折交叉驗(yàn)證步驟圖示。

31019530-5398-11ed-a3b6-dac502259ad0.jpg

圖 16:模型選擇中 k 折交叉驗(yàn)證的圖示。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3226

    瀏覽量

    48806
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8406

    瀏覽量

    132558
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24689

原文標(biāo)題:模型評價(jià)、模型選擇、算法選擇

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    PCBA測試的常見方法

    以看出整個(gè)工藝流程存在的問題,比如前期工序SMT、DIP等,存在問題,就進(jìn)行調(diào)整,讓整個(gè)工藝更加完善。PCBA測試常見方法,主要有以下幾種: 1.手工測試手工測試就是直接依靠視覺進(jìn)行測試,通過視覺與比較來
    發(fā)表于 11-08 17:19

    Ch2模型評估選擇

    【Machine Learining】Ch2 模型評估選擇
    發(fā)表于 05-28 06:55

    IDC設(shè)備資產(chǎn)運(yùn)營中四種“折舊率計(jì)算”的常見方法

    原標(biāo)題:IDC設(shè)備資產(chǎn)運(yùn)營中四種“折舊率計(jì)算”的常見方法數(shù)據(jù)中心基礎(chǔ)設(shè)施設(shè)備管理中設(shè)備的折舊是固定資產(chǎn)的折舊。該基礎(chǔ)設(shè)施設(shè)備或者IT設(shè)備在長期使用后仍可保持其原始物理形態(tài),但由于芯片、電機(jī)、磁盤
    發(fā)表于 09-01 06:06

    常見的特征選擇方法大致可以分為哪幾類呢

    。??常見的特征選擇方法大致可以分為三類:過濾式、包裹式和嵌入式。2. 過濾式選擇??過濾式方法先對數(shù)據(jù)集進(jìn)行特征
    發(fā)表于 12-20 06:00

    光耦隔離的4種常見方法對比

    光耦隔離的4種常見方法對比
    發(fā)表于 05-31 11:06 ?13.2w次閱讀
    光耦隔離的4種<b class='flag-5'>常見方法</b>對比

    檢測LED單元板的常見方法

    LED電子顯示屏很重要的組成部分就有LED單元板,如果單元板有問題,會(huì)直接影響LED顯示屏的整體質(zhì)量!所以,如何辨別LED單元板的好壞是LED顯示屏商家關(guān)心的問題,下面整理了一些檢測LED單元板的常見方法。
    發(fā)表于 05-04 17:31 ?3818次閱讀

    機(jī)器學(xué)習(xí)的模型評估選擇詳細(xì)資料說明

    本文檔的主要內(nèi)容詳細(xì)介紹的是機(jī)器學(xué)習(xí)的模型評估選擇詳細(xì)資料說明。
    發(fā)表于 03-24 08:00 ?0次下載
    機(jī)器學(xué)習(xí)的<b class='flag-5'>模型</b><b class='flag-5'>評估</b>與<b class='flag-5'>選擇</b>詳細(xì)資料說明

    電平轉(zhuǎn)換常見方法的匯總比較資料下載

    電子發(fā)燒友網(wǎng)為你提供電平轉(zhuǎn)換常見方法的匯總比較資料下載的電子資料下載,更有其他相關(guān)的電路圖、源代碼、課件教程、中文資料、英文資料、參考設(shè)計(jì)、用戶指南、解決方案等資料,希望可以幫助到廣大的電子工程師們。
    發(fā)表于 04-09 08:44 ?9次下載
    電平轉(zhuǎn)換<b class='flag-5'>常見方法</b>的匯總比較資料下載

    系統(tǒng)仿真模型可信度評估方法研究綜述

    仿真可信度評估流程中的主要操作步驟。在評估方法中引入了考慮不確定性的特征選擇驗(yàn)證方法進(jìn)行模型驗(yàn)證
    發(fā)表于 06-15 14:37 ?11次下載

    PCBA工廠確保采購物料原裝的常見方法

    PCBA工廠確保采購物料原裝的常見方法是先核驗(yàn)供應(yīng)商的資質(zhì),然后讓供應(yīng)商提供欲采購物料的原廠授權(quán)證明。在收到物料后讓倉管仔細(xì)檢查核對,避免收到氧化料、老料、型號參數(shù)不對的物料。
    的頭像 發(fā)表于 08-20 12:09 ?1031次閱讀

    箱式變壓器保養(yǎng)的常見方法和事項(xiàng)

      箱式變壓器是工業(yè)、礦山、建筑等各個(gè)領(lǐng)域中常見的基礎(chǔ)設(shè)施,作為電力系統(tǒng)中不可缺少的設(shè)備之一,需要定期進(jìn)行保養(yǎng)與維護(hù),以確保其正常、安全、穩(wěn)定地運(yùn)行。以下是箱式變壓器保養(yǎng)的常見方法
    發(fā)表于 04-19 14:45 ?2890次閱讀

    RS-485基礎(chǔ)知識:處理空閑總線條件的兩種常見方法

    在本文中,我將介紹處理空閑總線條件的兩種常見方法,以便保證總線上的邏輯狀態(tài)。
    的頭像 發(fā)表于 07-04 11:30 ?2738次閱讀
    RS-485基礎(chǔ)知識:處理空閑總線條件的兩種<b class='flag-5'>常見方法</b>

    MCU批量生產(chǎn)下載程序的幾種常見方法

    MCU批量生產(chǎn)下載程序的幾種常見方法
    的頭像 發(fā)表于 10-24 17:22 ?1601次閱讀
    MCU批量生產(chǎn)下載程序的幾種<b class='flag-5'>常見方法</b>

    運(yùn)行Python程序的幾種常見方法

    Python是一種高級編程語言,具有簡單易學(xué),易于閱讀和調(diào)試的特點(diǎn)。當(dāng)你完成了一個(gè)Python程序之后,你需要運(yùn)行它以檢查程序是否按照預(yù)期工作。下面是運(yùn)行Python程序的幾種常見方法
    的頭像 發(fā)表于 11-28 15:32 ?2529次閱讀

    無功補(bǔ)償?shù)脑?、作用?b class='flag-5'>常見方式

    無功補(bǔ)償?shù)脑?、作用?b class='flag-5'>常見方式? 無功補(bǔ)償是電力系統(tǒng)中的一項(xiàng)重要技術(shù)措施,用于改善電力質(zhì)量和提高能源利用效率。本文將詳細(xì)介紹無功補(bǔ)償?shù)脑?、作用以?b class='flag-5'>常見的補(bǔ)償方式。 一、無功補(bǔ)償?shù)脑?無功功率
    的頭像 發(fā)表于 01-19 14:19 ?8965次閱讀
    RM新时代网站-首页