RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

R-sq越高代表模型擬合越好?

MinitabUG ? 來源:MinitabUG ? 作者:MinitabUG ? 2023-03-07 14:13 ? 次閱讀

在統(tǒng)計建模中,究竟R-sq應(yīng)該取多大? 我們經(jīng)常聽到這個疑問。以前,我們分享過如何解釋R-Sq,我們還糾正了一個統(tǒng)計上的誤區(qū),即較低的R-sq不一定差,較高的R-sq不一定好。顯然,“R-sq應(yīng)該多高”的答案就是:視情況而定。

盲目追求高R-sq的模型很容易掉入過度擬合的陷阱,這一點(diǎn)在大數(shù)據(jù)建模中經(jīng)常發(fā)現(xiàn)。

什么是好的模型?

我們在建模的時候最不愿意看到兩種情況:過度擬合和欠擬合。使用與擬合模型相同的數(shù)據(jù)來評估模型,經(jīng)常會導(dǎo)致過度擬合,如下圖:

pYYBAGQG2IWAORIbAAAkpuvn0QE877.png

而這種過度擬合的模型如果用來預(yù)測的話,效果往往不好。

poYBAGQG2JiASTt0AAAZ4mFmppE906.png

那么什么才算一個好的模型呢?一個好的模型需要在高方差(過度擬合)和高偏差(欠擬合)之間找到一種權(quán)衡。

poYBAGQG2MmAVoDiAABNYN1tXU8011.jpg

上圖就是由于模型太簡單導(dǎo)致存在高的偏差。

poYBAGQG2NuAH5kjAAAjt0NISbo311.png

上圖就是由于模型過度擬合導(dǎo)致存在高的方差。

過度擬合與欠擬合之間的權(quán)衡

那么如何去找到“高偏差”與“高方差”之間的權(quán)衡呢?這就需要用到“驗(yàn)證”法了。

大數(shù)據(jù)建模把數(shù)據(jù)分為兩大類:訓(xùn)練集和測試集。訓(xùn)練集用來創(chuàng)建模型,而測試集來評估模型的性能,這樣我們就可以來權(quán)衡過度擬合和欠擬合的模型。

舉個例子,對于同一組數(shù)據(jù)我們可以下面三個不同的模型,看起來立方模型是最好的。

pYYBAGQG2PGAVEDLAABOIXviUzk898.png

但當(dāng)我們常用驗(yàn)證法,從下圖中我們可知,用訓(xùn)練集來建模時,模型越復(fù)雜模型誤差確實(shí)越小,但再來看看測試集你會發(fā)現(xiàn)當(dāng)模型復(fù)雜到一定程度,它的誤差會隨著模型復(fù)雜度的增加而增大。也就是說,太簡單和太復(fù)雜的模型都不能很好的用來預(yù)測??磥碚业竭@個權(quán)衡點(diǎn)很重要,這是如何做到的呢?這就要來說說所謂的“驗(yàn)證”法了。

poYBAGQG2P-ABdDCAABjtypNRAQ092.jpg

三種驗(yàn)證方法

在Minitab 21版本的回歸(擬合回歸模型、擬合二值Logistic模型、擬合Poisson模型)和預(yù)測分析模塊中包含三種用于驗(yàn)證的方法:

poYBAGQG2Q-AW7W_AAAnwRzTu-M593.png

對這三種驗(yàn)證方法做一個簡單介紹:

1. 留一驗(yàn)證法

這種方法正如其名,留一留一,就是留下一行yi,再用其他所有數(shù)據(jù)來建模,得到模型后再把留下來這一行代入得到的模型就會得到對應(yīng)的擬合者,其過程如下所示:

poYBAGQG2R-AIlRjAABQ8EY-PFY898.jpg

接下來,我們計算預(yù)測的殘差平方和(Predicted Residual Sum of Squares)

poYBAGQG2S-AVPisAAAQShzkUp8360.png

有了PRESS就可以來計算R-sq(預(yù)測)了,到這里是不是很熟悉了。

poYBAGQG2USAW6t2AAAUAAaQT0w449.png

pYYBAGQG2U6AH3KzAAA0t6HnzEc488.png

2. 測試集驗(yàn)證法

隨機(jī)保留一定比例(Minitab 21默認(rèn)保留30%)的數(shù)據(jù)(測試集),用剩余的數(shù)據(jù)來擬合模型(訓(xùn)練集)。

poYBAGQG2WSAcIAFAAH2asczHwo877.png

3. K折交叉驗(yàn)證法

將數(shù)據(jù)拆分個K個子集,以其中一份為測試數(shù)據(jù),其它K-1份用于訓(xùn)練數(shù)據(jù)來擬合模型。使用測試數(shù)據(jù)計算誤差,重復(fù)k次,每次忽略一份,基于測試數(shù)據(jù)誤差統(tǒng)計匯總信息選擇模型。

pYYBAGQG2XeAV1x-AAK9wLH7ku4772.png

小結(jié)

當(dāng)你詢問R-sq應(yīng)該取多大時,可能是因?yàn)槟阆氪_定當(dāng)前模型是否能夠滿足要求。我希望你有更好的方法來解決這這個問題而不是只通過R-sq,尤其當(dāng)你的數(shù)據(jù)量和數(shù)據(jù)維度比較大的時候。

審核編輯黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Minitab
    +關(guān)注

    關(guān)注

    0

    文章

    173

    瀏覽量

    11677
  • 統(tǒng)計建模
    +關(guān)注

    關(guān)注

    0

    文章

    3

    瀏覽量

    5704
收藏 人收藏

    評論

    相關(guān)推薦

    matlab應(yīng)用-曲線擬合工具箱擬合曲線模型

    R-square: 0.997RMSE: 0.8263analysis功能是曲線擬合工具箱擬合僅能擬合單變量曲線模型
    發(fā)表于 11-03 15:31

    電容額定電壓越高越好

    `  誰來闡述一下電容額定電壓是否越高越好?`
    發(fā)表于 09-19 09:03

    模型的過擬合之欠擬合總體解決方案

    15 模型的過擬合 & 欠擬合 & 總體解決方案
    發(fā)表于 05-15 07:49

    電池容量越高越好嗎?

    電池容量越高越好嗎?不同型號(特別是不同體積)的電池,他的容量越高,提供使用的時間越長.拋開體積和重量的因素,當(dāng)然容量越高越好. 但是同樣的
    發(fā)表于 09-07 01:48 ?1847次閱讀

    電池的容量越高越好嗎 ?

    電池的容量越高越好嗎? 同型號(特別是不同體積)的電池,他的容量越高,提供使用的時間越長.拋開體積和重量的因素,當(dāng)然容量越高越好. 但是同
    發(fā)表于 10-21 10:19 ?1505次閱讀

    對講機(jī)靈敏度是否越高越好

    對講機(jī)靈敏度是否越高越好 靈敏度并非越高越好 有人經(jīng)常常吹噓靈敏度越高越好,然而
    發(fā)表于 02-08 08:48 ?8055次閱讀

    電池容量越高越好嗎?

    電池容量越高越好嗎? 不同型號(特別是不同體積)的電池,他的容量越高,提供使用的時間越長.拋開體積和重量的因素,當(dāng)然容量越高
    發(fā)表于 09-06 11:07 ?1540次閱讀

    為什么AD位數(shù)越高越好AD位數(shù)是如何影響信號幅值的

    數(shù)據(jù)采集設(shè)備一個重要的指標(biāo)就是AD位數(shù),我們都知道AD位數(shù)越高越好。但這個“好”到底體現(xiàn)在哪些方面呢?AD位數(shù)到底對數(shù)據(jù)采集有哪些影響呢?
    的頭像 發(fā)表于 02-03 08:29 ?2.4w次閱讀
    為什么AD位數(shù)<b class='flag-5'>越高</b><b class='flag-5'>越好</b>AD位數(shù)是如何影響信號幅值的

    處理器頻率越高越好

    CPU處理器作為電腦最核心的硬件,大家在買CPU的時候,一般都是看CPU主頻、核心數(shù)等參數(shù)?,F(xiàn)在問題來了,CPU主頻越高越好嗎?筆記本電腦在長時間的高溫狀態(tài)下運(yùn)行會影響硬件壽命,那么我們可以稍微手動限制CPU頻率。下面,小編給大家介紹cpu是否主頻
    的頭像 發(fā)表于 04-02 14:58 ?3.7w次閱讀

    顯示器上的色域是什么 是不是越高越好

    究竟什么是色域,色域是不是越高越好
    的頭像 發(fā)表于 10-23 09:56 ?9.7w次閱讀

    手機(jī)處理器越高越好

     處理器對系統(tǒng)性能有著很大的影響,那么手機(jī)處理器頻率越高就越好嗎?
    發(fā)表于 01-03 07:31 ?1.8w次閱讀

    導(dǎo)熱膠帶的導(dǎo)熱系數(shù)越高是否代表性能越好

    很多人都有同一個觀念,就是以為導(dǎo)熱膠帶的導(dǎo)熱系數(shù)越高代表這個產(chǎn)品性能越好,而市面上呢,也已經(jīng)有標(biāo)著導(dǎo)熱系數(shù)1.5w/mk或更高的導(dǎo)熱膠帶出現(xiàn),若不是近期小編的一個客戶一直糾結(jié)要求提供1.5w/mk
    發(fā)表于 04-18 09:13 ?1611次閱讀

    選擇振動傳感器,測量精度越高越好?

    如何選擇振動傳感器?測量精度越高越好?快來聽聽專業(yè)人士的解答吧!
    的頭像 發(fā)表于 03-21 11:40 ?622次閱讀
    選擇振動傳感器,測量精度<b class='flag-5'>越高</b><b class='flag-5'>越好</b>?

    磁環(huán)繞線電感精度等級越高越好

    電子發(fā)燒友網(wǎng)站提供《磁環(huán)繞線電感精度等級越高越好嗎.docx》資料免費(fèi)下載
    發(fā)表于 05-23 09:23 ?0次下載

    避雷針的接閃概率越高越好還是越低越好

    電子發(fā)燒友網(wǎng)站提供《避雷針的接閃概率越高越好還是越低越好.docx》資料免費(fèi)下載
    發(fā)表于 08-01 14:19 ?0次下載
    RM新时代网站-首页