RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

質(zhì)量視角下的系統(tǒng)穩(wěn)定性保障--穩(wěn)定性保障常態(tài)化自動(dòng)化實(shí)踐

京東云 ? 來(lái)源:京東物流 翁美婷 ? 作者:京東物流 翁美婷 ? 2024-11-19 11:19 ? 次閱讀

作者:京東物流 翁美婷

一、前言

隨著系統(tǒng)數(shù)量增多,復(fù)雜度提高,線上應(yīng)急問(wèn)題時(shí)有發(fā)生;加之需投入大量人力進(jìn)行服務(wù)治理和驗(yàn)證,為了減少日常應(yīng)急問(wèn)題及提前排除風(fēng)險(xiǎn),發(fā)起對(duì)生產(chǎn)系統(tǒng)的持續(xù)綜合性治理,實(shí)現(xiàn)常態(tài)化穩(wěn)定性治理。在常態(tài)化治理過(guò)程中我們將識(shí)別問(wèn)題等重復(fù)性有規(guī)律的工作實(shí)現(xiàn)自動(dòng)化,技術(shù)人員更專注于解決問(wèn)題。

wKgaoWc8A6SAY9UtAAB1kYm656o378.png

二、穩(wěn)定性治理常態(tài)化

wKgZoWc8A6eACij3AAH7IfdLMRI455.png

保障穩(wěn)定性治理常態(tài)化,部門組建了一支由研發(fā)團(tuán)隊(duì)、測(cè)試團(tuán)隊(duì)、架構(gòu)師組成的穩(wěn)定性治理隊(duì)伍,對(duì)部門核心應(yīng)用,核心服務(wù)風(fēng)險(xiǎn)、服務(wù)器資源風(fēng)險(xiǎn)、日志風(fēng)險(xiǎn)、性能防劣化、以及技術(shù)專項(xiàng)等多維度持續(xù)風(fēng)險(xiǎn)識(shí)別和治理。

1、核心服務(wù)風(fēng)險(xiǎn):重點(diǎn)關(guān)注服務(wù)響應(yīng)時(shí)間TP99跳點(diǎn)、響應(yīng)時(shí)間max跳點(diǎn)、可用率小于100%、秒級(jí)調(diào)用量1500次以上TP99性能等。

2、服務(wù)器資源風(fēng)險(xiǎn):巡檢的服務(wù)器有應(yīng)用服務(wù)器、DB、MDC、ES、Redis、Tidb、ClickHouse等;關(guān)注指標(biāo):CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)……;注意不同的服務(wù)器關(guān)注的指標(biāo)側(cè)重點(diǎn)不同。

3、性能防劣化:針對(duì)服務(wù)和資源的性能指標(biāo)分析峰值、趨勢(shì)、對(duì)比及偏差情況識(shí)別系統(tǒng)的劣化發(fā)生。服務(wù)維度:UMP調(diào)用量、響應(yīng)時(shí)間、可用率;資源維度:主機(jī)CPU、內(nèi)存、磁盤,數(shù)據(jù)庫(kù)慢SQL、QPS;其他中間件:JVM等。

4、日志風(fēng)險(xiǎn)治理:日志問(wèn)題包含異常日志治理、日志規(guī)范性、日志清理及磁盤監(jiān)控、日志級(jí)別動(dòng)態(tài)配置等方面。

5、其他專項(xiàng)常態(tài)化:性能測(cè)試覆蓋日常架構(gòu)升級(jí)、重點(diǎn)項(xiàng)目需求,安全測(cè)試針對(duì)代碼安全、組件安全、敏感接口、數(shù)據(jù)安全的專項(xiàng)測(cè)試,數(shù)據(jù)庫(kù)慢SQL、數(shù)據(jù)結(jié)轉(zhuǎn)、主從延遲等,針對(duì)內(nèi)部外的應(yīng)急問(wèn)題架構(gòu)和質(zhì)量復(fù)盤借鑒,識(shí)別自身系統(tǒng)可以改進(jìn)提升項(xiàng)。

此外,應(yīng)急薄弱點(diǎn)專項(xiàng)、應(yīng)急演練、接口限流風(fēng)險(xiǎn)等各類穩(wěn)定性保障專項(xiàng)持續(xù)推進(jìn)。

三、穩(wěn)定性治理自動(dòng)化

常態(tài)化治理的痛點(diǎn):部門應(yīng)用多,覆蓋全部應(yīng)用耗費(fèi)大量時(shí)間人力,當(dāng)增加review項(xiàng)時(shí),工作量大幅增加,落地難度增大。如何提升review效率和可落地性?

自動(dòng)化解決問(wèn)題

1、線上問(wèn)題巡檢自動(dòng)化,降低重復(fù)性人力工作,研發(fā)更專注于問(wèn)題優(yōu)化和高可用建設(shè)。

2、豐富風(fēng)險(xiǎn)項(xiàng)檢測(cè),風(fēng)險(xiǎn)項(xiàng)擴(kuò)充不會(huì)額外增加大量人力排查

3、部門全盤穩(wěn)定性監(jiān)控,問(wèn)題檢測(cè)能力復(fù)用,從核心服務(wù)review復(fù)制到全量不需要增加人力。

wKgaoWc8A6eAWjEzAAEoKD5kVKI274.png

自動(dòng)化過(guò)程

1、定義問(wèn)題:明確指標(biāo),確定異常規(guī)則。在穩(wěn)定性常態(tài)治理過(guò)程沉淀了一套覆蓋核心服務(wù)風(fēng)險(xiǎn)、服務(wù)器資源風(fēng)險(xiǎn)、日志風(fēng)險(xiǎn)、性能防劣化、以及其他專項(xiàng)的風(fēng)險(xiǎn)項(xiàng)和識(shí)別方法,這部分是問(wèn)題的來(lái)源。

2、自動(dòng)識(shí)別:自動(dòng)巡檢,識(shí)別線上異常。數(shù)據(jù)來(lái)源于兩部分,已有的UMP、Logbook、MDC,此外來(lái)源還有壓測(cè)數(shù)據(jù)、SLA定義等。

3、閉環(huán)問(wèn)題:工單跟進(jìn),提升閉環(huán)效率,通過(guò)問(wèn)題線上報(bào)表跟蹤治理進(jìn)度,每日/每周的定時(shí)巡檢,回歸驗(yàn)證,檢驗(yàn)修復(fù)效果。

四、治理實(shí)踐

從UMP異常、資源異常、性能防劣化、logbook異常關(guān)鍵字、等維度線上服務(wù)穩(wěn)定性治理實(shí)踐案例。

1、UMP異常-可用率<100%

案例:

1、定義問(wèn)題:可用率<100%

2、自動(dòng)識(shí)別問(wèn)題:獲取T+1的UMPkey監(jiān)控?cái)?shù)據(jù),獲取可用率小于100異常點(diǎn)信息,統(tǒng)計(jì)可用率小于100的次數(shù),最低可用率及對(duì)應(yīng)的時(shí)間為輔助排查問(wèn)題的依據(jù)。

3、問(wèn)題跟進(jìn):UMP監(jiān)控XXXServiceImpl.buildBusinessSummary可用率經(jīng)常小于100%,排查因?yàn)檎I(yè)務(wù)問(wèn)題未從方法監(jiān)控ump可用率中剔除,通過(guò)主動(dòng)上報(bào)提高報(bào)警精準(zhǔn)度。

wKgZoWc8A6iASahzAAPqZQajJag676.png

2、資源異常-磁盤使用率風(fēng)險(xiǎn)

案例:

1、定義問(wèn)題:磁盤使用率>80%

2、自動(dòng)識(shí)別問(wèn)題:獲取T+1的資源監(jiān)控?cái)?shù)據(jù),獲取磁盤/和/export的磁盤使用率>80%信息,統(tǒng)計(jì)出現(xiàn)次數(shù),最高利用率及對(duì)應(yīng)的時(shí)間。

3、問(wèn)題跟進(jìn):0級(jí)應(yīng)用服務(wù)器磁盤使用超過(guò)80%,優(yōu)化log4j配置,補(bǔ)充監(jiān)控報(bào)警。

wKgaoWc8A6mAaIhpAAMZ19CfQGE644.png

3、Logbook關(guān)鍵字-空指針異常

案例:

1、定義問(wèn)題:

log關(guān)鍵字分為程序類異常和業(yè)務(wù)類異常關(guān)鍵字:

(1)業(yè)務(wù)類異常:業(yè)務(wù)異常時(shí)主動(dòng)輸出的錯(cuò)誤日志,例如“下單失敗”,各系統(tǒng)根據(jù)需要自行打印和配置

(2)程序類異常:程序出現(xiàn)預(yù)期外的異常,自動(dòng)拋出的錯(cuò)誤日志,例如:NullPointerException

2、識(shí)別問(wèn)題:某應(yīng)用日志報(bào)空指針異常。

wKgZoWc8A6qAK41YAALpvu2aROc143.png


4、 性能防劣化-CPU劣化

案例:CPU劣化案例

2月5日11:00-19:20之間核心鑒權(quán)服務(wù)分組機(jī)器12臺(tái)服務(wù)器CPU使用率先后峰值13%到27%異常增長(zhǎng),并持續(xù)高于日常值,對(duì)外提供服務(wù)無(wú)明顯異常,客戶無(wú)感知。對(duì)服務(wù)JVM分析發(fā)現(xiàn),頻繁FullGC引起CPU升高,打印堆棧信息某中間件占用內(nèi)存1.4G(JVM共4G),經(jīng)與中間件團(tuán)隊(duì)溝通當(dāng)前版本存在線程池資源無(wú)法釋放問(wèn)題。

wKgZoWc8A6uANZS2AAJB--UnzJQ710.png

五、結(jié)語(yǔ)

通過(guò)自動(dòng)化的方式每日對(duì)線上核心UMP、Logbook、主機(jī)、數(shù)據(jù)庫(kù)、ES、Redis風(fēng)險(xiǎn)進(jìn)行巡檢,降低人工review工作量。穩(wěn)定性治理重在持續(xù),過(guò)程中可能會(huì)遇到痛點(diǎn)和艱難,值得技術(shù)人用技術(shù)不斷提升。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    智能測(cè)徑儀:高穩(wěn)定性成就高精測(cè)量之選!

    環(huán)境保持穩(wěn)定的測(cè)量性能。它以其高度的準(zhǔn)確性和可靠性,為生產(chǎn)過(guò)程中的直徑測(cè)量提供了堅(jiān)實(shí)的保障。 精準(zhǔn)測(cè)量是高穩(wěn)定性智能測(cè)徑儀的核心優(yōu)勢(shì)之一。無(wú)論是微小的零件還是大型的工件,它都能夠快速
    發(fā)表于 06-05 17:30

    系統(tǒng)開環(huán)判斷閉環(huán)穩(wěn)定性

    閉環(huán)系統(tǒng)的開環(huán)傳遞函數(shù)可以用來(lái)判斷閉環(huán)系統(tǒng)穩(wěn)定性,也就是奈奎斯特穩(wěn)定性判據(jù)。第一種說(shuō)法:如果開環(huán)傳遞函數(shù)穩(wěn)定(S復(fù)平面不存在右極點(diǎn)),若頻
    發(fā)表于 09-05 17:04

    阿里巴巴測(cè)試環(huán)境穩(wěn)定性提升實(shí)踐

    摘要: 測(cè)試環(huán)境是研發(fā)/測(cè)試同學(xué)最常用的功能,穩(wěn)定性直接影響到研發(fā)效率,那如何提升測(cè)試環(huán)境的穩(wěn)定性?阿里巴巴應(yīng)用與基礎(chǔ)運(yùn)維平臺(tái)高級(jí)開發(fā)工程師張勁,通過(guò)阿里內(nèi)部實(shí)踐,總結(jié)了一套測(cè)試環(huán)境穩(wěn)定性
    發(fā)表于 03-07 17:18

    如何提高lwip的穩(wěn)定性?

    如題、如何提高lwip的穩(wěn)定性,目前用的是f107+lwip1.4.1目前系統(tǒng)運(yùn)行一段時(shí)間后lwip就掛掉啦(時(shí)間很不固定)問(wèn)題;應(yīng)主要從那幾個(gè)方面來(lái)提高穩(wěn)定性,懇請(qǐng)大家指點(diǎn)一二,小弟在此不勝感激
    發(fā)表于 07-09 23:36

    電力系統(tǒng)中的電壓穩(wěn)定性介紹

      電力系統(tǒng)中的電壓穩(wěn)定性定義為電力系統(tǒng)在正常條件和受到干擾后在系統(tǒng)中的所有總線上保持可接受電壓的能力。在正常工作條件
    發(fā)表于 04-21 16:14

    電感的穩(wěn)定性

    電感的穩(wěn)定性 穩(wěn)定性是表示電感線圈參數(shù)隨環(huán)境條件變化而改變的程度。通常用電感溫度系數(shù)αL 來(lái)評(píng)定線圈的穩(wěn)定程度,它表示電感量相對(duì)淚度的穩(wěn)定
    發(fā)表于 08-22 14:33 ?1562次閱讀

    系統(tǒng)穩(wěn)定性

    現(xiàn)代控制理論-5.系統(tǒng)穩(wěn)定性
    發(fā)表于 12-13 22:20 ?0次下載

    電力系統(tǒng)中電壓穩(wěn)定性與攻角穩(wěn)定性問(wèn)題的研究及綜述

    穩(wěn)定性問(wèn)題是電力系統(tǒng)中一個(gè)復(fù)雜的問(wèn)題。隨著大系統(tǒng)互聯(lián)方興未艾,同時(shí)市場(chǎng)之后的電力系統(tǒng)在經(jīng)濟(jì)性的驅(qū)動(dòng)
    發(fā)表于 11-08 16:39 ?10次下載

    整流電路交流輸電系統(tǒng)穩(wěn)定性的簡(jiǎn)單分析與提高穩(wěn)定性的措施

    輸電系統(tǒng)運(yùn)行的穩(wěn)定性,是輸電系統(tǒng)安全可靠運(yùn)行的重要因數(shù) 隨著輸電系統(tǒng)規(guī)模的擴(kuò)大,輸電距離和輸送容量大大增大,系統(tǒng)
    發(fā)表于 12-06 04:22 ?2222次閱讀

    什么是熱電偶穩(wěn)定性?如何檢測(cè)熱電偶穩(wěn)定性

    在規(guī)定的條件,熱電特性變化大即表明穩(wěn)定性差,變化小則表明穩(wěn)定性良好。熱電偶的穩(wěn)定性好壞會(huì)直接影響到熱電偶測(cè)量的準(zhǔn)確性,因此,穩(wěn)定性是衡量熱
    發(fā)表于 12-31 09:19 ?2633次閱讀
    什么是熱電偶<b class='flag-5'>穩(wěn)定性</b>?如何檢測(cè)熱電偶<b class='flag-5'>穩(wěn)定性</b>?

    如何測(cè)試ERP系統(tǒng)穩(wěn)定性

    一個(gè)軟件的穩(wěn)定性對(duì)企業(yè)的工作產(chǎn)生著重要的影響,ERP系統(tǒng)如果在使用過(guò)程中安全性出現(xiàn)問(wèn)題的,可能會(huì)導(dǎo)致數(shù)據(jù)的缺失,這將會(huì)影響決策。那么如何測(cè)試ERP系統(tǒng)穩(wěn)定性呢?下面一起來(lái)了解一
    發(fā)表于 05-13 17:00 ?1032次閱讀

    怎么分析電路的穩(wěn)定性?

    怎么分析電路的穩(wěn)定性?? 電路的穩(wěn)定性是指電路在不同條件保持穩(wěn)定的能力。穩(wěn)定性是電路設(shè)計(jì)中十分重要的一個(gè)方面,因?yàn)?/div>
    的頭像 發(fā)表于 09-17 16:44 ?1932次閱讀

    如何在電壓不穩(wěn)的情況保障SSD的穩(wěn)定性能?

    如何在電壓不穩(wěn)的情況保障SSD的穩(wěn)定性能?
    的頭像 發(fā)表于 11-24 15:50 ?643次閱讀
    如何在電壓不穩(wěn)的情況<b class='flag-5'>下</b><b class='flag-5'>保障</b>SSD的<b class='flag-5'>穩(wěn)定性</b>能?

    自動(dòng)控制原理怎么判斷系統(tǒng)穩(wěn)定性

    自動(dòng)控制原理是研究控制系統(tǒng)行為和性能的科學(xué)。穩(wěn)定性是控制系統(tǒng)的一個(gè)重要性能指標(biāo),它描述了系統(tǒng)在受到擾動(dòng)后能否恢復(fù)到平衡狀態(tài)的能力。 1.
    的頭像 發(fā)表于 07-29 10:28 ?1760次閱讀

    反射內(nèi)存卡是如何保障數(shù)據(jù)傳輸?shù)?b class='flag-5'>穩(wěn)定性

    反射內(nèi)存卡數(shù)據(jù)傳輸穩(wěn)定性保障
    的頭像 發(fā)表于 11-14 10:21 ?154次閱讀
    反射內(nèi)存卡是如何<b class='flag-5'>保障</b>數(shù)據(jù)傳輸?shù)?b class='flag-5'>穩(wěn)定性</b>的
    RM新时代网站-首页