作者:京東物流 翁美婷
一、前言
隨著系統(tǒng)數(shù)量增多,復(fù)雜度提高,線上應(yīng)急問(wèn)題時(shí)有發(fā)生;加之需投入大量人力進(jìn)行服務(wù)治理和驗(yàn)證,為了減少日常應(yīng)急問(wèn)題及提前排除風(fēng)險(xiǎn),發(fā)起對(duì)生產(chǎn)系統(tǒng)的持續(xù)綜合性治理,實(shí)現(xiàn)常態(tài)化穩(wěn)定性治理。在常態(tài)化治理過(guò)程中我們將識(shí)別問(wèn)題等重復(fù)性有規(guī)律的工作實(shí)現(xiàn)自動(dòng)化,技術(shù)人員更專注于解決問(wèn)題。
二、穩(wěn)定性治理常態(tài)化
保障穩(wěn)定性治理常態(tài)化,部門組建了一支由研發(fā)團(tuán)隊(duì)、測(cè)試團(tuán)隊(duì)、架構(gòu)師組成的穩(wěn)定性治理隊(duì)伍,對(duì)部門核心應(yīng)用,核心服務(wù)風(fēng)險(xiǎn)、服務(wù)器資源風(fēng)險(xiǎn)、日志風(fēng)險(xiǎn)、性能防劣化、以及技術(shù)專項(xiàng)等多維度持續(xù)風(fēng)險(xiǎn)識(shí)別和治理。
1、核心服務(wù)風(fēng)險(xiǎn):重點(diǎn)關(guān)注服務(wù)響應(yīng)時(shí)間TP99跳點(diǎn)、響應(yīng)時(shí)間max跳點(diǎn)、可用率小于100%、秒級(jí)調(diào)用量1500次以上TP99性能等。
2、服務(wù)器資源風(fēng)險(xiǎn):巡檢的服務(wù)器有應(yīng)用服務(wù)器、DB、MDC、ES、Redis、Tidb、ClickHouse等;關(guān)注指標(biāo):CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)……;注意不同的服務(wù)器關(guān)注的指標(biāo)側(cè)重點(diǎn)不同。
3、性能防劣化:針對(duì)服務(wù)和資源的性能指標(biāo)分析峰值、趨勢(shì)、對(duì)比及偏差情況識(shí)別系統(tǒng)的劣化發(fā)生。服務(wù)維度:UMP調(diào)用量、響應(yīng)時(shí)間、可用率;資源維度:主機(jī)CPU、內(nèi)存、磁盤,數(shù)據(jù)庫(kù)慢SQL、QPS;其他中間件:JVM等。
4、日志風(fēng)險(xiǎn)治理:日志問(wèn)題包含異常日志治理、日志規(guī)范性、日志清理及磁盤監(jiān)控、日志級(jí)別動(dòng)態(tài)配置等方面。
5、其他專項(xiàng)常態(tài)化:性能測(cè)試覆蓋日常架構(gòu)升級(jí)、重點(diǎn)項(xiàng)目需求,安全測(cè)試針對(duì)代碼安全、組件安全、敏感接口、數(shù)據(jù)安全的專項(xiàng)測(cè)試,數(shù)據(jù)庫(kù)慢SQL、數(shù)據(jù)結(jié)轉(zhuǎn)、主從延遲等,針對(duì)內(nèi)部外的應(yīng)急問(wèn)題架構(gòu)和質(zhì)量復(fù)盤借鑒,識(shí)別自身系統(tǒng)可以改進(jìn)提升項(xiàng)。
此外,應(yīng)急薄弱點(diǎn)專項(xiàng)、應(yīng)急演練、接口限流風(fēng)險(xiǎn)等各類穩(wěn)定性保障專項(xiàng)持續(xù)推進(jìn)。
三、穩(wěn)定性治理自動(dòng)化
常態(tài)化治理的痛點(diǎn):部門應(yīng)用多,覆蓋全部應(yīng)用耗費(fèi)大量時(shí)間人力,當(dāng)增加review項(xiàng)時(shí),工作量大幅增加,落地難度增大。如何提升review效率和可落地性?
自動(dòng)化解決問(wèn)題
1、線上問(wèn)題巡檢自動(dòng)化,降低重復(fù)性人力工作,研發(fā)更專注于問(wèn)題優(yōu)化和高可用建設(shè)。
2、豐富風(fēng)險(xiǎn)項(xiàng)檢測(cè),風(fēng)險(xiǎn)項(xiàng)擴(kuò)充不會(huì)額外增加大量人力排查
3、部門全盤穩(wěn)定性監(jiān)控,問(wèn)題檢測(cè)能力復(fù)用,從核心服務(wù)review復(fù)制到全量不需要增加人力。
自動(dòng)化過(guò)程
1、定義問(wèn)題:明確指標(biāo),確定異常規(guī)則。在穩(wěn)定性常態(tài)治理過(guò)程沉淀了一套覆蓋核心服務(wù)風(fēng)險(xiǎn)、服務(wù)器資源風(fēng)險(xiǎn)、日志風(fēng)險(xiǎn)、性能防劣化、以及其他專項(xiàng)的風(fēng)險(xiǎn)項(xiàng)和識(shí)別方法,這部分是問(wèn)題的來(lái)源。
2、自動(dòng)識(shí)別:自動(dòng)巡檢,識(shí)別線上異常。數(shù)據(jù)來(lái)源于兩部分,已有的UMP、Logbook、MDC,此外來(lái)源還有壓測(cè)數(shù)據(jù)、SLA定義等。
3、閉環(huán)問(wèn)題:工單跟進(jìn),提升閉環(huán)效率,通過(guò)問(wèn)題線上報(bào)表跟蹤治理進(jìn)度,每日/每周的定時(shí)巡檢,回歸驗(yàn)證,檢驗(yàn)修復(fù)效果。
四、治理實(shí)踐
從UMP異常、資源異常、性能防劣化、logbook異常關(guān)鍵字、等維度線上服務(wù)穩(wěn)定性治理實(shí)踐案例。
1、UMP異常-可用率<100%
案例:
1、定義問(wèn)題:可用率<100%
2、自動(dòng)識(shí)別問(wèn)題:獲取T+1的UMPkey監(jiān)控?cái)?shù)據(jù),獲取可用率小于100異常點(diǎn)信息,統(tǒng)計(jì)可用率小于100的次數(shù),最低可用率及對(duì)應(yīng)的時(shí)間為輔助排查問(wèn)題的依據(jù)。
3、問(wèn)題跟進(jìn):UMP監(jiān)控XXXServiceImpl.buildBusinessSummary可用率經(jīng)常小于100%,排查因?yàn)檎I(yè)務(wù)問(wèn)題未從方法監(jiān)控ump可用率中剔除,通過(guò)主動(dòng)上報(bào)提高報(bào)警精準(zhǔn)度。
2、資源異常-磁盤使用率風(fēng)險(xiǎn)
案例:
1、定義問(wèn)題:磁盤使用率>80%
2、自動(dòng)識(shí)別問(wèn)題:獲取T+1的資源監(jiān)控?cái)?shù)據(jù),獲取磁盤/和/export的磁盤使用率>80%信息,統(tǒng)計(jì)出現(xiàn)次數(shù),最高利用率及對(duì)應(yīng)的時(shí)間。
3、問(wèn)題跟進(jìn):0級(jí)應(yīng)用服務(wù)器磁盤使用超過(guò)80%,優(yōu)化log4j配置,補(bǔ)充監(jiān)控報(bào)警。
3、Logbook關(guān)鍵字-空指針異常
案例:
1、定義問(wèn)題:
log關(guān)鍵字分為程序類異常和業(yè)務(wù)類異常關(guān)鍵字:
(1)業(yè)務(wù)類異常:業(yè)務(wù)異常時(shí)主動(dòng)輸出的錯(cuò)誤日志,例如“下單失敗”,各系統(tǒng)根據(jù)需要自行打印和配置
(2)程序類異常:程序出現(xiàn)預(yù)期外的異常,自動(dòng)拋出的錯(cuò)誤日志,例如:NullPointerException
2、識(shí)別問(wèn)題:某應(yīng)用日志報(bào)空指針異常。
4、 性能防劣化-CPU劣化
案例:CPU劣化案例
2月5日11:00-19:20之間核心鑒權(quán)服務(wù)分組機(jī)器12臺(tái)服務(wù)器CPU使用率先后峰值13%到27%異常增長(zhǎng),并持續(xù)高于日常值,對(duì)外提供服務(wù)無(wú)明顯異常,客戶無(wú)感知。對(duì)服務(wù)JVM分析發(fā)現(xiàn),頻繁FullGC引起CPU升高,打印堆棧信息某中間件占用內(nèi)存1.4G(JVM共4G),經(jīng)與中間件團(tuán)隊(duì)溝通當(dāng)前版本存在線程池資源無(wú)法釋放問(wèn)題。
五、結(jié)語(yǔ)
通過(guò)自動(dòng)化的方式每日對(duì)線上核心UMP、Logbook、主機(jī)、數(shù)據(jù)庫(kù)、ES、Redis風(fēng)險(xiǎn)進(jìn)行巡檢,降低人工review工作量。穩(wěn)定性治理重在持續(xù),過(guò)程中可能會(huì)遇到痛點(diǎn)和艱難,值得技術(shù)人用技術(shù)不斷提升。
審核編輯 黃宇
-
自動(dòng)化
+關(guān)注
關(guān)注
29文章
5562瀏覽量
79239 -
系統(tǒng)穩(wěn)定性
+關(guān)注
關(guān)注
0文章
8瀏覽量
6900
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論