針對(duì)阿里云 11.12 的重大服務(wù)故障, 該公司發(fā)給客戶的一份「官方故障報(bào)告」在網(wǎng)上被廣泛流傳。
影響范圍
1、OSS、OTS、SLS、MNS 等產(chǎn)品的部分服務(wù)受到影響,大部分產(chǎn)品如 ECS、RDS、網(wǎng)絡(luò)等運(yùn)行不受影響。
2、云產(chǎn)品控制臺(tái)、管控 API 等功能受到影響。
時(shí)間
2023 年 11 月 12 日 17:39~19.20,故障時(shí)間為 1 小時(shí) 41 分。
問題概況
2023 年 11 月 12 日 17:39 起,阿里云云產(chǎn)品控制臺(tái)訪問及管控 API 調(diào)用出現(xiàn)異常、部分云產(chǎn)品服務(wù)訪問異常,工程師排查故障原因與訪問密鑰服務(wù) (AK) 異常有關(guān)。工程師修訂白名單版本后,采取分批重啟 AK 服務(wù)的措施,于 18:35 開始陸續(xù)恢復(fù),19:20 絕大部分 Region 產(chǎn)品控制臺(tái)和管控 API 恢復(fù)。
處理過程
17:39:阿里云云產(chǎn)品控制臺(tái)訪問及管控 API 調(diào)用出現(xiàn)異常。
17:50:工程師確認(rèn)故障是 AK 服務(wù)異常導(dǎo)致,影響云產(chǎn)品控制臺(tái)、管控 API 調(diào)用異常,以及依賴 AK 服務(wù)的云產(chǎn)品服務(wù)運(yùn)行異常。
18:01:工程師定位到根因。
18:07:開始執(zhí)行恢復(fù)措施,包括修訂白名單版本、重啟 AK 服務(wù)。
18:35:杭州等 Region 開始恢復(fù)正常。
19:20:絕大部分 Region 的云產(chǎn)品控制臺(tái)和管控 API 調(diào)用恢復(fù)正常。
原因
訪問密鑰服務(wù) (AK)在讀取白名單數(shù)據(jù)時(shí)出現(xiàn)讀取異常,因處理讀取異常的代碼存在邏輯缺陷,生成了一份不完整白名單,導(dǎo)致不在此白名單中的有效請(qǐng)求失敗,影響云產(chǎn)品控制臺(tái)及管控 API 服務(wù)出現(xiàn)異常,同時(shí)部分依賴 AK 服務(wù)的產(chǎn)品因不完整的白名單出現(xiàn)部分服務(wù)運(yùn)行異常。
改進(jìn)措施
1、增加 AK 服務(wù)白名單生成結(jié)果的校驗(yàn)及告警攔截能力。
2、增加 AK 服務(wù)白名單更新的灰度驗(yàn)證邏輯,提前發(fā)現(xiàn)異常。
3、增加 AK 服務(wù)白名單的快速恢復(fù)能力。
4、加強(qiáng)云產(chǎn)品側(cè)的聯(lián)動(dòng)恢復(fù)能力。
編輯:黃飛
-
API
+關(guān)注
關(guān)注
2文章
1499瀏覽量
61961 -
阿里云
+關(guān)注
關(guān)注
3文章
952瀏覽量
43006 -
RDS
+關(guān)注
關(guān)注
0文章
101瀏覽量
16846
原文標(biāo)題:阿里云 11.12 故障原因曝光
文章出處:【微信號(hào):OSC開源社區(qū),微信公眾號(hào):OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論