RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

阿里云11.12故障原因及改進(jìn)措施

OSC開源社區(qū) ? 來源:OSC開源社區(qū) ? 2023-11-17 11:34 ? 次閱讀

針對(duì)阿里云 11.12 的重大服務(wù)故障, 該公司發(fā)給客戶的一份「官方故障報(bào)告」在網(wǎng)上被廣泛流傳。

影響范圍

1、OSS、OTS、SLS、MNS 等產(chǎn)品的部分服務(wù)受到影響,大部分產(chǎn)品如 ECS、RDS、網(wǎng)絡(luò)等運(yùn)行不受影響。

2、云產(chǎn)品控制臺(tái)、管控 API 等功能受到影響。

時(shí)間

2023 年 11 月 12 日 17:39~19.20,故障時(shí)間為 1 小時(shí) 41 分。

問題概況

2023 年 11 月 12 日 17:39 起,阿里云云產(chǎn)品控制臺(tái)訪問及管控 API 調(diào)用出現(xiàn)異常、部分云產(chǎn)品服務(wù)訪問異常,工程師排查故障原因與訪問密鑰服務(wù) (AK) 異常有關(guān)。工程師修訂白名單版本后,采取分批重啟 AK 服務(wù)的措施,于 18:35 開始陸續(xù)恢復(fù),19:20 絕大部分 Region 產(chǎn)品控制臺(tái)和管控 API 恢復(fù)。

處理過程

17:39:阿里云云產(chǎn)品控制臺(tái)訪問及管控 API 調(diào)用出現(xiàn)異常。

17:50:工程師確認(rèn)故障是 AK 服務(wù)異常導(dǎo)致,影響云產(chǎn)品控制臺(tái)、管控 API 調(diào)用異常,以及依賴 AK 服務(wù)的云產(chǎn)品服務(wù)運(yùn)行異常。

18:01:工程師定位到根因。

18:07:開始執(zhí)行恢復(fù)措施,包括修訂白名單版本、重啟 AK 服務(wù)。

18:35:杭州等 Region 開始恢復(fù)正常。

19:20:絕大部分 Region 的云產(chǎn)品控制臺(tái)和管控 API 調(diào)用恢復(fù)正常。

原因

訪問密鑰服務(wù) (AK)在讀取白名單數(shù)據(jù)時(shí)出現(xiàn)讀取異常,因處理讀取異常的代碼存在邏輯缺陷,生成了一份不完整白名單,導(dǎo)致不在此白名單中的有效請(qǐng)求失敗,影響云產(chǎn)品控制臺(tái)及管控 API 服務(wù)出現(xiàn)異常,同時(shí)部分依賴 AK 服務(wù)的產(chǎn)品因不完整的白名單出現(xiàn)部分服務(wù)運(yùn)行異常。

改進(jìn)措施

1、增加 AK 服務(wù)白名單生成結(jié)果的校驗(yàn)及告警攔截能力。

2、增加 AK 服務(wù)白名單更新的灰度驗(yàn)證邏輯,提前發(fā)現(xiàn)異常。

3、增加 AK 服務(wù)白名單的快速恢復(fù)能力。

4、加強(qiáng)云產(chǎn)品側(cè)的聯(lián)動(dòng)恢復(fù)能力。

編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • API
    API
    +關(guān)注

    關(guān)注

    2

    文章

    1499

    瀏覽量

    61961
  • 阿里云
    +關(guān)注

    關(guān)注

    3

    文章

    952

    瀏覽量

    43006
  • RDS
    RDS
    +關(guān)注

    關(guān)注

    0

    文章

    101

    瀏覽量

    16846

原文標(biāo)題:阿里云 11.12 故障原因曝光

文章出處:【微信號(hào):OSC開源社區(qū),微信公眾號(hào):OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    充電電阻故障改進(jìn)措施

    本文簡(jiǎn)述了深圳地鐵1號(hào)線列車牽引逆變器充電電路原理,分析充電電阻故障原因,指出充電電阻設(shè)計(jì)上的問題,并提出改進(jìn)措施
    發(fā)表于 12-23 10:44 ?1926次閱讀
    充電電阻<b class='flag-5'>故障</b><b class='flag-5'>改進(jìn)</b><b class='flag-5'>措施</b>

    阿里方式大匯總

    摘要:前不久,阿里發(fā)布了一款遷神器,即 阿里工具,使用該遷
    發(fā)表于 12-25 14:33

    無邊界,阿里混合數(shù)據(jù)同步發(fā)布

    ,當(dāng)業(yè)務(wù)中心出現(xiàn)故障時(shí),快速將業(yè)務(wù)切換到容災(zāi)中心,秒級(jí)恢復(fù)業(yè)務(wù)。3、業(yè)務(wù)彈性擴(kuò)展因?yàn)?b class='flag-5'>云的靈活性、可擴(kuò)展性及低成本,業(yè)務(wù)在大促等突發(fā)流量時(shí),可以在阿里彈性擴(kuò)容并支持部分業(yè)務(wù)流量。此時(shí),
    發(fā)表于 04-02 15:35

    阿里免費(fèi)使用及手冊(cè)

    自己使用阿里服務(wù)器搭建的一個(gè)個(gè)人知識(shí)分享博客網(wǎng)站,基于網(wǎng)站搭建過程,分享一些經(jīng)驗(yàn)。先對(duì)阿里服務(wù)器大體介紹下,后續(xù)有時(shí)間再分享技術(shù)方面的東西。希望對(duì)大家有用。這是目錄,具體手冊(cè)在附件
    發(fā)表于 05-10 21:17

    上拍客梨視頻 基于阿里的技術(shù)實(shí)踐分享

    摘要: 梨視頻大部分的業(yè)務(wù)都選擇了阿里,其中一個(gè)主要原因阿里提供基于釘釘群構(gòu)建的24貼身技術(shù)支持,劉雋表示,這種服務(wù)模式可以更充分、高
    發(fā)表于 06-28 16:13

    阿里 APM 解決方案地圖

    服務(wù)通過在服務(wù)器上安裝插件,為用戶提供服務(wù)器的系統(tǒng)監(jiān)控服務(wù)。用戶可以使用主機(jī)監(jiān)控服務(wù)進(jìn)行服務(wù)器資源使用情況的查詢和排查故障時(shí)的監(jiān)控?cái)?shù)據(jù)查詢。服務(wù)器無論是阿里服務(wù)器 ECS,還是其他
    發(fā)表于 07-05 16:54

    阿里容器服務(wù)如何使用

    阿里容器服務(wù)使用教程
    發(fā)表于 04-28 14:46

    基于MicroChip阿里IOT連接開發(fā)方案

    MicroChip的ATmega4808阿里IOT連接開發(fā)套件由功能強(qiáng)大的AVR 8-bit MCU ATmega4808、加密認(rèn)證ICATECC608A及經(jīng)過認(rèn)證的ATWINC1510
    發(fā)表于 11-13 14:27

    阿里平臺(tái)操作

    一、阿里平臺(tái)操作??首先我們要知道BC26連接阿里是連接阿里上的某個(gè)設(shè)備,因此首先需要在
    發(fā)表于 08-03 06:43

    Fibocom 公有阿里 技術(shù)資料

    Fibocom 公有阿里 技術(shù)資料內(nèi)容如下:1、阿里連接教程2、阿里
    發(fā)表于 01-05 15:03

    2m環(huán)形爐爐底故障原因分析及改進(jìn)措施

    對(duì)衡陽(yáng)鋼管(集團(tuán))有限公司12m環(huán)形爐爐底磨爐墻的原因進(jìn)行了分析,并采取了相應(yīng)的改進(jìn)措施,取得了較好的實(shí)用效果。
    發(fā)表于 01-16 15:39 ?11次下載

    淺談波導(dǎo)充氣機(jī)故障原因及應(yīng)對(duì)措施

    以及可以快速有效的采取措施方法,保證充氣機(jī)可以正常安全的恢復(fù)工作。以及下次出現(xiàn)問題的時(shí)候就知道有哪些原因和應(yīng)對(duì)措施,避免手忙腳亂。那下面就給大家普及一下一些簡(jiǎn)單的故障檢測(cè)方法以及應(yīng)對(duì)
    發(fā)表于 03-09 14:45 ?1941次閱讀

    阿里嚴(yán)重故障,全線產(chǎn)品受影響(已恢復(fù))

    故障原因與某個(gè)底層服務(wù)組件有關(guān),工程師正在緊急處理中 。 官方通告顯示,阿里全線產(chǎn)品受影響。 18:20 更新,官方回應(yīng): 2023-11-
    的頭像 發(fā)表于 11-13 00:26 ?904次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>嚴(yán)重<b class='flag-5'>故障</b>,全線產(chǎn)品受影響(已恢復(fù))

    阿里全球宕機(jī):從阿里故障看企業(yè) IT 挑戰(zhàn)

    2023 年 11 月 12 日晚,阿里遭遇了一場(chǎng)全球性故障,導(dǎo)致其全產(chǎn)品線全部崩潰,包括阿里盤、釘釘、淘寶、閑魚等服務(wù)。這次
    的頭像 發(fā)表于 11-13 00:28 ?410次閱讀

    阿里崩了:企業(yè)未來該怎么選擇廠商?

    出現(xiàn)大規(guī)模故障,也成為政企們熱議的話題,大家關(guān)心的問題在于:公有到底還安全嗎?是否還能繼續(xù)上?未來應(yīng)該采取哪些措施來保障穩(wěn)定可靠? 不要?jiǎng)訐u“上
    的頭像 發(fā)表于 11-23 10:18 ?371次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>崩了:企業(yè)未來該怎么選擇<b class='flag-5'>云</b>廠商?
    RM新时代网站-首页