AWS 雲端儲存服務S3台灣時間周三凌晨斷線數小時。AWS昨日說明,是資料中心日常維護過程意外引發,導致大半網路服務遭到癱瘓。
太平洋時間周二早上9:37(台灣時間周三凌晨0:37)一名S3團隊成員在執行維護業務過程中,要從負責S3計費的一部子系統移除少量幾台伺服器時,不料輸入指令發生錯誤,導致不小心移除過多伺服器,而這些不慎被移除的伺服器又剛好支援另兩個S3重要子系統。
一個子系統是索引子系統,管理該區域內所有S3物件的元資料及地點資訊,它是GET、LIST、PUT及DELETE等呼叫執行的關鍵。另一個配置子系統則管理物件新增物件的資源配置,以及管理索引子系統正常運作,它會在PUT呼叫時負責配置儲存資源。兩台子系統的部份移除容量過大,就會造成必須重開機。此時雖然AWS重開機,S3卻無法處理呼叫。
同此外,AWS US-EAST-1區域內其他依賴S3儲存的AWS服務,包括S3 console、Amazon Elastic Compute Cloud (EC2)、Amazon Elastic Block Store (EBS)及AWS Lambda也因為無法存取S3 API同時受到影響。
雖然S3斷線只持續了約2個半小時,但波及眾多大小網站包括Expedia、Quora、Slack、Trello、Imgur、IFTTT、Adobe及美國證管會無法運作。連提供網站斷線查詢的Isitdownrightnow服務,以及AWS自己的狀態頁也是架在AWS S3上,當時也很諷刺地都無法運作。
這次斷線原因出在系統大容量很輕易就被移除,而且系統重開階段回復速度花了太長時間。為了避免情況再度發生,AWS表示已修改S3的系統管理工具,未來會更以緩慢速度移除容量,並且加入停損機制,以防止容量低於運作所需的水準。其他運作工具也已導入同樣的安全檢查。此外,AWS也做了調整,加快回復速度,以便主要子系統未來能以更短時間完成回復。