注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

ceo.lin的博客

 
 
 

日志

 
 
关于我

來自清貧的純樸鄉村.漂泊他鄉為異客.事業,親情,心靈的世界誰作主!

网易考拉推荐

亞馬遜AWS大當機的原因找到了:技術人員「打錯字」  

2017-03-04 16:51:23|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
亞馬遜今日公布28日造成全球上千個網路故障的雲端服務事故調查報告,原因在於技術人員例行維修系統時「打錯字」的人為疏失。

亞馬遜雲端資料儲存服務S3(Amazon Simple Storage Service)位於美國維吉尼亞州北部的資料中心,本周二出現大規模故障,波及Giphy、Medium、Slack、Quora等上千家使用亞馬遜雲端服務(AWS)儲存資料和提供線上服務網站,歷經4小時才搶修完成。亞馬遜今日公布事故調查報告,造成上千個網站停擺的原因,全都只因技術人員「打錯字」。

技術人員打錯字,意外關閉大量伺服器

根據亞馬遜說明,28日上午,一名技術人員正在進行例行維修,其中一個步驟便是關閉S3子系統下的少量伺服器。「不幸的是,其中一條指令輸入錯誤,導致意外關閉比預期還多的伺服器。」亞馬遜解釋。

正巧,在那些被關閉的伺服器,有些負責處理S3子系統的和資料檢索和儲存功能,被移除後相關服務皆無法執行,也導致AWS無法正常運作,需要重新啟動才能回復設定。

系統規模大且許久未重啟,導致系統重啟耗時長

不過亞馬遜表示,按照S3子系統的設計,就算發生重大故障被移除,也不至於對客戶造成影響,只要重新開啟子系統,就能簡單回復這名員工的疏失。至於這次為何耗費4小時才解決問題,亞馬遜表示,AWS已經好幾年沒真正重啟這些子系統,且S3的資料量也成長許多,電腦光是跑安全檢查和驗證底層後設資料(metadata)的完整性就花了不少時間,因此重啟系統時間比預期的還久。

亞馬遜增設安全機制、避免快速關閉大量伺服器

為了避免類似情形再發生,亞馬遜表示,它們目前使用移除容量的工具「允許太多容量可於短時間內移除」,因此,未來他們將調整,讓工具移除容量的速度變更慢,並增加安全檢查機制,防止移除超過子系統正常運作所需的最小容量。此外,它們也將把S3子系統拆成更小的單位,以縮短系統回復所需時間。

尷尬的是,在這次事件中,用來追蹤AWS運作狀況的「服務健康檢查(Service Health Dashboard)」網站也受到S3故障而停擺,導致亞馬遜只能在Twitter上更新搶修狀況。亞馬遜在報告中也保證未來S3故障、該網站將能正常運作。

「我們希望向所有受到此事件影響的客戶道歉。我們將盡所有努力在這次的事件學習,並進一步改善我們服務的可用性。」亞馬遜說。

  评论这张
 
阅读(3)| 评论(1)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017