盘点亚马逊、谷歌、苹果云端宕机背后故事

作者:IT新闻网 来源:IT新闻网 2012-12-29 09:52:12 阅读 我要评论 直达商品

在10月22日(上周一),Amazon云服务AWS东部地区又出宕机问题,对Reddit, Airbnb, Flipboard, GetGlue, Coursera等多家知名网站造成了影响,不过在受到影响区域以外的EC2和EBS都显示正常,客户还可以进行迁移..

在10月22日(上周一),Amazon云服务AWS东部地区又出宕机问题,对Reddit, Airbnb, Flipboard, GetGlue, Coursera等多家知名网站造成了影响,不过在受到影响区域以外的EC2和EBS都显示正常,客户还可以进行迁移。此次事件的阴霾还未散尽,在10月26日(上周五),Google App Engine宕机,10月30日,苹果iCloud也出现了一点点小麻烦。作为云计算行业的领军人物,三巨头最近的日子都不是太顺。不过这也侧面反映了云计算对我们生活、工作的影响力越来越大。

亚马逊宕机事件

尽管2011年亚马逊AWS也出现了一些问题,但远远没有2012年这么频繁。从之前6月份由于电力系统的故障,进而影响了AWS的客户之后,在7月份因为雷击再次造成数据中心宕机,又影响了一批客户的正常使用,此次事件发生之后,AWS官方网站对本次宕机事件做出了解释,而且告诉用户AWS正在做的工作,以防止未来再次发生类似的问题。

周一 10:00 AM PDT:美国东部地区的亚马逊弹性块存储(EBS)的性能发生下降,在某些情况下,无法进一步处理I / O请求。问题的根源是运行在EBS存储服务器上的数据收集代理有一个潜在的Bug。每一个EBS存储服务器的代理都关联着一组数据收集服务器和用来维护的报告信息。该数据收集系统的数据是非常重要的,但是对时间却不敏感,因为该系统的设计仅仅容忍延迟或者丢失的数据。

上周,该地区的一个数据收集服务器因为硬件故障被换下。不过替换该服务器部分的一个DNS记录已更新,删除了故障服务器并且添加来了替换服务器。不过在那个时候没有注意到,DNS更新没有成功地传播到所有的内部DNS服务器之上,结果,存储服务器的一小部分并得到没有更新的服务器地址,而且继续尝试联系原来的数据收集服务器。但是由于设计的数据收集服务容忍丢失数据,显然这并不会造成任何直接的问题而且没有发出何报警。然而,因为无法联系到的数据收集服务器,存储服务器上的报告代理引发了潜在的内存泄漏错误:报告代理并没有处理连接失败的问题,而是继续以尝试联系数据收集服务器的方式,慢慢地消耗系统内存。

尽管AWS监控着每个EBS服务器的总内存消耗,但是监控系统没有对此内存的泄漏进行报警。而且EBS服务器动态地使用所有的可用内存用于管理客户数据,因此很难对内存的使用和释放内存进行准确的警报设置。星期一早上,内存消耗的速度已经非常高了,直接影响到存储服务器,它们无法跟上正常的请求处理。

到目前为止,亚马逊已经部署了监测预警系统,对内存泄漏问题进行重点关注。与此同时,也修正了EBS存储服务器上的系统内存监控,从而保证对每个进程的内存消耗进行监控和预警,AWS还将部署资源限制,以防止低优先级的进程消耗过多的主机资源。很关键的部分,AWS更新了内部的DNS配置,以进一步确保DNS的信息更改被可靠的传播,最重要的是,确保AWS的监管的完善性,这些行动完全解决了引发这次事件的问题。此外,AWS正在评估在事件的迅速恶化之前,如何更改EBS故障转移逻辑。亚马逊相信,他们有能力作出调整,从而减少任何类似的相关EBS服务器故障或退化的影响。

亚马逊在最后表达了深深的歉意:“给您带来不便以及造成的影响,我们深表歉意。我们知道AWS服务对客户业务来说是多么的重要,我们将会更加努力的工作,从本次事件中认真吸取教训,我们看到先前的改变也减轻了本次事件一些影响,而且我们也了解了新的故障模式,在未来的日子里,我们会花很多时间改善我们的服务。”

在亚马逊宕机事件发生后,一位国外网友打趣说:亚马逊又宕机了呀,为什么亚马逊不把Amazon.com放在自己的云服务器上呢?另一位专业网友则在网上留言指责亚马逊无法提供风险预警服务,导致大量网站屡次在毫无征兆的情况下经历长时间的宕机,给网站造成重大损失。

为什么亚马逊频频出现这么多问题,我们依然还会选择它?因为我们知道,AWS目前是最好的云服务,对于大多数用户来说,无论他们遭受到了多么严重的影响,他们还是会选择亚马逊,因为亚马逊帮助他们用较少的成本和精力运营着一个强大的基础架构。许多人在批评亚马逊之前都会首先感谢亚马逊帮助他们做到的事情。因为到目前为止,还没有一家公司能够取代亚马逊!我们也很欣喜地看到OpenStack的蓬勃发展,但是在商用平台始终还是一大软肋,目前绝对不是亚马逊的对手。 上一页1 23 下一页


  推荐阅读

  光棍节电商促销数据背后凸显同质化难题

光棍节促销期间,天猫商城以当日销售132亿元的成绩(未包括淘宝数据),位居各类电商企业首位。 11月12日,天猫商城、苏宁易购、国美网上商城等电商企业公布光棍节促销数据。这组堪称亮丽的数据显示,光棍节促销期间>>>详细阅读


本文标题:盘点亚马逊、谷歌、苹果云端宕机背后故事

地址:http://www.lgo100.com/a/guandian/yejie/20121229/110681.html

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
我的评论: 人参与评论
验证码: 匿名回答
网友评论(点击查看更多条评论)
友情提示: 登录后发表评论,可以直接从评论中的用户名进入您的个人空间,让更多网友认识您。
自媒体专栏

评论

热度