错字如何暂时影响互联网

取决于您的居住地和访问的网站,您可能已经注意到互联网在星期二(2017年2月28日)活跃起来。无数网站被破坏,数百万人受到影响。现在,由于亚马逊承认了这一事实,我们知道了它是怎么发生的……

根据亚马逊俗称的“北弗吉尼亚(US-EAST-1)地区Amazon S3服务中断摘要",单个错字是造成互联网中断的原因。不,那不是错字。一位不幸的工程师犯了一个小错误,使互联网瘫痪了几个小时。

您是否尝试过将其关闭然后重新打开?

正如亚马逊在上午9:37所解释的那样,一名亚马逊工程师“执行了旨在删除S3计费过程所使用的S3子系统之一的少量服务器的命令"。到目前为止,一切都很好,因为这个团队成员正在按他们的薪水做事。

“不幸的是,该命令的输入之一输入错误,并且删除了比预期更大的服务器集"。这些服务器“支持其他两个S3子系统",其中一个“管理该区域中所有S3对象的元数据和位置信息"。这就造成了严重的问题。

Amazon然后尝试将其关闭然后再打开。不幸的是,“ S3在过去的几年中经历了巨大的增长,重新启动这些服务并运行必要的安全检查以验证元数据的完整性的过程比预期的花费了更长的时间"。因此,直到下午1时54分,一切才重新开始正常运行。

为了防止重复出现性能,亚马逊“由于这次运营事件而做出了几处更改"。这包括引入“防止容量被删除的安全措施",“审核其他操作工具以确保我们进行相似的安全检查",以及“进行更改以缩短关键S3子系统的恢复时间"。

我们告诉过您错字总是很重要

我曾经认为错字总是很重要,即使是在线和短信中也是如此。这一不幸的事件肯定证明了这一点,因为它表明了一个单独的错字可能带来的破坏性影响。是的,所以我们并不是所有的Amazon工程师都负责保持互联网的正常运行,但仍然没有任何借口!

您是否受到周二Amazon停机的影响?您注意到哪个网站行为不当?您对单个错字使互联网瘫痪的感觉如何?亚马逊应该怎么做才能避免重复演出?请在下面的评论中告诉我们!

图片来源:Marco Verch通过Flickr

标签: 亚马逊 云计算 Web服务器