3 人忙不过来造成存储烧毁,微软承认 Azure 园区人力安排不足
▲捷星航空当时发布的服务中断报告
微软承认现场没有足够的工作人员,而且其应急程序也没有考虑到问题的规模,在事故发生时,数据中心只安排了 3 名工作人员,他们都相当尽责地 “执行了记录在案的应急操作程序 (EOP),但最终没取得有成功”。
▲ 图源 微软针对事件发布的报告(PIR)
经过查询得知,两个受影响数据大厅的冷却能力 “由七个冷却器组成,其中五个冷却器处于运行状态,两个冷却器处于备用状态(N+2)”。电源下陷(电压骤降)导致五个运行中的冷却器出现故障。
微软声称,“园区因人员配备不足从而导致了这次事故,在‘更好地了解根本问题并采取适当的缓解措施’之前,工作人员安排数量目前从 3 人临时增至 7 人。”,微软还将调整相关应急预案和日常工作流程,降低此类事件再次发生的可能性。
▲ 图源 微软针对事件发布的报告(PIR)
据悉,这次事故影响了使用 Azure 的七家大型企业客户,其中五家为“标准”级别,两家为“高级”级别,微软表示,装载有企业客户存储内容的硬件“因数据大厅温度过高而损坏”,除了企业客户重大损失外,该数据中心旗下托管的 25 万多个 SQL 数据库也发生了故障,根据微软 PIR 报告,当下相关数据恢复工作已经大致完成。
▲ 图源 微软针对事件发布的报告(PIR)
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。