11月18日微软Azure客户服务中断,影响了Azure存储和一些其他服务包括虚拟机。微软今天公布了导致问题的根本原因以及如何改善这种情况。首先,造成服务中断是Azure存储配置变更带来的。 而在部署变更时有两项操作上的错误: 1、执行标准的跳跃式部署策略时有些细节部分没有涉及到。 工程师修复了Azure Table存储性能问题时,认为几个星期前的一部分基础设施就已进行过更改,但不幸的是,配置工具并没有完整执行整个基础设施的部署变化。 2、虽然微软已针对Azure Table存储前端做过测试和预生产验证,但配置被错误地启用,导致Azure Blob存储前端进入死循环,无法应答服务请求。我们的工程团队在几分钟内接到自动监控警报。我们在0分钟内在全球范围恢复了部署上的变化,以避免Azure Blob存储前端遭遇同样的问题,但Azure Blob存储前端已经进入死循环,无法接受任何配置更改。这些配置恢复需要重新启动,也延长了恢复的时间。 微软表示将致力于提高Azure平台的体验,进行以下改进: - 存储服务中断:确保增量批次更改时加强部署协议执行标准。 - 虚拟机服务中断: 改善Windows和Linux VW恢复机制。提高因存储引起的Windows安装程序配置失败问题的检测和恢复。 - 修复网络服务网络编程错误。 通讯: - 修复服务健康仪表板错误配置导致不正确的标题状态问题。 - 实施新的社交媒体沟通机制。 - 改善健康仪表板和创作工具的容错性。 支持: 提供微软支持自动化工具和基础设施的容错性。 Azure首席技术官Mark Russinovich做客第9频道,详细回顾了调查过程,以及讲述了团队如何积极致力于提高Azure平台的用户体验。 |