时间:2020-10-03 10:46:20来源:Win10专业版官网点击量:N次
10月3日上午消息:微软的一份初步报告指出,Azure AD服务更新的部署中的一个错误导致星期一的Office 365中断。
从9月28日美国东部标准时间下午5:20开始,全世界的人们都无法登录Office 365和其他相关服务,包括Microsoft Teams,Office.com,Power Platform和Dynamics365。
尝试这样做时,人们收到“ AADSTS90033:发生暂时性错误。请重试”错误消息。
对于已经登录这些服务的用户,它们基本上不受中断影响。
服务更新错误地影响了生产环境
根据Microsoft的事件后初步报告,Azure AD的服务更新错误地影响了生产环境,并导致服务可用性降低。
部署服务更新时,Microsoft首先在五个不同的“环”中对它们进行测试,然后再将其更新到生产环境中。通过此过程,Microsoft可以在几乎没有数据的情况下测试内圈的更新,然后再达到客户使用的生产圈。
Microsoft安全部署流程(SDP)中的错误导致服务更新同时部署到所有环,而不是先部署到测试环。
“ Azure AD被设计为一种地理分布的服务,以主动-主动配置进行部署,在全球多个数据中心中具有多个分区,并具有隔离边界。通常,更改最初是针对不包含客户数据的验证环,然后进行的通过一个只包含Microsoft用户的内环,最后是我们的生产环境,这些更改将在几天内分五个环分阶段部署。”
“在这种情况下,由于潜在缺陷影响了系统解释部署元数据的能力,SDP系统无法正确地将验证测试环作为目标。因此,所有环都是同时进行的。不正确的部署导致服务可用性降低,” Microsoft在他们的事后初步报告中解释了。
在了解了这些问题之后,Microsoft尝试对更改进行自动回滚,但是安全部署流程(SDP)中的错误破坏了元数据,因此需要更长的手动回滚。
“在受到影响的几分钟内,我们采取了措施,使用自动回滚系统来还原更改,这通常会限制影响的持续时间和严重性。但是,我们的SDP系统中潜在的缺陷破坏了部署元数据,因此我们不得不求助于手动回滚过程。这大大延长了缓解此问题的时间。”
在此中断期间,微软表示,美洲和亚太地区在登录服务时遇到的问题最多。
Microsoft的最终报告应该在10月3日结束之前提供。