США: Причиной отказа в работе облачного сервиса Microsoft Azure стал человеческий фактор

1

Причиной отказа в работе облачного сервиса Microsoft Azure в ноябре этого года стал человеческий фактор. В компании надеются, что проведенные изменения, автоматизирующие в прошлом осуществлявшийся вручную процесс, в дальнейшем предотвратят подобные инциденты.


Напомним, 19 ноября в работе облачного сервиса Azure произошел   сбой из-за неисправности некоторых облачных хранилищ компании. Причиной сбоя послужило изменение конфигурации хранилища, реализованное с целью улучшения работы сервиса. Как правило, Microsoft, так же как и другие провайдеры облачных услуг, проводят тестирование каких-либо изменений в облачных сервисах на нескольких серверах. Таким образом если в изменении конфигурации существует проблема, инженеры могут сразу ее обнаружить. Если конфигурация работает как положено, компания выпускает обновление для всей системы.

В этом конкретном случае инженер предположил, что обновление уже было протестировано, и применил его для всей системы. Однако конфигурация содержала программную ошибку, которая привела к зависанию программного обеспечения и препятствовала дальнейшему сообщению других компонентов системы. Microsoft провела детальное расследование инцидента и, как результат, обновила систему развертывания Microsoft Azure, которая теперь проводит обязательное тестирование всех новых изменений, прежде чем внедрять их. (Microsoft/NovostIT)