mskmel wrote: ↑03 Mar 2017 02:19
Сабина wrote:А валидация бы не позволила забить hostname системы, которая не просто бокс неплательшика, а отвечает за core S3 functionality
Прочитайте внимательно.
"executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process"
Надо было отключить небольшую кучку серверов используемой для одной подсистемы, но рука дрогнула и отключилось больше чем было можно. Не было там юзеровых серверов.
там вообще не в том дело. Судя по всему, просто система так была написанна, что отключение чуть больше чем ожидалось - приводило к перевызову серверов. Которые, как легко понять, уже лет 5 никто не перевызывал. Которые, как тоже легко понять, скорее всего сказали на перевызове _а мы уже 5 лет не проверяли эти файловые системы, а дайте как мы их проверим_. Или что-то в том-же роде.
Я в такое влетал, благо на бэкап серверах - перевызываешь его и вдруг влетаешь на 5 часовую проверку. Даже если ее выключить, то просто старт с выполнением лога изменений может занять полчаса. И ничем ты это не победишь раз уже однажды влетел. Систему надо строить так, чтобы отвалился кусочек а не вся она... или с кластером (но кластер сам себе буратино, если сломается то еще надольше) или совсем децентраллизованно. У них и human error то не было, так что никакое тестирование и автоматизация тут бы ничем не помогли.
(Правильное решение - все регулярно перевызывать, в низкую нагрузку и по 1 элементу, и контролировать время и статус. У меня в облаке например после апгрейда вдруг перевызов стал занимать вместо 10 минут - 30, а апгрейд занял каких то несчастных 3 часа вместо ожидаемых 30 минут... и это небольшое сравнительно облако. ЧТо будет в большом, сказать сложно, надо такие вещи вылавливать вовремя и в тестовой лабе обезвреживать. Основная проблема Амазона тут была в том что они игрались на продакшене да еще и в пиковое время, ну и в том что перевызовы не тестировались. А не в том, что _кто-то что-то чуть не то ввел_.)