s3 outage details posted
-
- Уже с Приветом
- Posts: 7723
- Joined: 29 Mar 2000 10:01
- Location: Kirkland,WA
s3 outage details posted
Human parameter entry error...
https://aws.amazon.com/message/41926/" onclick="window.open(this.href);return false;
https://aws.amazon.com/message/41926/" onclick="window.open(this.href);return false;
-
- Уже с Приветом
- Posts: 343
- Joined: 20 Aug 2007 09:10
- Location: So San Fran, CA
Re: s3 outage details posted
Одним словом, Интернет уже не стал децентрализованным, хотя создавался как военная сеть. Стоит северо-корейской ракете прилететь в один дата-центр, вся экономика США рухнет?
-
- Уже с Приветом
- Posts: 63377
- Joined: 03 Nov 2004 05:31
- Location: RU -> Toronto, ON
Re: s3 outage details posted
Дык не рухнул же
Not everyone believes what I believe but my beliefs do not require them to.
-
- Уже с Приветом
- Posts: 343
- Joined: 20 Aug 2007 09:10
- Location: So San Fran, CA
Re: s3 outage details posted
Ну так весь факап произошел просто из-за того, что выключили и включили сервера А если цель ракет - сразу несколько датацентров, то во-первых 1) обратно не включишь 2) все бэкапы потеряны 3) урон в огромную сумму - не восстановишь все просто так уже никогда
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: s3 outage details posted
почему потерянные backups ? a replication ?zhuravl wrote:Ну так весь факап произошел просто из-за того, что выключили и включили сервера А если цель ракет - сразу несколько датацентров, то во-первых 1) обратно не включишь 2) все бэкапы потеряны 3) урон в огромную сумму - не восстановишь все просто так уже никогда
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 23749
- Joined: 05 Jul 2003 22:34
- Location: Брест -> St. Louis, MO
Re: s3 outage details posted
Если ракеты в 2 центра то для большинства будет уже все.Сабина wrote: почему потерянные backups ? a replication ?
Лучше водки — хуже нет! ©
-
- Уже с Приветом
- Posts: 343
- Joined: 20 Aug 2007 09:10
- Location: So San Fran, CA
Re: s3 outage details posted
Ну так найдется отговорка почему это не сработало. Что-то вроде: мы делаем replication на несколько дата-центров, но т.к. данных много, по сети передавать долго. Поэтому мы их собираем в грузовик и отправляем. Как раз в этот день мы хотели отправить этот грузовик с данными за последние 2 месяца. Но ракета упала как раз, когда грузовик дискетами выехал за 1 сантиметр от забора. По условиям контракта мы не несем ответственности за то, что произошло вне нашего здания и тому подобрый бред.
Я, конечно, надеюсь, что у них все хорошо и репликация работает. Но судя по тому, что кто-то ввел неправильную команду и весь Интернет упал, сдается мне что это не так.
Поэтому репликацию я делаю сам (в штаты, в русское облако и в китайское). А то, что бэкапится кем-то автоматически - так это вообще не бэкап, а буквы на экране.
Я, конечно, надеюсь, что у них все хорошо и репликация работает. Но судя по тому, что кто-то ввел неправильную команду и весь Интернет упал, сдается мне что это не так.
Поэтому репликацию я делаю сам (в штаты, в русское облако и в китайское). А то, что бэкапится кем-то автоматически - так это вообще не бэкап, а буквы на экране.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: s3 outage details posted
А если в 3 ? Кто больше ?katit wrote:Если ракеты в 2 центра то для большинства будет уже все.Сабина wrote: почему потерянные backups ? a replication ?
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: s3 outage details posted
Непонятно тут только одно - какого черта это не автоматизированно, или хотя бы поставлен какой то UI для запуска с валидацией полей ?
А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 946
- Joined: 24 Sep 2013 05:58
- Location: US\GA
Re: s3 outage details posted
Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: s3 outage details posted
Ну понятно что grep или ps-ef можно вводить безопасно для жизни окружаыщих. Ну не kill zhe ?mskmel wrote:Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
Тупизм as far as I am concerned ...
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 343
- Joined: 20 Aug 2007 09:10
- Location: So San Fran, CA
Re: s3 outage details posted
Так и есть. Сколько людей уже от rm -rf / пострадалоmskmel wrote:Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
-
- Уже с Приветом
- Posts: 5665
- Joined: 15 Aug 2008 00:52
Re: s3 outage details posted
вопрос телезрителей "Могло бы такое произойти на Мейнфрейме?"
I would hope that a wise white man with the richness of his experiences would more often than not reach a better conclusion than a latina female who hasn't lived that life
-
- Уже с Приветом
- Posts: 946
- Joined: 24 Sep 2013 05:58
- Location: US\GA
Re: s3 outage details posted
С таким "тупизмом" увы работает большинство критичных компонентов различных систем и как видно S3 не исключение.Сабина wrote:Ну понятно что grep или ps-ef можно вводить безопасно для жизни окружаыщих. Ну не kill zhe ?mskmel wrote:Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
Тупизм as far as I am concerned ...
Есть справедливое ожидание, что sudo дали кому-то знающему, внимательному и не нервному. Именно исполнение команд руками, а не через UI, исключает еще один слой со своими потенциальными ошибками - в самом UI. Особо продвинутые делают mirroring консоли, с таким же "знающим, внимательным и не нервным", который перед каждым Enter делает своё вербальное подтверждение. Следующий уровень продвинутости - третий человек, который отключает все внешние раздражители для этой пары, и отбивается от бьющихся в истерике менеджеров.
Начальный уровень продвинутости, который очевидно отсутствовал для S3 это проведение стресс тестов ("we have not completely restarted the index subsystem or the placement subsystem in our larger regions for many years."), которые тренируют исполнителей и проверяют, что таки написанные процедуры всё еще работают. В общем СамиСебеЗлыеБуратины.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: s3 outage details posted
А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещиmskmel wrote:С таким "тупизмом" увы работает большинство критичных компонентов различных систем и как видно S3 не исключение.Сабина wrote:Ну понятно что grep или ps-ef можно вводить безопасно для жизни окружаыщих. Ну не kill zhe ?mskmel wrote:Unix Way. Думать принято перед тем как нажимаешь Enter, а не в надежде что UI проверит правильность ввода команд.Сабина wrote:А то сидит перец и печатает команду "delete critical system X" и как будто так и надо
Тупизм as far as I am concerned ...
Есть справедливое ожидание, что sudo дали кому-то знающему, внимательному и не нервному. Именно исполнение команд руками, а не через UI, исключает еще один слой со своими потенциальными ошибками - в самом UI. Особо продвинутые делают mirroring консоли, с таким же "знающим, внимательным и не нервным", который перед каждым Enter делает своё вербальное подтверждение. Следующий уровень продвинутости - третий человек, который отключает все внешние раздражители для этой пары, и отбивается от бьющихся в истерике менеджеров.
Начальный уровень продвинутости, который очевидно отсутствовал для S3 это проведение стресс тестов ("we have not completely restarted the index subsystem or the placement subsystem in our larger regions for many years."), которые тренируют исполнителей и проверяют, что таки написанные процедуры всё еще работают. В общем СамиСебеЗлыеБуратины.
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 5672
- Joined: 01 Mar 2004 10:57
- Location: Сибирь -> Aotearoa
Re: s3 outage details posted
Ну заавтоматизирую подобное редкое сибытие. И?Сабина wrote:А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
Ну вставит автоматизатор похожую залепуху туда.
Будет кому то легче что легло оно не от введеной рукой комадны а от кривой автоматизации?
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: s3 outage details posted
какое же оно редкое ? Явно ето рутинная вешь какие то сервера прибивать из-за billing.mavr wrote:Ну заавтоматизирую подобное редкое сибытие. И?Сабина wrote:А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
Ну вставит автоматизатор похожую залепуху туда.
Будет кому то легче что легло оно не от введеной рукой комадны а от кривой автоматизации?
А валидация бы не позволила забить hostname системы, которая не просто бокс неплательшика, а отвечает за core S3 functionality
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 946
- Joined: 24 Sep 2013 05:58
- Location: US\GA
Re: s3 outage details posted
У них и есть автоматизированный скирпт по отключению серверов, проблема в human error при его использовании, которую можно было бы избежать вышеописанными средствами: code review and training.Сабина wrote:А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
Также проблема в баге в этом самом скрипте, который смог отключить больше серверов чем надо для жизнедеятельности сервиса. Тушил бы он их по одному, руками, без автоматизации, ничего бы такого не произошло.
Зато представьте радость ошибшегося при отключении части интернетов? Он(а) кстати не виноват(ая), виноваты кривые процессы.
-
- Уже с Приветом
- Posts: 5672
- Joined: 01 Mar 2004 10:57
- Location: Сибирь -> Aotearoa
Re: s3 outage details posted
Да, да да. Вот когда совершенно ВСЕ заавтоматизируют оно как раз и п..ся так, что не соберешь.Сабина wrote:какое же оно редкое ? Явно ето рутинная вешь какие то сервера прибивать из-за billing.mavr wrote:Ну заавтоматизирую подобное редкое сибытие. И?Сабина wrote:А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
Ну вставит автоматизатор похожую залепуху туда.
Будет кому то легче что легло оно не от введеной рукой комадны а от кривой автоматизации?
А валидация бы не позволила забить hostname системы, которая не просто бокс неплательшика, а отвечает за core S3 functionality
Потому что регулярно проверять DR процедуры совсем отвыкнут.
Ну как же. Все же идеально автоматизированно.
-
- Уже с Приветом
- Posts: 946
- Joined: 24 Sep 2013 05:58
- Location: US\GA
Re: s3 outage details posted
Прочитайте внимательно.Сабина wrote:А валидация бы не позволила забить hostname системы, которая не просто бокс неплательшика, а отвечает за core S3 functionality
"executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process"
Надо было отключить небольшую кучку серверов используемой для одной подсистемы, но рука дрогнула и отключилось больше чем было можно. Не было там юзеровых серверов.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: s3 outage details posted
Такое ощущение что мы с вами разные статьи читаемmskmel wrote:У них и есть автоматизированный скирпт по отключению серверов, проблема в human error при его использовании, которую можно было бы избежать вышеописанными средствами: code review and training.Сабина wrote:А я думаю это просто элементарное нежелание или отсуствие времени автоматизировать какие то вещи
Также проблема в баге в этом самом скрипте, который смог отключить больше серверов чем надо для жизнедеятельности сервиса. Тушил бы он их по одному, руками, без автоматизации, ничего бы такого не произошло.
Зато представьте радость ошибшегося при отключении части интернетов? Он(а) кстати не виноват(ая), виноваты кривые процессы.
The Amazon Simple Storage Service (S3) team was debugging an issue causing the S3 billing system to progress more slowly than expected. At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended. The servers that were inadvertently removed supported two other S3 subsystems. One of these subsystems, the index subsystem, manages the metadata and location information of all S3 objects in the region.
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 946
- Joined: 24 Sep 2013 05:58
- Location: US\GA
Re: s3 outage details posted
Если это рутинная операция прибивать серверы в продакшене, то пациент или на стадии маразма, или еще нежной юности Ну не обслуживают так критичные системы в компаниях вышедших из тинейджерского возраста.Сабина wrote:Явно ето рутинная вешь какие то сервера прибивать из-за billing.
-
- Уже с Приветом
- Posts: 946
- Joined: 24 Sep 2013 05:58
- Location: US\GA
Re: s3 outage details posted
У меня тоже такое ощущениеСабина wrote:Такое ощущение что мы с вами разные статьи читаем
one of the inputs to the command was entered incorrectly
Отвечая на ваш начальный упрёк в отсутствии автоматизации - она там есть, но неидеальная помноженная на кривые процессы. Одной командой с неверным параметром весь S3 в одном ДЦ в нокдаун на 4ч.
-
- Уже с Приветом
- Posts: 946
- Joined: 24 Sep 2013 05:58
- Location: US\GA
Re: s3 outage details posted
Программа с одной большой красной кнопкой "Выдать мне больше з.п."?mavr wrote:Да, да да. Вот когда совершенно ВСЕ заавтоматизируют
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: s3 outage details posted
Товариш, вы чего ? Речь о тех кто там уже обслуживается и не уплатил, посему удаляютmskmel wrote:Если это рутинная операция прибивать серверы в продакшене, то пациент или на стадии маразма, или еще нежной юности Ну не обслуживают так критичные системы в компаниях вышедших из тинейджерского возраста.Сабина wrote:Явно ето рутинная вешь какие то сервера прибивать из-за billing.
https://www.youtube.com/watch?v=wOwblaKmyVw