SRM VMWare = penalty from SLA.

zVlad · Post by **zVlad** » 28 Feb 2017 19:27

В прошедший выходной делали DR Test. Одно из apllications управлялось SRM VMWare. В результате мы получили шестизначное пенальти от заказчика за выход за пределы допустимого down time.

Я посмотрел страничку на сайте VMWare про SRM. Там нет ничего о том что у нас произошло.

Я занимался своимi МФ-ами, понятное дело, все было как всегда быстро и надежно. Одним из этапов было изменение мощности DR MF с 6 единиц (MSU) до 343, с одного CPU кора на самой малой мощности до трех на самой высокой. Делалось это последовательностью кликов на HMC (Hardware Management Console), к которому я подсоединился из офиса используя Firefox-а на моем десктопе.

Плюс пришлось впервые в нашей истории восстанавливать replication DB2 --> MS SQL. Центр этой репликации представлен программой под Windows, называется IBM InfoSphere Data Replication. Почему-тo работа с этим (Windows приложение) оказалась на стороне МФ-щиков (мне это досталось по наследству, недавно). Разных "чудес" насмотрелся, но в конце концов все сработало.

zVlad · Post by **zVlad** » 03 Mar 2017 14:58

Некоторые технические детали. SRM должен был автоматом перекинуть продакшн на DR site. По нормальному, поскольку это не реальный дизастер то перекинутся должна была копия продакшн. Но фактически (а может так и было задумано, в этой истории много тумана до сих пор) перекинулась реал продакшн. Т.е. как я понял реал продакшн оказалась в DR test environment. Только в среду реал продукшн удалось вернуть на ту локэйшн где она должна быть.
Теперь только и разговоров что об этом. Клиент требует перетестировать.
Я продолжаю утверждать что "современные" технологии на самом деле дерьмо и доведут мир до краха однажды.

zVlad · Post by **zVlad** » 03 Mar 2017 16:46

Просто цитаты из документа по расследованию этого инцидента:

At approx 13:21 on Saturday February 26th (так в документе написано - zVlad), the DR team attempted to failover <...> component to the DR environment via the VMWARE SRM utility, however the transfer failed.
The DR team could not fail back to the production environment as the current state of failure does not allow it.
..............
Vendor VW Ware was also engaged to assist in trouble shooting the incident.
............
Support staff continue to investigate and troubleshoot the matter, along with Vendors VMWARE and EMC to further investigate the matter.
...........
VM application servers were brought back online at the <...> Data Centre (DR site! - zVlad).
...............
<app name> is now available to user community. (on DR site only- zVlad).
Advised the conference call attendees – that at this point the Major Incident is over as service has been restored to the SAP ECC system (on DR site - zVlad).

However as the <...> DR Exercise will continue in the morning Sunday February 26th at 08:00 onwards, DR Support Analysts will resume where they left off in testing <...> and its associated scheduled DR Exercise tasks. (т.е. мы имеем одну копию приложения и для DR test и для real Production и это на DR location находится, в DR test environment).
......

Из разговора с начальником Windows servers team (за утренним кофе) стало известно что что-то не так было со storage, конфигурация.

Привет

SRM VMWare = penalty from SLA.

SRM VMWare = penalty from SLA.

Re: SRM VMWare = penalty from SLA.

Re: SRM VMWare = penalty from SLA.