SRM VMWare = penalty from SLA.

zVlad
Уже с Приветом
Posts: 15311
Joined: 30 Apr 2003 16:43

SRM VMWare = penalty from SLA.

Post by zVlad »

В прошедший выходной делали DR Test. Одно из apllications управлялось SRM VMWare. В результате мы получили шестизначное пенальти от заказчика за выход за пределы допустимого down time.

Я посмотрел страничку на сайте VMWare про SRM. Там нет ничего о том что у нас произошло.

Я занимался своимi МФ-ами, понятное дело, все было как всегда быстро и надежно. Одним из этапов было изменение мощности DR MF с 6 единиц (MSU) до 343, с одного CPU кора на самой малой мощности до трех на самой высокой. Делалось это последовательностью кликов на HMC (Hardware Management Console), к которому я подсоединился из офиса используя Firefox-а на моем десктопе.

Плюс пришлось впервые в нашей истории восстанавливать replication DB2 --> MS SQL. Центр этой репликации представлен программой под Windows, называется IBM InfoSphere Data Replication. Почему-тo работа с этим (Windows приложение) оказалась на стороне МФ-щиков (мне это досталось по наследству, недавно). Разных "чудес" насмотрелся, но в конце концов все сработало.
zVlad
Уже с Приветом
Posts: 15311
Joined: 30 Apr 2003 16:43

Re: SRM VMWare = penalty from SLA.

Post by zVlad »

Некоторые технические детали. SRM должен был автоматом перекинуть продакшн на DR site. По нормальному, поскольку это не реальный дизастер то перекинутся должна была копия продакшн. Но фактически (а может так и было задумано, в этой истории много тумана до сих пор) перекинулась реал продакшн. Т.е. как я понял реал продакшн оказалась в DR test environment. Только в среду реал продукшн удалось вернуть на ту локэйшн где она должна быть.
Теперь только и разговоров что об этом. Клиент требует перетестировать.
Я продолжаю утверждать что "современные" технологии на самом деле дерьмо и доведут мир до краха однажды.
zVlad
Уже с Приветом
Posts: 15311
Joined: 30 Apr 2003 16:43

Re: SRM VMWare = penalty from SLA.

Post by zVlad »

Просто цитаты из документа по расследованию этого инцидента:
At approx 13:21 on Saturday February 26th (так в документе написано - zVlad), the DR team attempted to failover <...> component to the DR environment via the VMWARE SRM utility, however the transfer failed.
The DR team could not fail back to the production environment as the current state of failure does not allow it.
..............
Vendor VW Ware was also engaged to assist in trouble shooting the incident.
............
Support staff continue to investigate and troubleshoot the matter, along with Vendors VMWARE and EMC to further investigate the matter.
...........
VM application servers were brought back online at the <...> Data Centre (DR site! - zVlad).
...............
<app name> is now available to user community. (on DR site only- zVlad).
Advised the conference call attendees – that at this point the Major Incident is over as service has been restored to the SAP ECC system (on DR site - zVlad).

However as the <...> DR Exercise will continue in the morning Sunday February 26th at 08:00 onwards, DR Support Analysts will resume where they left off in testing <...> and its associated scheduled DR Exercise tasks. (т.е. мы имеем одну копию приложения и для DR test и для real Production и это на DR location находится, в DR test environment).
......
Из разговора с начальником Windows servers team (за утренним кофе) стало известно что что-то не так было со storage, конфигурация.

Return to “Вопросы и новости IT”