Ciągłość działania systemów informatycznych - szukając pomocy w ISO/IEC 22301 i COBIT 5

Awaria systemów w poniedziałkowy poranek lub odebranie podczas urlopu telefonu od przełożonego, który informuje nas, że trzeba usunąć poważną usterkę w miejscu pracy, to najgorszy koszmar admina. Niestety, takie sytuacje mogą zdarzyć się każdemu.

A przytrafiają się one nawet największym. Wystarczy choćby wspomnieć o awariach chmury Amazon czy systemów pocztowych Google. Tego rodzaju problemy przydarzają się nawet w organizacjach mających zapewniać ciągłość usług. Symptomatycznym przykładem jest głośna awaria jednego z polskich dostawców usług chmurowych, która nastąpiła, o zgrozo, podczas rutynowych testów podsystemu zasilania mającego zapewnić, że systemy działają bezawaryjnie. Okazało się, że przyczyną przerwy w dostępności zasilania był fatalny zbieg okoliczności – nałożenie się sytuacji awaryjnych w kluczowych punktach instalacji. Konkretnie miały miejsce następujące problemy: awaria układu automatycznego sterowania rozdzielniami elektrycznymi; awaria jednego z głównych wyłączników układu SZR, nieprecyzyjne dane na temat czasu pracy na bateriach – urządzenia podawały 25 minut, podczas kiedy faktycznie ten czas był krótszy (wynosił 15 minut). Co ciekawe, w oficjalnym komunikacie przeczytaliśmy, że: „dodatkową okolicznością, która wpłynęła na przebieg awarii był tzw. czynnik ludzki – tak skomplikowany przebieg awarii zwiększył poziom stresu, co negatywnie wpłynęło na szybkość podejmowania decyzji”. Nie pomógł nawet certyfikat DataCenter na poziomie TIER III, ale trzeba oddać firmie, że zachowała się bardzo profesjonalnie: nie chowała głowy w piasek, zrzucając odpowiedzialność na kogoś innego, lecz bardzo dobrze udokumentowała incydent i opublikowała informację o nim jako case study pt. „Odzyskiwanie danych ze środowisk wirtualizacyjnych”.

Brzemię odpowiedzialności

Jak zapewnić ciągłość działania użytkowanych w urzędzie systemów informacyjnych? To jedno z najważniejszych pytań nurtujących działy IT odpowiedzialne za infrastrukturę teleinformatyczną. Nie jest jednak tak, że jest to brzemię, które powinno spoczywać tylko na barkach pracowników IT. Pamiętajmy, że odpowiedzialność za prawidłowe działanie urzędu spoczywa przede wszystkim na kierowniku jednostki. Wprawdzie do rozwijania systemów informatycznych i zarządzania nimi kierownik dobiera sobie pracowników o niezbędnych kompetencjach, ale informatycy nie mają samodzielnych zasobów (budżetu) do realizacji zadań oraz bardzo często skoncentrowani są na kwestiach technicznych, dlatego nie zawsze dostrzegają wszystkie cele stawiane instytucji.

W interesie działów IT jest wypytanie kierownictwa o akceptowalny czas niedostępności systemów informacyjnych. Pytania powinny dotyczyć każdego użytkowanego systemu, a dokładniej – zgodnie z filozofią ITIL (Information Technology Infrastructure Library) – usługi informacyjnej oczekiwanej przez użytkownika. Nie są to więc pytania dotyczące AD, DHCP czy DNS.

Taki sposób komunikacji z kierownictwem wymaga jednak od działu IT pewnej dojrzałości i przepracowania modelu zarządzania na podstawie ITIL (więcej na ten temat w artykule „ITIL: powrót do źródeł dobrych praktyk”, „IT w Administracji” nr 6/2014) lub – co jest większym wyzwaniem – zgodnego z wytycznymi dotyczącymi KRI (Rozporządzenie Rady Ministrów z dnia 12 kwietnia 2012 r. w sprawie Krajowych Ram Interoperacyjności, minimalnych wymagań dla rejestrów publicznych i wymiany informacji w postaci elektronicznej oraz minimalnych wymagań dla systemów teleinformatycznych, DzU 2012 poz. 526), który bazuje na normie PN-ISO/IEC 20000–1:2014–01 „Technika informatyczna, Zarządzanie usługami Część 1: Wymagania dla systemu zarządzania usługami”.

Więcej w październikowym numerze "IT w Administracji" - http://www.itwadministracji.pl/numery/pazdziernik-2015/szukajac-pomocy-w...

__________________________________________________________
Foto https://www.flickr.com/photos/eschipul/1484495808/in/photolist-3gbqTj-76...
License: CC-BY