Eskalacje. Typowe scenariusze

Opublikowany: Alex Shashenko 2014-06-12 wszystkie artykuły | Słowniczek | Często zadawane pytania

Obudził mnie SMS o trzeciej nad ranem.
. Moja strona spadła na trzy minuty i sama się podniosła z powrotem.
Nie mogłem jednak wrócić do snu.

True-life story

Jak wiele osób wie, HostTracker to system monitorowania wydajności stron. Jedną z jego głównych funkcji jest szybkie powiadamianie użytkownika o wszelkich problemach. Ważna jest skuteczność powiadomień oraz dopuszczalny poziom “detalizacji”. Jeśli użytkownik będzie wysyłał powiadomienia przy każdym “kichnięciu”, nie znajdzie w tym przepływie ważnych informacji.

Przewidzieliśmy kilka mechanizmów, dzięki którym odpowiednie osoby otrzymają niezbędne powiadomienia:

  • Separacja powiadomień na kilka grup w zależności od ich krytyczności;
  • Brak powiadomień przy krótkotrwałych awariach;
  • Niezwłocznie zgłaszać problem do kierownika;
  • Zgłaszaj przedłużającą się awarię do administracji;
  • Używaj najpierw darmowych alertów – email, gtalk, a potem płatnych – SMS lub telefon;
  • Na poziomie kontaktu – ustaw czas pracy, w którym ten kontakt ma otrzymywać alerty.

Istnieją trzy rodzaje powiadomień:

  • Strona “padła”
  • Strona nadal jest “down”;
  • Strona “podniosła się

Wiadomości “spadł” i “wzrósł” są jednoznaczne. Powiadomienia “site is still down” są wysyłane przy każdym niepowodzeniu testu, ale tylko przy potwierdzonych upadkach. Algorytm potwierdzania failsów został opisany w artykule “Wykluczenie fałszywych alertów”

Dla każdej pary witryna-kontakt można włączyć lub wyłączyć odpowiedni typ powiadomienia. Ustawienie to znajduje się we właściwościach kontaktu, jak również w ogólnej “macierzy” na stronie “Subskrypcja powiadomień”.

Escalacja i poziom detalizacji powiadomień.

Załóżmy, że za stronę odpowiedzialne są dwie osoby:

  • Administrator
  • Menedżer

Postarajmy się zrealizować następujący scenariusz:

  • W przypadku “spadku” chcemy natychmiast wysłać wiadomość e-mail do administratora;
  • Jeśli strona nie powstanie w ciągu 15 minut, wysyłamy SMS do administratora;
  • Jeśli strona jest “down” przez ponad godzinę, to wysyłamy SMS do administratora.

Dodanie kontaktów dla użytkowników. Podczas dodawania zwróć uwagę na okno “Opóźnienie powiadomień”.

Wydaje nam się, że mamy trzy kontakty z następującymi opóźnieniami:

  • Administrator (email) – brak opóźnienia;
  • Administrator (SMS) – 15 minut opóźnienia;
  • Menedżer (SMS) – 1 godzina opóźnienia.

Zgodnie z tą konfiguracją administrator będzie otrzymywał wszystkie powiadomienia o awariach na e-mail, ale powiadomienia SMS będą wysyłane tylko wtedy, gdy strona jest “w dół” przez więcej niż 15 minut. Administrator będzie otrzymywał tylko SMS-y o poważnych awariach trwających dłużej niż godzinę. Ustawienie harmonogramu pracy kontaktu

Załóżmy, że jeden administrator nie daje sobie rady i zatrudniamy jeszcze jednego. Pierwszy z nich pracuje w pierwszej połowie tygodnia, drugi w drugiej. W związku z tym powiadomienia powinny być wysyłane do administratora “dyżurującego” Aby ustawić ten scenariusz w ustawieniach kontaktu służy okno “Ustaw godziny pracy kontaktu”.

W tym przypadku pierwszy administrator będzie otrzymywał powiadomienia SMS od poniedziałku do czwartku włącznie. Dodatkowo można podzielić powiadomienia dla różnych pracowników w zależności od pory dnia, np. wyznaczając administratorów dziennych i nocnych.

Wnioski: z pomocą stosunkowo prostych mechanizmów możemy objąć większość powiadomień dopracować scenariusze użytkowników.

Tagi: usecase