Эскалации. Типичные сценарии услуги мониторинга веб-сайта

Опубликовано: Alex Shashenko 2014-06-12 все статьи | Глоссарий | ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ

Меня разбудило SMS в три часа ночи.
. Мой сайт упал на три минуты, и сам поднялся обратно.
Но я не смог снова заснуть.

Истинная история из жизни

Как многие знают, HostTracker - это система мониторинга эффективности сайтов. Одна из ее основных функций - оперативное оповещение пользователя о любых проблемах. Эффективность уведомлений и приемлемый уровень “детализации” очень важны. Если отправлять оповещения при каждом “чихе”, человек не найдет в этом потоке важной информации.

Мы предусмотрели несколько механизмов, которые помогут нужным людям получать необходимые уведомления:

  • Разделение уведомлений на несколько групп в зависимости от их критичности;
  • Отсутствие уведомлений при кратковременных сбоях;
  • Отвечать о проблеме руководителю оперативно;
  • При длительном сбое сообщить администрации;
  • Используйте сначала бесплатные оповещения – электронную почту, gtalk, а затем платные – SMS или телефонный звонок;
  • На уровне контакта – установите рабочее время, когда этот контакт должен получать оповещения.

Существует три типа уведомлений:

  • Веб-сайт “упал”;
  • Веб-сайт все еще “падает”;
  • Веб-сайт “поднялся”

Понятия “упал” и “поднялся” ясны. Уведомления “сайт все еще не работает” отправляются при каждом сбое теста, но только при подтвержденных падениях. Алгоритм подтверждения сбоев был описан в статье “Исключение ложных предупреждений”

Для каждой пары сайт-контакт вы можете включить или отключить соответствующий тип уведомления. Настройки можно найти в свойствах контакта, а также в общей “матрице” на странице “Подписка на уведомления”.

Эскалация и уровень детализации уведомлений.

Предположим, за сайт отвечают два человека:

  • Администратор
  • Менеджер

Попробуем реализовать следующий сценарий:

  • В случае “падения” мы хотим немедленно отправить сообщение по электронной почте администратору;
  • В случае падения сайта мы хотим немедленно отправить сообщение по электронной почте администратору.
  • Если сайт не поднимается в течение 15 минут, мы отправляем SMS администратору;
  • Если сайт “упал” более чем на час, то мы отправляем SMS менеджеру.

Добавление контактов для пользователей. Во время добавления обратите внимание на окно “Задержка уведомления”.

У нас есть три контакта со следующими задержками:

  • Администратор (email) – без задержки;
  • Администратор (SMS) – задержка 15 минут;
  • Менеджер (SMS) – задержка на 1 час.

Согласно этой конфигурации администратор будет получать все уведомления о сбоях на электронную почту, но SMS-уведомления будут отправляться только в том случае, если сайт “не работает” более 15 минут. Менеджер будет получать SMS только о крупных сбоях длительностью более часа. Настройка графика работы контактов

Предположим, что один администратор не справляется, и мы наняли еще одного администратора. Первый работает в первой половине недели, второй - во второй. Соответственно, уведомления должны отправляться администратору “дежурному” Для настройки этого сценария в настройках контакта используется окно “Установить рабочее время контакта”.

В этом случае первый администратор будет получать SMS-уведомления с понедельника по четверг включительно. Кроме того, вы можете разделить уведомления для разных сотрудников в зависимости от времени суток, например, назначить дневных и ночных администраторов.

В этом случае первый администратор будет получать SMS-сообщения по понедельникам и четвергам включительно.

Выводы: С помощью относительно простых механизмов можно охватить большинство сценариев тонкой настройки уведомлений.

Тэги: usecase
Директор по коммуникациям и технологиям компании HostTracker. Алексей является частью команды с первых дней существования компании. Его работа сосредоточена на составлении бизнес-отчетов, анализе статистики баз данных и системном администрировании. Алексей также отвечает за коммуникации с командой разработчиков и клиентами.