Эскалации. Типичные сценарии услуги мониторинга веб-сайта
Опубликовано: Alex Shashenko 2014-06-12 все статьиМеня разбудило SMS в три часа ночи.
. Мой сайт упал на три минуты, и сам поднялся обратно.
Но я не смог снова заснуть.
Истинная история из жизни
Как многие знают, HostTracker - это система мониторинга эффективности сайтов. Одна из ее основных функций - оперативное оповещение пользователя о любых проблемах. Эффективность уведомлений и приемлемый уровень “детализации” очень важны. Если отправлять оповещения при каждом “чихе”, человек не найдет в этом потоке важной информации.
Мы предусмотрели несколько механизмов, которые помогут нужным людям получать необходимые уведомления:
- Разделение уведомлений на несколько групп в зависимости от их критичности;
- Отсутствие уведомлений при кратковременных сбоях;
- Отвечать о проблеме руководителю оперативно;
- При длительном сбое сообщить администрации;
- Используйте сначала бесплатные оповещения – электронную почту, gtalk, а затем платные – SMS или телефонный звонок;
- На уровне контакта – установите рабочее время, когда этот контакт должен получать оповещения.
Существует три типа уведомлений:
- Веб-сайт “упал”;
- Веб-сайт все еще “падает”;
- Веб-сайт “поднялся”
Понятия “упал” и “поднялся” ясны. Уведомления “сайт все еще не работает” отправляются при каждом сбое теста, но только при подтвержденных падениях. Алгоритм подтверждения сбоев был описан в статье “Исключение ложных предупреждений”
Для каждой пары сайт-контакт вы можете включить или отключить соответствующий тип уведомления. Настройки можно найти в свойствах контакта, а также в общей “матрице” на странице “Подписка на уведомления”.
Эскалация и уровень детализации уведомлений.
Предположим, за сайт отвечают два человека:
- Администратор
- Менеджер
Попробуем реализовать следующий сценарий:
- В случае “падения” мы хотим немедленно отправить сообщение по электронной почте администратору;
- В случае падения сайта мы хотим немедленно отправить сообщение по электронной почте администратору.
- Если сайт не поднимается в течение 15 минут, мы отправляем SMS администратору;
- Если сайт “упал” более чем на час, то мы отправляем SMS менеджеру.
Добавление контактов для пользователей. Во время добавления обратите внимание на окно “Задержка уведомления”.
У нас есть три контакта со следующими задержками:
- Администратор (email) – без задержки;
- Администратор (SMS) – задержка 15 минут;
- Менеджер (SMS) – задержка на 1 час.
Согласно этой конфигурации администратор будет получать все уведомления о сбоях на электронную почту, но SMS-уведомления будут отправляться только в том случае, если сайт “не работает” более 15 минут. Менеджер будет получать SMS только о крупных сбоях длительностью более часа. Настройка графика работы контактов
Предположим, что один администратор не справляется, и мы наняли еще одного администратора. Первый работает в первой половине недели, второй - во второй. Соответственно, уведомления должны отправляться администратору “дежурному” Для настройки этого сценария в настройках контакта используется окно “Установить рабочее время контакта”.
В этом случае первый администратор будет получать SMS-уведомления с понедельника по четверг включительно. Кроме того, вы можете разделить уведомления для разных сотрудников в зависимости от времени суток, например, назначить дневных и ночных администраторов.
В этом случае первый администратор будет получать SMS-сообщения по понедельникам и четвергам включительно.
Выводы: С помощью относительно простых механизмов можно охватить большинство сценариев тонкой настройки уведомлений.