Host Tracker: Уведомление о падении сайта только для бизнеса
Опубликовано: Alex Shashenko 2014-03-09 все статьиКонечно, одной из первоочередных задач любого администратора сайта является обеспечение бесперебойной работы ресурса. Однако периодические «падения» сайта неизбежны, и главное здесь — вовремя отследить и решить проблему.
Очевидно, что никто не в состоянии круглосуточно следить за работоспособностью сайта. Более того, ресурс может быть недоступен в другом регионе, и этот менеджер никак его не отследит.
И именно для решения этих проблем предназначен сервис HostTracker, который отслеживает доступность сайта. Он фиксирует «падение» сайта, анализирует проблему и отправляет сигнал тревоги администратору или руководству ресурса.
Очевидно, что ложная тревога никому не нужна, и принцип «лучше перестраховаться, чем потом жалеть» — не лучшая стратегия в данном случае. Именно поэтому в работе сервиса необходимо быть предельно точным и адекватным в оценке проблем.
Поэтому перед HostTrekker стоит ряд важнейших задач: вовремя отследить и уведомить клиента, избежать ложных срабатываний, а также рассчитать uptime на основе наилучшего и наихудшего сценариев.
Как регистрировать прямое «падение» ресурса?
Что является лучшим и худшим сценарием?
Как только клиент добавляет сайт, система посылает запрос с фиксированным интервалом от одной минуты до одного часа. При этом такая проверка осуществляется с независимых серверов, разбросанных по всему миру, для осуществления географически распределенного мониторинга. На данный момент существует более пятидесяти таких серверов. Конкретный агент выбирается случайным образом.
Если возвращается ошибка валидации, проводится повторная проверка еще для пяти-семи независимых агентов. Если в большинстве случаев проблема подтверждается, ресурс считается «упавшим». Если другие агенты не обнаружили никаких проблем, предполагается, что локальная проблема возникла у конкретного агента.
Если необходимо определить, работает ли сайт, применяется тот же алгоритм. Он практически исключает возможность ложных срабатываний, тем самым защищая душевное спокойствие клиентов сервиса. Недоступность ресурса устанавливается только после многократных проверок с определенным интервалом.
Конечно, невозможно на сто процентов гарантировать, в каком именно состоянии находился сайт между проверками. Однако с наибольшей вероятностью в интервале между проверками, выдавшими ошибку сайт &‖ лежит'. Однако если после ошибки начинается восстановление, то между проверками ресурс еще может работать. Собственно, этот сценарий и является основой для оптимистичного расчета времени работы. Вариант «лежащего» сайта между проверками становится отправной точкой для расчета пессимистического сценария.
Оптимистический сценарий учитывается при статистическом анализе, но при оповещении клиентов указываются данные для пессимистического сценария.
Таким образом, благодаря расчету всех вариантов и тщательному комплексному мониторингу, клиент получает своевременные уведомления только в случае реальных проблем и может получить полную и достоверную картину происходящего.