Host Tracker: сповіщення про падіння сайту тільки для бізнесу
Опубликовано: Alex Shashenko 2023-02-06 все статьиЗвісно, одним з першочергових завдань будь-якого менеджера сайту є забезпечення безперебійної роботи ресурсу. Однак періодичні «падіння» сайту неминучі, і головне тут — вчасно відстежити і вирішити проблему.
Очевидно, що ніхто не в змозі цілодобово стежити за працездатністю сайту. Більш того, ресурс може бути недоступний в іншому регіоні, і цей менеджер ніяк це не відстежить.
І саме для вирішення цих проблем призначений сервіс HostTracker, який відстежує доступність сайту. Він фіксує «падіння» сайту, аналізує проблему і відправляє сигнал тривоги адміністратору або керівництву ресурсу.
Очевидно, що хибні тривоги нікому не потрібні, а принцип «краще перестрахуватися, ніж потім шкодувати— - не найкраща стратегія в даному випадку. Саме тому в роботі сервісу необхідно бути гранично точним і адекватним в оцінці проблем.
Тому перед HostTrekker стоїть ряд критично важливих завдань: і відстежити, і вчасно сповістити клієнта, і уникнути помилкових тривог, і розрахувати аптайм, виходячи з найкращого і найгіршого сценаріїв.
Як зареєструвати пряме «падіння» ресурсу?
Який найкращий і найгірший сценарій? Як тільки клієнт додає сайт, система відправляє запит з фіксованим інтервалом від однієї хвилини до однієї години. Причому така перевірка здійснюється з незалежних серверів, розкиданих по всьому світу для здійснення географічно розподіленого моніторингу. На даний момент таких серверів більше п'ятдесяти. Конкретний агент обирається випадковим чином.
Якщо повертається помилка валідації, запускається повторна перевірка ще для п'яти-семи незалежних агентів. Якщо в більшості випадків проблема підтверджується, ресурс вважається «впав». Якщо інші агенти не виявили жодних проблем, то вважається, що локальна проблема виникла на конкретному агенті.
Якщо необхідно визначити, чи працює сайт, застосовується той самий алгоритм. Він практично виключає можливість помилкових спрацьовувань, тим самим захищаючи спокій клієнтів сервісу. Недоступність ресурсу встановлюється тільки після багаторазових перевірок з певним інтервалом.
Звичайно, неможливо на сто відсотків гарантувати, в якому саме стані перебував сайт між перевірками. Однак з найбільшою ймовірністю в інтервалі між перевірками, що видав помилку, сайт & "лежить". Однак, якщо після помилки починається відновлення, то між перевірками ресурс все ще може працювати. Власне, цей сценарій і є основою для оптимістичного розрахунку часу безвідмовної роботи. Варіант "лежачого" сайту між перевірками стає відправною точкою для розрахунку песимістичного сценарію.
Оптимістичний сценарій враховується під час статистичного аналізу, але у випадку повідомлення клієнтам вказуються дані за песимістичним сценарієм.
Таким чином, завдяки прорахунку всіх варіантів і ретельному комплексному моніторингу, клієнт отримує своєчасні повідомлення тільки в разі виникнення реальних проблем і може отримати повну і достовірну картину того, що відбувається.