Мониторинг IT-инфраструктуры 24/7

Круглосуточный SOC, регламентированная эскалация и дежурный инженер on-call. Технологический стек: Zabbix 7, Prometheus, Grafana, Loki, Alertmanager. Целевая реакция на инцидент уровня P1 — 15 минут.

Получить расчёт Тарифы

Проблема

Боль, которую снимаем

— О падении сервиса узнаёте от клиентов — через час после факта.
— Алерты летят в чат, но никто не дежурит ночью; половина мьютится навсегда.
— Графики есть, но непонятно, что норма, а что аномалия.
— Метрик 5 000, дашбордов нет, на инциденте всё равно лезете в SSH.

Решение

Что делаем

— Поднимаем стек Zabbix + Prometheus + Grafana + Alertmanager — гибридно, с дедупликацией.
— Покрываем хосты, БД, Kubernetes, app-метрики, бизнес-KPI и SLO.
— Строим smart-alerting: severity, runbook-ссылки, эскалация по on-call расписанию.
— Дежурим 24/7 — реакция 15 минут на P1, 1 час на P2. Телеграм + телефон + автозвонок.

Heritage · proof Собственная инфра

Протестировано на собственной инфраструктуре Хвистер

Этот стек мониторинга — не теория. С 2012 года он работает на нашем собственном хостинг-провайдере Хвистер: тысячи серверов и аккаунтов, четыре региона, пиковые нагрузки в e-commerce-сезоны. Все runbook-и, smart-alerting и эскалации мы сначала отладили у себя, и только потом начали продавать наружу.

12+

лет boevого мониторинга

99.99%

uptime под нашим on-call

15 мин

реакция на P1

тысячи

обслуженных хостов

История компании →

Стек

Технологический стек

Сбор метрик

ZabbixPrometheus.xTelegrafnode_exportercAdvisor

Логи

LokiGrafanaVectorPromtail

Алертинг

AlertmanagerZabbix ActionsPagerDuty-совместимые

Каналы

TelegramSlackMattermostEmailSMSPhone

Подход

Как мы это делаем

Аудит покрытия

3–5 дней. Что мониторится, что нет, какие алерты шумят. Карта SLO.

Инсталляция

1–2 недели. Поднимаем стек у вас или у себя. HA по запросу. Интеграция с существующими каналами.

Onboarding смены

1 неделя. Передаём дежурство, тренируемся на учебных инцидентах.

24/7 ops

Постоянно. Дежурство, ежемесячные post-mortem, тюнинг алертов.

FAQ

Частые вопросы

Чем Zabbix отличается от Prometheus и зачем оба?

Zabbix — для классического инфра-мониторинга (хосты, SNMP, агентные проверки), есть встроенный UI и инвентаризация. Prometheus — для микросервисов, k8s, кастомных приложений. Используем оба, метрики дедуплицируются в Grafana.

Можно ли поставить мониторинг только у вас, без своих серверов?

Да. Размещаем в нашем дата-центре в Москве или Краснодаре. С вас — только агенты на хостах и сетевой доступ.

Какой SLA по реакции на инцидент?

P1 (полная недоступность бизнеса) — 15 минут. P2 (деградация) — 1 час. P3 (некритично) — следующий рабочий день. Зафиксировано в SLA.

Кто дежурит ночью?

Дежурный инженер в смене + резервный on-call. Полная замена каждые 8 часов, без переработок и потери реакции.

Что насчёт 152-ФЗ и хранения данных?

Метрики и логи храним на серверах в РФ. Если у вас ПДн — отдельный изолированный контур, договор и приложение по 152-ФЗ.

Можете ли заменить нашего штатного devops-а на дежурствах?

Да, это типовой сценарий. Берём ночные смены и выходные, штатный инженер занимается развитием в рабочее время.

Цена

Стоимость

От 30 000 ₽/мес. Точная цена — после discovery в зависимости от объёма инфраструктуры и SLA.

Смотреть тарифы Получить расчёт

Связанное

Связанные услуги

Администрирование серверов

Linux, FreeBSD, Windows Server.

Подробнее →

Техническая поддержка

Helpdesk и инцидент-менеджмент.

Подробнее →

Kubernetes operations

Мониторинг кластеров и нагрузок.

Подробнее →

Начнём

Расскажите про задачу — пришлём расчёт за 24 часа

Бесплатная первичная консультация. Подпишем NDA до обсуждения деталей. Без обязательств.

Связаться Telegram

Полный стек технологий

Что мы реально используем в работе. Без версий — продукты регулярно обновляются, но философия и принципы стабильны.

Zabbix Prometheus Alertmanager Grafana Loki Tempo Mimir ELK Stack Elasticsearch Logstash Kibana Sentry OpenTelemetry Jaeger Netdata Munin Cacti Nagios Icinga2 VictoriaMetrics Thanos cAdvisor node-exporter blackbox-exporter pushgateway Telegraf InfluxDB Pinba Statsd Uptime Kuma