Мониторинг IT-инфраструктуры 24/7

Круглосуточный SOC, регламентированная эскалация и дежурный инженер on-call. Технологический стек: Zabbix 7, Prometheus, Grafana, Loki, Alertmanager. Целевая реакция на инцидент уровня P1 — 15 минут.

Проблема

Боль, которую снимаем

  • — О падении сервиса узнаёте от клиентов — через час после факта.
  • — Алерты летят в чат, но никто не дежурит ночью; половина мьютится навсегда.
  • — Графики есть, но непонятно, что норма, а что аномалия.
  • — Метрик 5 000, дашбордов нет, на инциденте всё равно лезете в SSH.
Решение

Что делаем

  • — Поднимаем стек Zabbix + Prometheus + Grafana + Alertmanager — гибридно, с дедупликацией.
  • — Покрываем хосты, БД, Kubernetes, app-метрики, бизнес-KPI и SLO.
  • — Строим smart-alerting: severity, runbook-ссылки, эскалация по on-call расписанию.
  • — Дежурим 24/7 — реакция 15 минут на P1, 1 час на P2. Телеграм + телефон + автозвонок.
Heritage · proof Собственная инфра

Протестировано на собственной инфраструктуре Хвистер

Этот стек мониторинга — не теория. С 2012 года он работает на нашем собственном хостинг-провайдере Хвистер: тысячи серверов и аккаунтов, четыре региона, пиковые нагрузки в e-commerce-сезоны. Все runbook-и, smart-alerting и эскалации мы сначала отладили у себя, и только потом начали продавать наружу.

12+
лет boevого мониторинга
99.99%
uptime под нашим on-call
15 мин
реакция на P1
тысячи
обслуженных хостов
История компании →
Стек

Технологический стек

Сбор метрик

ZabbixPrometheus.xTelegrafnode_exportercAdvisor

Логи

LokiGrafanaVectorPromtail

Алертинг

AlertmanagerZabbix ActionsPagerDuty-совместимые

Каналы

TelegramSlackMattermostEmailSMSPhone
Подход

Как мы это делаем

01

Аудит покрытия

3–5 дней. Что мониторится, что нет, какие алерты шумят. Карта SLO.

02

Инсталляция

1–2 недели. Поднимаем стек у вас или у себя. HA по запросу. Интеграция с существующими каналами.

03

Onboarding смены

1 неделя. Передаём дежурство, тренируемся на учебных инцидентах.

04

24/7 ops

Постоянно. Дежурство, ежемесячные post-mortem, тюнинг алертов.

FAQ

Частые вопросы

Чем Zabbix отличается от Prometheus и зачем оба?
Zabbix — для классического инфра-мониторинга (хосты, SNMP, агентные проверки), есть встроенный UI и инвентаризация. Prometheus — для микросервисов, k8s, кастомных приложений. Используем оба, метрики дедуплицируются в Grafana.
Можно ли поставить мониторинг только у вас, без своих серверов?
Да. Размещаем в нашем дата-центре в Москве или Краснодаре. С вас — только агенты на хостах и сетевой доступ.
Какой SLA по реакции на инцидент?
P1 (полная недоступность бизнеса) — 15 минут. P2 (деградация) — 1 час. P3 (некритично) — следующий рабочий день. Зафиксировано в SLA.
Кто дежурит ночью?
Дежурный инженер в смене + резервный on-call. Полная замена каждые 8 часов, без переработок и потери реакции.
Что насчёт 152-ФЗ и хранения данных?
Метрики и логи храним на серверах в РФ. Если у вас ПДн — отдельный изолированный контур, договор и приложение по 152-ФЗ.
Можете ли заменить нашего штатного devops-а на дежурствах?
Да, это типовой сценарий. Берём ночные смены и выходные, штатный инженер занимается развитием в рабочее время.
Цена

Стоимость

От 30 000 ₽/мес. Точная цена — после discovery в зависимости от объёма инфраструктуры и SLA.

Смотреть тарифы Получить расчёт
Начнём

Расскажите про задачу — пришлём расчёт за 24 часа

Бесплатная первичная консультация. Подпишем NDA до обсуждения деталей. Без обязательств.

Связаться Telegram

Полный стек технологий

Что мы реально используем в работе. Без версий — продукты регулярно обновляются, но философия и принципы стабильны.

Zabbix Prometheus Alertmanager Grafana Loki Tempo Mimir ELK Stack Elasticsearch Logstash Kibana Sentry OpenTelemetry Jaeger Netdata Munin Cacti Nagios Icinga2 VictoriaMetrics Thanos cAdvisor node-exporter blackbox-exporter pushgateway Telegraf InfluxDB Pinba Statsd Uptime Kuma