Kubernetes в проде, без боли

Эксплуатируем Kubernetes в продакшне: bare-metal, managed, hybrid. Апгрейды, observability, security, FinOps по cost. Предсказуемые SLO.

Проблема

Боль, которую снимаем

  • — Кластер развернули год назад на k8s 1.27, апгрейдить страшно — не делали ни разу.
  • — etcd на одном узле, бэкапа нет, и никто этого не замечал, пока не упало.
  • — Pod-ы рестартят OOM раз в час, причину никто не нашёл.
  • — RBAC сделан как «всем cluster-admin», просто чтобы работало.
Решение

Что делаем

  • — Аудит кластера: версии, etcd, бэкапы, RBAC, network policies, observability.
  • — Регулярные апгрейды (1 минор / 6 месяцев), drain-restore-стратегии, тестовый кластер.
  • — Оптимизация: requests/limits на основе real usage, autoscaler, descheduler, vpa.
  • — Безопасность: PSA, OPA Gatekeeper, audit-log, scanning образов, signed images.
Стек

Технологический стек

Kubernetes

k8s 1.31kubeadmkubesprayTalosk3s / RKE2

Managed

Yandex Managed K8sSelectel MKSVK Cloud Kubernetes

CNI / Service Mesh

CiliumCalicoFlannelIstioLinkerd

Платформа

ArgoCDHelmKustomizeCrossplaneExternal Secrets
Подход

Как мы это делаем

01

Аудит

1–2 недели. Состояние кластера, etcd, бэкапы, безопасность, observability.

02

Стабилизация

2–4 недели. Критические апгрейды, бэкап etcd, восстановимый план.

03

Платформа

1–3 месяца. ArgoCD, observability, security policies, шаблоны для команд.

04

Эксплуатация

Постоянно. Апгрейды, патчи, инциденты, оптимизация cost.

FAQ

Частые вопросы

Bare-metal или managed?
Зависит от нагрузки. До ~30 нод и стандартных требований — managed (Yandex / Selectel / VK Cloud) выгоднее. Дальше или особые требования — bare-metal с Talos / kubespray.
Как часто апгрейдите кластер?
Каждые 6 месяцев — минор. Патчи — ежемесячно. Сначала dev/staging, потом prod, окно — выходные.
etcd-бэкап — как и куда?
etcdctl snapshot save в cron, шифруется age, заливается в S3-совместимый bucket в РФ. Drill-восстановление — раз в квартал.
Service mesh — нужен или нет?
В большинстве случаев — нет. Если нужны mTLS между сервисами, продвинутый retry/circuit breaker, observability на уровне HTTP — тогда да.
Можно ли сократить cloud cost на k8s?
Реально на 30–50%: rightsizing, spot/preemptible, cluster-autoscaler, vertical-pod-autoscaler, разнесение workload по типам нод.
Hardening кластера по CIS Benchmarks?
Да: CIS Kubernetes Benchmark, Pod Security Standards, NetworkPolicies, audit log. Kyverno/Gatekeeper для policy-as-code.
Бэкапы и DR кластера?
Velero для PV + etcd snapshot, PITR на StatefulSets с PostgreSQL-операторами. Региональные cluster в РФ. NDA + 152-ФЗ.
Цена

Стоимость

От 150 000 ₽/мес. Точная цена — после discovery в зависимости от объёма инфраструктуры и SLA.

Смотреть тарифы Получить расчёт
Доверие

Как обеспечиваем надёжность

152-ФЗ

Хранение и обработка данных — в РФ. Изолированный контур для ПДн.

NDA

Подписываем NDA до доступа к prod-окружению и discovery.

ISO / CIS

Подход к процессам — ISO/IEC 27001. Hardening по CIS Benchmarks.

Регионы присутствия

Москва · Краснодар · Крым. Дежурная смена 24/7 с горячей передачей.

Начнём

Расскажите про задачу — пришлём расчёт за 24 часа

Бесплатная первичная консультация. Подпишем NDA до обсуждения деталей. Без обязательств.

Связаться Telegram

Полный стек технологий

Что мы реально используем в работе. Без версий — продукты регулярно обновляются, но философия и принципы стабильны.

Kubernetes OpenShift Nomad k3s k0s MicroK8s kops kubeadm Talos Linux Helm Kustomize ArgoCD FluxCD cert-manager ingress-nginx Traefik Istio Linkerd Cilium Calico Flannel Velero Trivy Falco Kyverno OPA Gatekeeper External-DNS cluster-autoscaler HPA VPA KEDA Prometheus Operator Loki Operator pod security network policies service mesh GitOps via ArgoCD