Sovereign AI и LLMOps на on-premise

Локальный инференс LLM на собственном железе, RAG-конвейеры, AIOps-сценарии self-healing. Без отправки данных в third-party API, без vendor lock-in, без сюрпризов по бюджету.

Проблема

Почему облачный AI не подходит на production-масштабе

  • — Данные клиентов уходят в третьи руки — нарушение 152-ФЗ и NDA-контуров.
  • — Стоимость на масштабе непредсказуема: 100 000 запросов в сутки = бюджет уровня production-инфраструктуры.
  • — Vendor lock-in: смена модели или вендора ломает интеграции, требует переписывания промптов.
  • — Регуляторные риски: ограничения доступа, санкции, сбои на стороне провайдера.
Решение

Что делаем

  • — On-premise инференс sovereign-LLM на vLLM / TensorRT-LLM / Aphrodite Engine.
  • — RAG-конвейеры с векторными базами Qdrant, ChromaDB, PGVector — поиск по корпоративной базе знаний.
  • — Гибридная оркестрация моделей: lightweight маршрутизация → heavyweight экспертный домен.
  • — AIOps-сценарии self-healing: автоматический разбор инцидентов, поиск по runbook-базе, MTTR < 5 минут.
Направления

Три зоны применения

01

Local LLM inference

Развёртывание Nemotron 3 Super, GPT-OSS 120B, Qwen3 Coder 480B, Gemma 3, Llama 3 на собственных GPU. Инференс через vLLM, TensorRT-LLM, Aphrodite Engine, Ollama. Балансировка нагрузки, квоты, аудит запросов.

02

RAG / Vector search

Корпоративная база знаний с семантическим поиском на Qdrant, ChromaDB, PGVector. Конвейеры эмбеддингов, чанкинг, гибридный поиск (dense + sparse), переоценка результатов. Интеграция с существующими источниками: документы, тикеты, runbook-и.

03

AIOps / Self-healing

LLM-разбор алертов и логов, привязка к историческим инцидентам, автоматическое применение известных runbook-решений. 2 000+ сценариев в production, MTTR < 5 минут для типовых инцидентов. Без замены инженера — расширение его возможностей.

Стек

Технологический стек

LLM-модели

Nemotron 3 SuperGPT-OSS 120BQwen3 Coder 480BGemma 3Llama 3DeepSeek

Inference engine

vLLMAphrodite EngineTensorRT-LLMOllamallama.cpp

Vector DB / RAG

QdrantChromaDBPGVectorPostgreSQL 17+

Оркестрация и AIOps

Python (Asyncio)GoBashAnsibleeBPFOpenTelemetryPrometheusGrafana
Подход

Anti-hype: когда подходит и когда нет

Когда подходит

  • ✓ > 5 000 запросов в сутки — окупаемость on-premise GPU.
  • ✓ Чувствительные данные (152-ФЗ, NDA, медицина, finance).
  • ✓ Чёткий use-case: классификация, экстракция, корпоративный поиск, поддержка операций.
  • ✓ Готовность инвестировать в качество данных и chunk-стратегию.
  • ✓ Команда, способная сформулировать KPI без AGI-мифологии.

Когда НЕ подходит

  • — Малая нагрузка (< 1 000 запросов/день) — облачные API дешевле.
  • — Нет чёткого use-case — «AI ради AI» = выброшенный бюджет.
  • — Ожидание AGI вместо инструмента — будет разочарование.
  • — Нет внутренней дисциплины данных — мусор на входе = мусор на выходе.
  • — Хайповый запуск к дедлайну инвестора — мы не делаем такого.
Подход

Как мы это делаем

01

Discovery

2 недели. Use-case, объём данных, ожидаемая нагрузка, KPI, ограничения по данным.

02

PoC

3–4 недели. Прототип на лёгком стеке, измерение качества и latency, valid-set из реальных данных.

03

Production

2–3 месяца. Развёртывание на целевом железе, мониторинг качества, A/B, обратная связь.

04

LLMOps

Continuous. Обновление моделей, ретренинг эмбеддингов, аудит качества, расширение сценариев.

Цена

Стоимость

LLMOps-сопровождение

Operations

от 200 000 ₽/мес

Эксплуатация существующего LLM-стека: мониторинг, обновления, ретренинг, инциденты, отчётность. SLA по latency и качеству.

Полная инсталляция

Build & Operate

от 1,5 млн ₽ единоразово

Подбор и закупка железа (GPU), развёртывание стека, интеграция с источниками данных, обучение команды. Далее — operations по подписке.

Точная цена — после discovery. Подписываем NDA до обсуждения деталей use-case и данных.

Смотреть тарифы Получить расчёт
FAQ

Частые вопросы

Зачем нам on-premise LLM, если есть облачные API?
Контроль данных (152-ФЗ, NDA-контуры), предсказуемая стоимость на масштабе, нет vendor lock-in, нет утечек запросов в third-party. Окупаемость on-premise GPU достигается при ~5–10 тыс. запросов в сутки.
Какие модели используете в production?
Nemotron 3 Super, GPT-OSS 120B, Qwen3 Coder 480B, Gemma 3, Llama 3. Подбор модели — под доменную задачу, а не под маркетинг. Lightweight Gemma — для классификации и роутинга, heavyweight — для экспертных доменов.
Что такое AIOps self-healing?
Сценарии на Python/Bash, которые анализируют инцидент через LLM, ищут аналог в базе знаний (RAG поверх Qdrant/PGVector) и применяют известное runbook-решение без участия инженера. Целевой MTTR — менее 5 минут для типовых инцидентов. Инженер остаётся в петле для сложных случаев.
Когда AI/LLMOps НЕ подходит?
Малая нагрузка (< 1 000 запросов/день — облако дешевле), отсутствие чёткого use-case, ожидание AGI вместо инженерного инструмента, нет внутренней дисциплины обработки данных. Хайповый запуск к инвесторскому раунду — не наш профиль.
Что с 152-ФЗ и данными?
Данные обрабатываются на on-premise мощностях клиента или в арендованном изолированном контуре. Без выхода в облако третьих лиц. Журналирование запросов, аудит доступа, изоляция NDA-контуров.
Какое железо нужно?
Зависит от модели. Для Gemma 3 (12B) — 1 GPU класса L40S/A100. Для GPT-OSS 120B или Qwen3 Coder 480B — кластер на 4–8 GPU с NVLink. Точная спецификация — после discovery нагрузки.
Начнём

Расскажите про задачу — пришлём расчёт за 24 часа

Бесплатная первичная консультация. Подпишем NDA до обсуждения деталей use-case. Без обязательств.

Связаться Telegram

Полный стек технологий

Что мы реально используем в работе. Без версий — продукты регулярно обновляются, но философия и принципы стабильны.

Nemotron 3 Super GPT-OSS 120B Qwen3 Coder 480B Gemma 3 Llama 3 DeepSeek vLLM Aphrodite Engine TensorRT-LLM Ollama llama.cpp Qdrant ChromaDB PGVector PostgreSQL 17+ Python (Asyncio) Go Bash Ansible eBPF OpenTelemetry Prometheus Grafana VictoriaMetrics ELK Stack AIOps self-healing MTTR < 5 min RAG pipelines Hybrid orchestration Sovereign AI Whisper Vosk ASR (offline) speech recognition