Какая стоимость?

От 200 000 ₽/мес за LLMOps-сопровождение существующего стека. Полная инсталляция on-premise (железо + интеграция) — от 1,5 млн ₽ единоразово. Точная цена — после discovery.

Sovereign AI и LLMOps на on-premise

Локальный инференс LLM на собственном железе, RAG-конвейеры, AIOps-сценарии self-healing. Без отправки данных в third-party API, без vendor lock-in, без сюрпризов по бюджету.

Получить расчёт Тарифы

Проблема

Почему облачный AI не подходит на production-масштабе

— Данные клиентов уходят в третьи руки — нарушение 152-ФЗ и NDA-контуров.
— Стоимость на масштабе непредсказуема: 100 000 запросов в сутки = бюджет уровня production-инфраструктуры.
— Vendor lock-in: смена модели или вендора ломает интеграции, требует переписывания промптов.
— Регуляторные риски: ограничения доступа, санкции, сбои на стороне провайдера.

Решение

Что делаем

— On-premise инференс sovereign-LLM на vLLM / TensorRT-LLM / Aphrodite Engine.
— RAG-конвейеры с векторными базами Qdrant, ChromaDB, PGVector — поиск по корпоративной базе знаний.
— Гибридная оркестрация моделей: lightweight маршрутизация → heavyweight экспертный домен.
— AIOps-сценарии self-healing: автоматический разбор инцидентов, поиск по runbook-базе, MTTR < 5 минут.

Направления

Три зоны применения

Local LLM inference

Развёртывание Nemotron 3 Super, GPT-OSS 120B, Qwen3 Coder 480B, Gemma 3, Llama 3 на собственных GPU. Инференс через vLLM, TensorRT-LLM, Aphrodite Engine, Ollama. Балансировка нагрузки, квоты, аудит запросов.

RAG / Vector search

Корпоративная база знаний с семантическим поиском на Qdrant, ChromaDB, PGVector. Конвейеры эмбеддингов, чанкинг, гибридный поиск (dense + sparse), переоценка результатов. Интеграция с существующими источниками: документы, тикеты, runbook-и.

AIOps / Self-healing

LLM-разбор алертов и логов, привязка к историческим инцидентам, автоматическое применение известных runbook-решений. 2 000+ сценариев в production, MTTR < 5 минут для типовых инцидентов. Без замены инженера — расширение его возможностей.

Стек

Технологический стек

LLM-модели

Nemotron 3 SuperGPT-OSS 120BQwen3 Coder 480BGemma 3Llama 3DeepSeek

Inference engine

vLLMAphrodite EngineTensorRT-LLMOllamallama.cpp

Vector DB / RAG

QdrantChromaDBPGVectorPostgreSQL 17+

Оркестрация и AIOps

Python (Asyncio)GoBashAnsibleeBPFOpenTelemetryPrometheusGrafana

Подход

Anti-hype: когда подходит и когда нет

Когда подходит

✓ > 5 000 запросов в сутки — окупаемость on-premise GPU.
✓ Чувствительные данные (152-ФЗ, NDA, медицина, finance).
✓ Чёткий use-case: классификация, экстракция, корпоративный поиск, поддержка операций.
✓ Готовность инвестировать в качество данных и chunk-стратегию.
✓ Команда, способная сформулировать KPI без AGI-мифологии.

Когда НЕ подходит

— Малая нагрузка (< 1 000 запросов/день) — облачные API дешевле.
— Нет чёткого use-case — «AI ради AI» = выброшенный бюджет.
— Ожидание AGI вместо инструмента — будет разочарование.
— Нет внутренней дисциплины данных — мусор на входе = мусор на выходе.
— Хайповый запуск к дедлайну инвестора — мы не делаем такого.

Подход

Как мы это делаем

Discovery

2 недели. Use-case, объём данных, ожидаемая нагрузка, KPI, ограничения по данным.

PoC

3–4 недели. Прототип на лёгком стеке, измерение качества и latency, valid-set из реальных данных.

Production

2–3 месяца. Развёртывание на целевом железе, мониторинг качества, A/B, обратная связь.

LLMOps

Continuous. Обновление моделей, ретренинг эмбеддингов, аудит качества, расширение сценариев.

Цена

Стоимость

LLMOps-сопровождение

Operations

от 200 000 ₽/мес

Эксплуатация существующего LLM-стека: мониторинг, обновления, ретренинг, инциденты, отчётность. SLA по latency и качеству.

Полная инсталляция

Build & Operate

от 1,5 млн ₽ единоразово

Подбор и закупка железа (GPU), развёртывание стека, интеграция с источниками данных, обучение команды. Далее — operations по подписке.

Точная цена — после discovery. Подписываем NDA до обсуждения деталей use-case и данных.

Смотреть тарифы Получить расчёт

FAQ

Частые вопросы

Зачем нам on-premise LLM, если есть облачные API?

Контроль данных (152-ФЗ, NDA-контуры), предсказуемая стоимость на масштабе, нет vendor lock-in, нет утечек запросов в third-party. Окупаемость on-premise GPU достигается при ~5–10 тыс. запросов в сутки.

Какие модели используете в production?

Nemotron 3 Super, GPT-OSS 120B, Qwen3 Coder 480B, Gemma 3, Llama 3. Подбор модели — под доменную задачу, а не под маркетинг. Lightweight Gemma — для классификации и роутинга, heavyweight — для экспертных доменов.

Что такое AIOps self-healing?

Сценарии на Python/Bash, которые анализируют инцидент через LLM, ищут аналог в базе знаний (RAG поверх Qdrant/PGVector) и применяют известное runbook-решение без участия инженера. Целевой MTTR — менее 5 минут для типовых инцидентов. Инженер остаётся в петле для сложных случаев.

Когда AI/LLMOps НЕ подходит?

Малая нагрузка (< 1 000 запросов/день — облако дешевле), отсутствие чёткого use-case, ожидание AGI вместо инженерного инструмента, нет внутренней дисциплины обработки данных. Хайповый запуск к инвесторскому раунду — не наш профиль.

Что с 152-ФЗ и данными?

Данные обрабатываются на on-premise мощностях клиента или в арендованном изолированном контуре. Без выхода в облако третьих лиц. Журналирование запросов, аудит доступа, изоляция NDA-контуров.

Какое железо нужно?

Зависит от модели. Для Gemma 3 (12B) — 1 GPU класса L40S/A100. Для GPT-OSS 120B или Qwen3 Coder 480B — кластер на 4–8 GPU с NVLink. Точная спецификация — после discovery нагрузки.

Связанное

Связанные услуги

Мониторинг 24/7

eBPF, OpenTelemetry, ELK — observability для AI-инфраструктуры.

Подробнее →

Оптимизация БД

PostgreSQL 17 + PGVector — основа для RAG-конвейеров.

Подробнее →

Информационная безопасность

152-ФЗ, NDA, изолированные контуры для sensitive-данных.

Подробнее →

Начнём

Расскажите про задачу — пришлём расчёт за 24 часа

Бесплатная первичная консультация. Подпишем NDA до обсуждения деталей use-case. Без обязательств.

Связаться Telegram

Полный стек технологий

Что мы реально используем в работе. Без версий — продукты регулярно обновляются, но философия и принципы стабильны.

Nemotron 3 Super GPT-OSS 120B Qwen3 Coder 480B Gemma 3 Llama 3 DeepSeek vLLM Aphrodite Engine TensorRT-LLM Ollama llama.cpp Qdrant ChromaDB PGVector PostgreSQL 17+ Python (Asyncio) Go Bash Ansible eBPF OpenTelemetry Prometheus Grafana VictoriaMetrics ELK Stack AIOps self-healing MTTR < 5 min RAG pipelines Hybrid orchestration Sovereign AI Whisper Vosk ASR (offline) speech recognition