Operations
Эксплуатация существующего LLM-стека: мониторинг, обновления, ретренинг, инциденты, отчётность. SLA по latency и качеству.
Локальный инференс LLM на собственном железе, RAG-конвейеры, AIOps-сценарии self-healing. Без отправки данных в third-party API, без vendor lock-in, без сюрпризов по бюджету.
Развёртывание Nemotron 3 Super, GPT-OSS 120B, Qwen3 Coder 480B, Gemma 3, Llama 3 на собственных GPU. Инференс через vLLM, TensorRT-LLM, Aphrodite Engine, Ollama. Балансировка нагрузки, квоты, аудит запросов.
Корпоративная база знаний с семантическим поиском на Qdrant, ChromaDB, PGVector. Конвейеры эмбеддингов, чанкинг, гибридный поиск (dense + sparse), переоценка результатов. Интеграция с существующими источниками: документы, тикеты, runbook-и.
LLM-разбор алертов и логов, привязка к историческим инцидентам, автоматическое применение известных runbook-решений. 2 000+ сценариев в production, MTTR < 5 минут для типовых инцидентов. Без замены инженера — расширение его возможностей.
2 недели. Use-case, объём данных, ожидаемая нагрузка, KPI, ограничения по данным.
3–4 недели. Прототип на лёгком стеке, измерение качества и latency, valid-set из реальных данных.
2–3 месяца. Развёртывание на целевом железе, мониторинг качества, A/B, обратная связь.
Continuous. Обновление моделей, ретренинг эмбеддингов, аудит качества, расширение сценариев.
Эксплуатация существующего LLM-стека: мониторинг, обновления, ретренинг, инциденты, отчётность. SLA по latency и качеству.
Подбор и закупка железа (GPU), развёртывание стека, интеграция с источниками данных, обучение команды. Далее — operations по подписке.
Точная цена — после discovery. Подписываем NDA до обсуждения деталей use-case и данных.
Что мы реально используем в работе. Без версий — продукты регулярно обновляются, но философия и принципы стабильны.