Private AI
на вашей инфраструктуре
Разворачиваем нейросети в вашем контуре: серверы, данные и модели остаются у вас. Без отправки запросов в OpenAI, Сбер или Яндекс.
- on-premise
- 100%
- подготовка
- 152-ФЗ
- внешних API
- 0
Знакомо? Работаем именно с этим
Нельзя отправлять данные наружу
Персданные, коммерческая тайна, гостайна, медицинские карты — в публичные облака нельзя.
Регуляторные требования
152-ФЗ, отраслевые стандарты, ИБ-политика требуют обрабатывать данные внутри контура.
Счета за API растут
OpenAI и аналоги становятся дорогими на больших объёмах. Private AI окупается от ~2–3 млн токенов в месяц.
Зависимость от вендора
Санкции, перебои, смена цен — любой внешний провайдер может внезапно отключить критичный сервис.
Что развёртываем в вашем контуре
LLM-кластер
Llama 3.1/3.3, Qwen 2.5, Mistral, DeepSeek на vLLM или TGI. От одной GPU до distributed inference.
Мультимодальные модели
Vision-модели для OCR, распознавания, классификации. Speech-to-text для расшифровки звонков.
Векторные БД и RAG
Qdrant, PGVector, Weaviate. RAG-пайплайны с контролем версий и переиндексацией.
ИБ-обвязка
Аудит-логи, разграничение доступа, шифрование at-rest/in-transit, подготовка к интеграции с вашим SIEM / ИБ-контуром. Финальная сертификация по 152-ФЗ и отраслевым требованиям — совместно с вашим отделом ИБ или привлечённым аудитором.
MLOps-платформа
MLflow, DVC, Kubeflow. Версионирование моделей, A/B-тесты, откат одной командой.
Наблюдаемость
Grafana-дашборды: latency, throughput, GPU-загрузка, качество ответов, стоимость per-token.
Запуск Private AI
Архитектура и железо
Считаем нагрузку, подбираем GPU (A100/H100/RTX 6000 Ada или аналоги). Готовим ТЗ на закупку или аренду. 1–2 недели.
Развёртывание ядра
Kubernetes/Docker, vLLM, мониторинг, CI/CD, безопасность. 2–3 недели.
Подключение сервисов
RAG, ассистенты, API-шлюзы для ваших приложений. 1–3 недели.
Передача на поддержку
Обучаем вашу команду или берём на саппорт. Регламенты, runbook, SLA.
Технологии, которые используем
- Llama 3.1/3.3
- Qwen 2.5
- Mistral Large
- DeepSeek
- GigaChat (lite)
- vLLM
- TGI
- Ollama
- TensorRT-LLM
- SGLang
- Kubernetes
- Docker
- NVIDIA GPU Operator
- Kubeflow
- MLflow
- Keycloak
- Vault
- Grafana
- Loki
- Prometheus
Варианты развёртывания
Стоимость указана без железа. Железо — ваше или арендуем под ваш проект (Selectel, Cloud.ru, Yandex Cloud). Для банков, госсектора, медицины с полным ИБ-сопровождением по 152-ФЗ / ГОСТ Р ИСО/МЭК 27001 — обсуждаем индивидуально. Работаем совместно с вашим отделом ИБ или привлечённым аудитором.
Развёртывание 1 модели
Минимальная конфигурация. Для команды до 30 пользователей.
- 1 модель на vLLM или Ollama
- Docker-стек
- Базовый мониторинг (Grafana)
- API для ваших приложений
- Документация и runbook
Production-узел
Рабочий вариант для компании от 50 сотрудников.
- 1 GPU-сервер, 1–2 модели параллельно
- vLLM + RAG
- Kubernetes-манифесты (опционально Docker Swarm)
- Мониторинг + алерты
- CI/CD для обновления моделей
- 1 месяц поддержки
Отказоустойчивый кластер
Когда LLM становится критичным сервисом и нельзя простаивать.
- Multi-GPU кластер (2–4 карты)
- Kubernetes + vLLM
- Failover и балансировка
- Расширенный мониторинг, трассировка запросов
- Интеграция с вашим логированием / ИБ
- 1 месяц поддержки
Как это работает у клиентов
Банк топ-30
Вся обработка документов и чат-ассистент работают в закрытом контуре. Соответствие требованиям ЦБ.
Промпредприятие
Переезд с OpenAI на Llama 3.3 на 4×H100 окупился за 7 месяцев на объёме 20M токенов/мес.
Что спрашивают чаще всего
Какое железо нужно?
Зависит от модели и нагрузки. Llama 3.1 8B работает на одной RTX 4090, 70B — 2×H100 или 4×A100. Точный расчёт делаем на экспресс-диагностике.
Можно ли арендовать GPU, а не покупать?
Да. Работаем с Selectel, Cloud.ru, Yandex Cloud, VK Cloud, private-контурами. Или помогаем с закупкой и размещением в ваш ЦОД.
Что с качеством по сравнению с GPT-4?
Llama 3.3 70B и Qwen 2.5 72B сравнимы с GPT-4 на большинстве задач. На узких доменах после fine-tuning часто обгоняют универсальные облачные модели.
Вы даёте гарантии на 152-ФЗ и банковские требования?
Мы делаем инфраструктурную часть: изоляция, шифрование, аудит-логи, разграничение доступа. Юридическую сертификацию и заключение о соответствии 152-ФЗ, ГОСТ Р ИСО/МЭК 27001 и требованиям ЦБ даёт ваш отдел ИБ или привлечённый профильный аудитор. Мы готовим систему к этой проверке.
Сколько стоит поддержка после запуска?
Три уровня: • Базовая — от 15 000 ₽/мес. Мониторинг, реакция на инциденты в рабочее время, мелкие правки до 4 часов в месяц. • Стандарт — от 45 000 ₽/мес. Мониторинг, доработки до 15 часов в месяц, регулярное дообучение моделей, ежеквартальный отчёт. • Расширенная — от 120 000 ₽/мес. Выделенная часть инженера, SLA по договору, дежурство по расписанию.
Начните с экспресс-диагностики
15 000 ₽, 3–5 рабочих дней. Посчитаем, какое железо нужно, какие модели подойдут, когда окупится vs. публичные API. Письменные рекомендации на 3–5 страниц. Если зайдём в проект — стоимость засчитываем в счёт первого этапа.