Услуга · Private AI

Private AI
на вашей инфраструктуре

Разворачиваем нейросети в вашем контуре: серверы, данные и модели остаются у вас. Без отправки запросов в OpenAI, Сбер или Яндекс.

on-premise
100%
подготовка
152-ФЗ
внешних API
0
Private AI — нейросети на ваших серверах
Боли

Знакомо? Работаем именно с этим

Нельзя отправлять данные наружу

Персданные, коммерческая тайна, гостайна, медицинские карты — в публичные облака нельзя.

Регуляторные требования

152-ФЗ, отраслевые стандарты, ИБ-политика требуют обрабатывать данные внутри контура.

Счета за API растут

OpenAI и аналоги становятся дорогими на больших объёмах. Private AI окупается от ~2–3 млн токенов в месяц.

Зависимость от вендора

Санкции, перебои, смена цен — любой внешний провайдер может внезапно отключить критичный сервис.

Решение

Что развёртываем в вашем контуре

LLM-кластер

Llama 3.1/3.3, Qwen 2.5, Mistral, DeepSeek на vLLM или TGI. От одной GPU до distributed inference.

Мультимодальные модели

Vision-модели для OCR, распознавания, классификации. Speech-to-text для расшифровки звонков.

Векторные БД и RAG

Qdrant, PGVector, Weaviate. RAG-пайплайны с контролем версий и переиндексацией.

ИБ-обвязка

Аудит-логи, разграничение доступа, шифрование at-rest/in-transit, подготовка к интеграции с вашим SIEM / ИБ-контуром. Финальная сертификация по 152-ФЗ и отраслевым требованиям — совместно с вашим отделом ИБ или привлечённым аудитором.

MLOps-платформа

MLflow, DVC, Kubeflow. Версионирование моделей, A/B-тесты, откат одной командой.

Наблюдаемость

Grafana-дашборды: latency, throughput, GPU-загрузка, качество ответов, стоимость per-token.

Процесс

Запуск Private AI

Шаг 01

Архитектура и железо

Считаем нагрузку, подбираем GPU (A100/H100/RTX 6000 Ada или аналоги). Готовим ТЗ на закупку или аренду. 1–2 недели.

Шаг 02

Развёртывание ядра

Kubernetes/Docker, vLLM, мониторинг, CI/CD, безопасность. 2–3 недели.

Шаг 03

Подключение сервисов

RAG, ассистенты, API-шлюзы для ваших приложений. 1–3 недели.

Шаг 04

Передача на поддержку

Обучаем вашу команду или берём на саппорт. Регламенты, runbook, SLA.

Стек

Технологии, которые используем

Модели
  • Llama 3.1/3.3
  • Qwen 2.5
  • Mistral Large
  • DeepSeek
  • GigaChat (lite)
Инференс
  • vLLM
  • TGI
  • Ollama
  • TensorRT-LLM
  • SGLang
Платформа
  • Kubernetes
  • Docker
  • NVIDIA GPU Operator
  • Kubeflow
  • MLflow
ИБ и мониторинг
  • Keycloak
  • Vault
  • Grafana
  • Loki
  • Prometheus
Стоимость

Варианты развёртывания

Стоимость указана без железа. Железо — ваше или арендуем под ваш проект (Selectel, Cloud.ru, Yandex Cloud). Для банков, госсектора, медицины с полным ИБ-сопровождением по 152-ФЗ / ГОСТ Р ИСО/МЭК 27001 — обсуждаем индивидуально. Работаем совместно с вашим отделом ИБ или привлечённым аудитором.

Развёртывание 1 модели

от 180 000 ₽ 2–3 недели

Минимальная конфигурация. Для команды до 30 пользователей.

  • 1 модель на vLLM или Ollama
  • Docker-стек
  • Базовый мониторинг (Grafana)
  • API для ваших приложений
  • Документация и runbook
Оставить заявку
Популярный

Production-узел

от 450 000 ₽ 4–6 недель

Рабочий вариант для компании от 50 сотрудников.

  • 1 GPU-сервер, 1–2 модели параллельно
  • vLLM + RAG
  • Kubernetes-манифесты (опционально Docker Swarm)
  • Мониторинг + алерты
  • CI/CD для обновления моделей
  • 1 месяц поддержки
Оставить заявку

Отказоустойчивый кластер

от 900 000 ₽ 8–12 недель

Когда LLM становится критичным сервисом и нельзя простаивать.

  • Multi-GPU кластер (2–4 карты)
  • Kubernetes + vLLM
  • Failover и балансировка
  • Расширенный мониторинг, трассировка запросов
  • Интеграция с вашим логированием / ИБ
  • 1 месяц поддержки
Оставить заявку
Примеры

Как это работает у клиентов

0 внешних API

Банк топ-30

Вся обработка документов и чат-ассистент работают в закрытом контуре. Соответствие требованиям ЦБ.

×5 экономии

Промпредприятие

Переезд с OpenAI на Llama 3.3 на 4×H100 окупился за 7 месяцев на объёме 20M токенов/мес.

Частые вопросы

Что спрашивают чаще всего

Какое железо нужно?

Зависит от модели и нагрузки. Llama 3.1 8B работает на одной RTX 4090, 70B — 2×H100 или 4×A100. Точный расчёт делаем на экспресс-диагностике.

Можно ли арендовать GPU, а не покупать?

Да. Работаем с Selectel, Cloud.ru, Yandex Cloud, VK Cloud, private-контурами. Или помогаем с закупкой и размещением в ваш ЦОД.

Что с качеством по сравнению с GPT-4?

Llama 3.3 70B и Qwen 2.5 72B сравнимы с GPT-4 на большинстве задач. На узких доменах после fine-tuning часто обгоняют универсальные облачные модели.

Вы даёте гарантии на 152-ФЗ и банковские требования?

Мы делаем инфраструктурную часть: изоляция, шифрование, аудит-логи, разграничение доступа. Юридическую сертификацию и заключение о соответствии 152-ФЗ, ГОСТ Р ИСО/МЭК 27001 и требованиям ЦБ даёт ваш отдел ИБ или привлечённый профильный аудитор. Мы готовим систему к этой проверке.

Сколько стоит поддержка после запуска?

Три уровня: • Базовая — от 15 000 ₽/мес. Мониторинг, реакция на инциденты в рабочее время, мелкие правки до 4 часов в месяц. • Стандарт — от 45 000 ₽/мес. Мониторинг, доработки до 15 часов в месяц, регулярное дообучение моделей, ежеквартальный отчёт. • Расширенная — от 120 000 ₽/мес. Выделенная часть инженера, SLA по договору, дежурство по расписанию.

Начните с экспресс-диагностики

15 000 ₽, 3–5 рабочих дней. Посчитаем, какое железо нужно, какие модели подойдут, когда окупится vs. публичные API. Письменные рекомендации на 3–5 страниц. Если зайдём в проект — стоимость засчитываем в счёт первого этапа.

Заказать диагностику mail@xencom.ru
Ответим в течение рабочего дня