Услуга · Private AI

Private AI
на вашей инфраструктуре

Разворачиваем нейросети в вашем контуре: серверы, данные и модели остаются у вас. Без отправки запросов в OpenAI, Сбер или Яндекс.

Обсудить проект Как работаем

on-premise: 100%
подготовка: 152-ФЗ
внешних API: 0

Private AI — нейросети на ваших серверах

AI production

Код, а не конструкторы

Боли

Знакомо? Работаем именно с этим

Нельзя отправлять данные наружу

Персданные, коммерческая тайна, гостайна, медицинские карты — в публичные облака нельзя.

Регуляторные требования

152-ФЗ, отраслевые стандарты, ИБ-политика требуют обрабатывать данные внутри контура.

Счета за API растут

OpenAI и аналоги становятся дорогими на больших объёмах. Private AI окупается от ~2–3 млн токенов в месяц.

Зависимость от вендора

Санкции, перебои, смена цен — любой внешний провайдер может внезапно отключить критичный сервис.

Решение

Что развёртываем в вашем контуре

LLM-кластер

Llama 3.1/3.3, Qwen 2.5, Mistral, DeepSeek на vLLM или TGI. От одной GPU до distributed inference.

Мультимодальные модели

Vision-модели для OCR, распознавания, классификации. Speech-to-text для расшифровки звонков.

Векторные БД и RAG

Qdrant, PGVector, Weaviate. RAG-пайплайны с контролем версий и переиндексацией.

ИБ-обвязка

Аудит-логи, разграничение доступа, шифрование at-rest/in-transit, подготовка к интеграции с вашим SIEM / ИБ-контуром. Финальная сертификация по 152-ФЗ и отраслевым требованиям — совместно с вашим отделом ИБ или привлечённым аудитором.

MLOps-платформа

MLflow, DVC, Kubeflow. Версионирование моделей, A/B-тесты, откат одной командой.

Наблюдаемость

Grafana-дашборды: latency, throughput, GPU-загрузка, качество ответов, стоимость per-token.

Процесс

Запуск Private AI

Шаг 01

Архитектура и железо

Считаем нагрузку, подбираем GPU (A100/H100/RTX 6000 Ada или аналоги). Готовим ТЗ на закупку или аренду. 1–2 недели.

Шаг 02

Развёртывание ядра

Kubernetes/Docker, vLLM, мониторинг, CI/CD, безопасность. 2–3 недели.

Шаг 03

Подключение сервисов

RAG, ассистенты, API-шлюзы для ваших приложений. 1–3 недели.

Шаг 04

Передача на поддержку

Обучаем вашу команду или берём на саппорт. Регламенты, runbook, SLA.

Стек

Технологии, которые используем

Модели

Llama 3.1/3.3
Qwen 2.5
Mistral Large
DeepSeek
GigaChat (lite)

Инференс

vLLM
TGI
Ollama
TensorRT-LLM
SGLang

Платформа

Kubernetes
Docker
NVIDIA GPU Operator
Kubeflow
MLflow

ИБ и мониторинг

Keycloak
Vault
Grafana
Loki
Prometheus

Стоимость

Варианты развёртывания

Стоимость указана без железа. Железо — ваше или арендуем под ваш проект (Selectel, Cloud.ru, Yandex Cloud). Для банков, госсектора, медицины с полным ИБ-сопровождением по 152-ФЗ / ГОСТ Р ИСО/МЭК 27001 — обсуждаем индивидуально. Работаем совместно с вашим отделом ИБ или привлечённым аудитором.

Развёртывание 1 модели

от 180 000 ₽ 2–3 недели

Минимальная конфигурация. Для команды до 30 пользователей.

1 модель на vLLM или Ollama
Docker-стек
Базовый мониторинг (Grafana)
API для ваших приложений
Документация и runbook

Оставить заявку

Популярный

Production-узел

от 450 000 ₽ 4–6 недель

Рабочий вариант для компании от 50 сотрудников.

1 GPU-сервер, 1–2 модели параллельно
vLLM + RAG
Kubernetes-манифесты (опционально Docker Swarm)
Мониторинг + алерты
CI/CD для обновления моделей
1 месяц поддержки

Оставить заявку

Отказоустойчивый кластер

от 900 000 ₽ 8–12 недель

Когда LLM становится критичным сервисом и нельзя простаивать.

Multi-GPU кластер (2–4 карты)
Kubernetes + vLLM
Failover и балансировка
Расширенный мониторинг, трассировка запросов
Интеграция с вашим логированием / ИБ
1 месяц поддержки

Оставить заявку

Примеры

Как это работает у клиентов

0 внешних API

Банк топ-30

Вся обработка документов и чат-ассистент работают в закрытом контуре. Соответствие требованиям ЦБ.

×5 экономии

Промпредприятие

Переезд с OpenAI на Llama 3.3 на 4×H100 окупился за 7 месяцев на объёме 20M токенов/мес.

Частые вопросы

Что спрашивают чаще всего

Какое железо нужно?

Зависит от модели и нагрузки. Llama 3.1 8B работает на одной RTX 4090, 70B — 2×H100 или 4×A100. Точный расчёт делаем на экспресс-диагностике.

Можно ли арендовать GPU, а не покупать?

Да. Работаем с Selectel, Cloud.ru, Yandex Cloud, VK Cloud, private-контурами. Или помогаем с закупкой и размещением в ваш ЦОД.

Что с качеством по сравнению с GPT-4?

Llama 3.3 70B и Qwen 2.5 72B сравнимы с GPT-4 на большинстве задач. На узких доменах после fine-tuning часто обгоняют универсальные облачные модели.

Вы даёте гарантии на 152-ФЗ и банковские требования?

Мы делаем инфраструктурную часть: изоляция, шифрование, аудит-логи, разграничение доступа. Юридическую сертификацию и заключение о соответствии 152-ФЗ, ГОСТ Р ИСО/МЭК 27001 и требованиям ЦБ даёт ваш отдел ИБ или привлечённый профильный аудитор. Мы готовим систему к этой проверке.

Сколько стоит поддержка после запуска?

Три уровня: • Базовая — от 15 000 ₽/мес. Мониторинг, реакция на инциденты в рабочее время, мелкие правки до 4 часов в месяц. • Стандарт — от 45 000 ₽/мес. Мониторинг, доработки до 15 часов в месяц, регулярное дообучение моделей, ежеквартальный отчёт. • Расширенная — от 120 000 ₽/мес. Выделенная часть инженера, SLA по договору, дежурство по расписанию.

Начните с экспресс-диагностики

15 000 ₽, 3–5 рабочих дней. Посчитаем, какое железо нужно, какие модели подойдут, когда окупится vs. публичные API. Письменные рекомендации на 3–5 страниц. Если зайдём в проект — стоимость засчитываем в счёт первого этапа.

Заказать диагностику mail@xencom.ru

Ответим в течение рабочего дня

Private AI на вашей инфраструктуре

Знакомо? Работаем именно с этим

Нельзя отправлять данные наружу

Регуляторные требования

Счета за API растут

Зависимость от вендора

Что развёртываем в вашем контуре

LLM-кластер

Мультимодальные модели

Векторные БД и RAG

ИБ-обвязка

MLOps-платформа

Наблюдаемость

Запуск Private AI

Архитектура и железо

Развёртывание ядра

Подключение сервисов

Передача на поддержку

Технологии, которые используем

Варианты развёртывания

Как это работает у клиентов

Банк топ-30

Промпредприятие

Что спрашивают чаще всего

Начните с экспресс-диагностики

Private AI
на вашей инфраструктуре