RAG или fine-tuning: что выбрать для корпоративного ассистента
Разбираемся, когда дообучение LLM реально нужно, а когда достаточно RAG — и сколько стоит каждый подход в российских реалиях.
Разбираемся, когда дообучение LLM реально нужно, а когда достаточно RAG — и сколько стоит каждый подход в российских реалиях.
Два самых частых вопроса от клиентов, которые хотят корпоративного AI-ассистента: «А можно ли обучить модель на наших данных?» и «А что такое RAG?». За этими вопросами скрывается ключевой архитектурный выбор, от которого зависит бюджет, скорость запуска и итоговое качество.
RAG (Retrieval-Augmented Generation) — это архитектура, при которой LLM получает в промпт релевантные куски ваших документов, найденные поиском по векторной базе. Модель не «знает» ваши данные — она каждый раз их подсматривает.
Fine-tuning — это дообучение модели на вашем датасете. Данные «впитываются» в веса модели и становятся частью её «знаний». Самый популярный метод — LoRA, не меняющий исходные веса, а добавляющий небольшие адаптеры.
RAG закрывает 80% задач корпоративных ассистентов. Выбирайте его, если:
Практические примеры:
Fine-tuning оправдан, когда RAG упирается в потолок. Три типовых сценария:
1. Специфический стиль общения. Нужно, чтобы ассистент отвечал в тоне вашего бренда — не просто «по регламенту», а как сотрудник с опытом. RAG подсказывает факты, но не учит стилистике.
2. Узкоспециализированный жаргон или формат вывода. Например: генерация структурированных рецептов в медицине, описаний товаров по строгому шаблону, автоматические ответы с обязательным формальным стилем.
3. Улучшение reasoning на конкретном домене. Если базовая модель часто путает логику вашего процесса (например, сложные правила расчёта тарифов или страховых случаев), LoRA на 1000–5000 парах «вопрос-эталонный ответ» серьёзно повышает качество.
Сравним порядок стоимости на типовой задаче корпоративного ассистента.
Сухой вывод: fine-tuning добавляет к проекту +40–70% бюджета и 4–6 недель срока. Оправданно это примерно в 20% сценариев.
«Давайте обучим модель на нашей базе знаний, чтобы она всё знала» — так сформулированная задача почти всегда разбивается о реальность. Три причины:
В сложных проектах часто применяется связка: fine-tuning даёт стиль и формат, RAG — актуальные факты. Модель учится отвечать «как сотрудник поддержки», а контекст подставляется из базы знаний.
Пример из практики: финтех-клиент просил ассистента, который отвечает в формальном стиле банка, но работает с ежедневно обновляющимся справочником тарифов. Сделали LoRA на 2000 типовых диалогов + RAG по тарифам. Точность ответов выросла с 71% (чистый RAG) до 89%.
Если думаете, какой подход подойдёт под вашу задачу — на 30-минутном звонке разберём конкретный кейс и дадим честную рекомендацию. Часто ответ звучит как «сначала сделайте X, а fine-tuning — через полгода, если упрётесь».
Разбираемся, в чём принципиальная разница между AI-ассистентом и AI-агентом, почему «агенты» — главный технологический тренд 2026 по версии Сбера и ФинТеха, и какие задачи стоит решать через одно, а какие — через другое. С таблицей, антипаттернами и расчётом бюджета.
Сравниваем три актуальные LLM для российского бизнеса в мае 2026: цены, контекст, fine-tuning, юридические аспекты под 152-ФЗ и проект ФЗ о доверенных моделях ИИ. С таблицей, типовыми сценариями и расчётом стоимости на реальных нагрузках.
Разбираем три самых жёстких регуляторных удара 2025–2026 года: оборотные штрафы до 3% выручки за утечку ПДн (с 30.05.2025), переход на УПД как единственный формат первички (с 01.01.2026) и обязательная электронная транспортная накладная (с 01.09.2026). Со ссылками на нормы, реальными штрафами 2026 и чек-листом по подготовке.
Расскажите о задаче — на 30-минутном звонке подскажем, с чего начать и чего избегать.