АНАЛИЗ АРХИТЕКТУРНЫХ ПОДХОДОВ К ПОСТРОЕНИЮ ДИАЛОГОВЫХ ИИ-СИСТЕМ НА ОСНОВЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ
Конференция: CCCXLIV Студенческая международная научно-практическая конференция «Молодежный научный форум»
Секция: Технические науки

CCCXLIV Студенческая международная научно-практическая конференция «Молодежный научный форум»
АНАЛИЗ АРХИТЕКТУРНЫХ ПОДХОДОВ К ПОСТРОЕНИЮ ДИАЛОГОВЫХ ИИ-СИСТЕМ НА ОСНОВЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ
Аннотация. В статье рассматриваются архитектурные подходы к построению диалоговых ИИ-систем на основе больших языковых моделей (LLM). Проанализированы основные техники адаптации моделей — zero-shot, few-shot, fine-tuning и retrieval-augmented generation (RAG). Показано, что для систем поддержки принятия решений с динамической базой знаний наиболее обоснован подход на основе RAG с расширением профильным контекстом пользователя.
Ключевые слова: большие языковые модели, диалоговые системы, RAG, персонализация, архитектура ИИ-систем.
За последние пять лет большие языковые модели превратились из исследовательских прототипов в массовый инструмент построения диалоговых систем. Возможность работать с естественным языком позволила решать задачи, ранее требовавшие сложных NLP-пайплайнов, через обращение к одной модели. Однако обострился архитектурный вопрос — как встраивать LLM в прикладную систему, чтобы получить не просто грамотный текст, а корректное поведение [1].
На практике разработчик сталкивается с несколькими принципиально разными подходами. Модель можно использовать без примеров (zero-shot), снабжать примерами в промпте (few-shot), дообучать на собственных данных (fine-tuning) или подключать к внешней базе знаний через retrieval-augmented generation (RAG). Каждый подход имеет свою область применения и ограничения. Для большинства реальных задач требуется также удерживать контекст многошагового диалога и адаптировать ответы под конкретного пользователя.
Цель работы — систематизировать существующие архитектурные подходы к построению диалоговых ИИ-систем на основе LLM и обосновать выбор подхода для задачи диалоговой поддержки принятия решений с персонализированным контекстом.
Архитектурные основы LLM
Современные языковые модели построены на архитектуре Transformer [2]. Ключевой механизм self-attention позволяет модели учитывать взаимосвязи между всеми токенами входной последовательности параллельно. С точки зрения разработчика прикладной системы важен внешний интерфейс: модель принимает последовательность токенов и возвращает продолжение. Всё знание зафиксировано в весах на момент обучения и не обновляется при использовании. Если предметная область требует свежих данных, их нужно доставить модели в момент запроса.
Подходы к адаптации LLM
В литературе выделяют четыре базовых подхода, различающихся по уровню настройки модели [3].
Zero-shot — модель получает только формулировку задачи без примеров. Даёт минимальную инженерную нагрузку, но наименьший контроль над качеством.
Few-shot — в промпт включаются примеры пар «вход — выход». Модель распознаёт закономерность. Повышает качество без обучения, но расходует контекстное окно.
Fine-tuning — дообучение на собственном датасете. Даёт лучший контроль, но требует ресурсов и регулярного переобучения при обновлении знаний.
Retrieval-Augmented Generation (RAG) — перед генерацией из внешнего хранилища извлекаются релевантные фрагменты документов. Модель остаётся неизменной, актуальность обеспечивается актуальностью хранилища [4].
Сравнение подходов по основным характеристикам представлено в таблице 1.
Таблица 1.
Сравнение подходов к адаптации LLM
|
Критерий |
Zero-shot |
Few-shot |
Fine-tuning |
RAG |
|
Стоимость внедрения |
низкая |
низкая |
высокая |
средняя |
|
Контроль качества |
низкий |
средний |
высокий |
высокий |
|
Обновление знаний |
невозможно |
через промпт |
переобучение |
мгновенно |
|
Объяснимость |
низкая |
средняя |
низкая |
высокая |
Обоснование выбора RAG
Если предметная область характеризуется структурированной нормативной базой, регулярным обновлением и требованием объяснимости ответов, RAG становится естественным выбором. Вместе с ответом система возвращает источники, что качественно отличает её от чёрного ящика дообученной модели [4].
Для рассматриваемого класса задач — диалоговая поддержка принятия решений на основе клинических протоколов — все три свойства выполнены. Протоколы регулярно обновляются, а возможность сослаться на конкретный документ является функциональным требованием. Fine-tuning потребовал бы перезапуска обучения при каждом изменении, что нереалистично с точки зрения эксплуатации.
Проблема персонализации
В каноническом RAG все пользователи получают одинаково ранжированный ответ: релевантность определяется только запросом. Однако в реальных задачах ответ должен зависеть не только от того, что спросили, но и от того, кто спрашивает. Например, рекомендация по симптому для пациента с хронической гипертонией и без неё должна различаться.
В литературе предлагаются три способа добавить персонализацию [3, 5]: включение профиля в промпт (прост, но не масштабируется), персональный fine-tuning (качественно, но дорого) и модификация этапа retrieval (профиль участвует в переранжировании результатов). Последний подход сочетает разумную стоимость с реальным влиянием на качество и обозначается как personalized RAG.
Управление многошаговым диалогом
Отдельная задача — управление состоянием диалога. Базовый цикл «запрос — ответ» неприменим, когда для корректной рекомендации требуется несколько уточнений. Система должна вести диалог по сценарию: собрать симптомы, уточнить детали, провести анализ, выдать рекомендацию.
В классической инженерии эта задача решается через явный конечный автомат. С приходом LLM появилась возможность реализовать переход между состояниями через саму модель: текущее состояние и история подаются в промпт, модель возвращает следующее состояние. Такой гибридный подход — конечный автомат, исполняемый LLM, — сохраняет предсказуемость при гибкости естественноязыкового интерфейса.
Заключение
Проведённый обзор архитектурных подходов позволяет сделать вывод: для задач с динамически обновляемой нормативной базой и требованием объяснимости RAG является технологически и экономически наиболее обоснованным выбором. При этом канонический RAG не решает двух задач — персонализации ответов и управления многошаговым диалогом. Обе задачи требуют надстроек: персонализация — за счёт учёта профиля на этапе поиска, диалог — за счёт управления состоянием через конечный автомат, реализуемый средствами LLM. Эти выводы образуют теоретическую основу для архитектуры персонализированной RAG-системы диалоговой поддержки принятия решений.





