АРХИТЕКТУРА ПЕРСОНАЛИЗИРОВАННОЙ RAG-СИСТЕМЫ ДЛЯ СНИЖЕНИЯ ГАЛЛЮЦИНАЦИЙ LLM В МЕДИЦИНСКИХ ИНФОРМАЦИОННЫХ СИСТЕМАХ
Конференция: CCCXLV Студенческая международная научно-практическая конференция «Молодежный научный форум»
Секция: Технические науки

CCCXLV Студенческая международная научно-практическая конференция «Молодежный научный форум»
АРХИТЕКТУРА ПЕРСОНАЛИЗИРОВАННОЙ RAG-СИСТЕМЫ ДЛЯ СНИЖЕНИЯ ГАЛЛЮЦИНАЦИЙ LLM В МЕДИЦИНСКИХ ИНФОРМАЦИОННЫХ СИСТЕМАХ
Аннотация. В статье представлена архитектура персонализированной RAG-системы для снижения галлюцинаций больших языковых моделей в медицинских информационных системах. Предложен подход динамического обогащения запроса профилем пациента на этапе извлечения контекста из базы клинических протоколов. Экспериментальное исследование на 20 медицинских вопросах показало снижение галлюцинаций с 35% до 10% и повышение соответствия протоколам МЗ РК с 30% до 80%.
Ключевые слова: большие языковые модели, RAG, галлюцинации LLM, медицинские информационные системы, персонализация.
Большие языковые модели показали высокую эффективность в задачах обработки естественного языка, однако их применение в медицинской сфере ограничено явлением галлюцинаций — генерацией правдоподобной, но фактически неверной информации [1]. В контексте медицинских рекомендаций это представляет критический риск.
Существует два основных подхода к адаптации LLM под медицинскую область: fine-tuning и retrieval-augmented generation (RAG). Fine-tuning требует дорогостоящего переобучения и регулярного обновления при изменении протоколов. RAG позволяет динамически дополнять запрос актуальной информацией из внешней базы знаний без модификации модели [2].
Цель работы — разработать архитектуру персонализированной RAG-системы с локальным развёртыванием LLM и экспериментально подтвердить снижение галлюцинаций при использовании клинических протоколов Министерства здравоохранения РК.
Архитектура системы
Разработанная система МедАссист состоит из следующих компонентов: React SPA (интерфейс), FastAPI (бизнес-логика), SQLite (профили пациентов и врачей), Mistral 7B через Ollama (локальное развёртывание LLM), LangChain + FAISS (векторный поиск), sentence-transformers для эмбеддингов. База знаний содержит 15 клинических протоколов МЗ РК (492 страницы, 1334 чанка по 512 токенов).
Ключевое архитектурное решение — локальное развёртывание Mistral 7B через Ollama вместо облачных API. Это обеспечивает соответствие законодательству РК о защите персональных данных: медицинская информация не покидает сервер.
Персонализированный RAG
Стандартный RAG выглядит так: Запрос → Embedding → Поиск top-k → Промпт + контекст → LLM → Ответ. Предложенный персонализированный RAG добавляет этап обогащения запроса профилем пациента: Запрос + Профиль → Embedding → Поиск → Промпт + контекст + профиль → LLM → Ответ.
Алгоритм: 1) Загрузка профиля пациента (хронические заболевания, аллергии, возраст), 2) Формирование обогащённого запроса, 3) Векторизация через sentence-transformers, 4) Семантический поиск в FAISS (top-3 чанка), 5) Формирование промпта: system + профиль + контекст + вопрос, 6) Генерация ответа Mistral 7B локально.
Пример персонализации: Запрос "болит голова второй день" + Профиль "гипертония, аллергия аспирин" → система извлекает протокол по гипертонии, рекомендует кардиолога (не невролога), предупреждает не принимать аспирин. Без персонализации система порекомендовала бы невролога и упомянула аспирин.
Экспериментальное исследование
Гипотеза: RAG на основе протоколов МЗ РК снижает галлюцинации LLM и повышает соответствие официальным стандартам.
Датасет: 20 медицинских вопросов, охватывающих распространённые симптомы (температура, боль в груди, головокружение и т.д.). Сравниваемые системы: Mistral 7B без RAG (baseline) и Mistral 7B + персонализированный RAG. Критерии оценки: соответствие протоколам МЗ РК, наличие галлюцинаций, правильная маршрутизация к специалисту, безопасность ответа. Оценка проводилась вручную на основе сопоставления с текстами протоколов МЗ РК.
Результаты эксперимента представлены в таблице 1.
Таблица 1.
Сравнение Mistral 7B с RAG и без RAG
|
Метрика |
Без RAG |
С RAG |
|
Соответствие протоколам МЗ РК |
30% |
80% |
|
Отсутствие галлюцинаций |
65% |
90% |
|
Правильная маршрутизация |
60% |
85% |
|
Безопасность ответа |
90% |
100% |
Анализ результатов
Соответствие протоколам МЗ РК выросло с 30% до 80%. Без RAG модель опирается на общие знания, которые могут быть устаревшими. С RAG модель явно цитирует актуальные протоколы.
Галлюцинации снизились с 35% до 10%. В baseline модель придумывала названия несуществующих препаратов. В RAG-системе оставшиеся галлюцинации связаны с пробелами в базе знаний (запросы выходили за рамки имеющихся протоколов).
Правильная маршрутизация улучшилась с 60% до 85%. Персонализация сыграла ключевую роль: для вопроса "боль в груди" система с RAG рекомендовала кардиолога пациенту с гипертонией и гастроэнтеролога пациенту с язвой желудка, тогда как baseline рекомендовал кардиолога всем.
Безопасность достигла 100% благодаря системному промпту, явно требующему предупреждать пользователя о необходимости очной консультации с врачом. Время ответа увеличилось с 1.2 сек до 2.8 сек из-за векторного поиска, но остаётся приемлемым.
Заключение
Представлена архитектура персонализированной RAG-системы для снижения галлюцинаций LLM в медицинских информационных системах. Динамическое обогащение запроса профилем пациента позволяет учитывать индивидуальные противопоказания. Экспериментально подтверждено: RAG снижает галлюцинации Mistral 7B с 35% до 10% и повышает соответствие протоколам МЗ РК с 30% до 80%. Локальное развёртывание LLM через Ollama обеспечивает соответствие законодательству РК о защите персональных данных.
Направления развития: расширение базы протоколов до полного перечня МЗ РК, поддержка казахского языка, интеграция с государственной МИС Damumed для доступа к истории болезни пациента.





