СРАВНИТЕЛЬНОЕ ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ ПРИМЕНЕНИЯ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ В КОРПОРАТИВНЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ
Конференция: CCCXLVII Студенческая международная научно-практическая конференция «Молодежный научный форум»
Секция: Технические науки

CCCXLVII Студенческая международная научно-практическая конференция «Молодежный научный форум»
СРАВНИТЕЛЬНОЕ ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ ПРИМЕНЕНИЯ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ В КОРПОРАТИВНЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ
A COMPARATIVE STUDY OF THE EFFECTIVENESS OF USING LARGE LANGUAGE MODELS IN CORPORATE INFORMATION SYSTEMS
Konstantinova Anna Olegovna
Student of Kazan National Research Technical University named after A.N. Tupolev – KAI, Russia, Kazan
ORCID 0009-0009-9469-8430, 420111
Аннотация. В статье представлены результаты сравнительного исследования семи больших языковых моделей (ChatGPT GPT-5.2, Google Gemini 3.1 Pro, Claude Opus 4.6, DeepSeek V4.3, Grok 4.3, Llama 4 Maverick 17B, YandexGPT Pro 5.1) при решении типовых корпоративных задач на русскоязычных данных. Разработана система многокритериальной оценки, включающая 15 метрик качества, производительности, экономической эффективности и надёжности. Сформирован репрезентативный датасет объёмом 3 900 размеченных примеров. Выявлены статистически значимые различия между моделями: Claude лидирует по качеству (93,2%) и надёжности (97,2%), DeepSeek — по экономической эффективности (коэффициент EER = 98,0), Llama 4 — по скорости (p95 = 809 мс), YandexGPT — по работе с русским языком. Предложена матрица выбора модели для шести корпоративных сценариев. Показано, что предложенная методология позволяет сократить время выбора модели с 2–3 недель до 2–3 часов.
Ключевые слова: большие языковые модели, LLM, сравнительный анализ, корпоративные информационные системы, русскоязычные датасеты, экономическая эффективность, галлюцинации, бенчмаркинг.
Введение
Современный этап развития искусственного интеллекта характеризуется стремительным внедрением больших языковых моделей (LLM — Large Language Models) в корпоративные информационные системы (КИС). По данным аналитических агентств, около 30% российских компаний, использующих LLM, не имеют формализованной методологии выбора модели, полагаясь на субъективные оценки или маркетинговые предпочтения. Проблема усугубляется отсутствием единых стандартов оценки, быстрым появлением новых моделей и значительным разбросом цен на API-вызовы — до двух порядков.
Цель настоящего исследования — разработка и эмпирическая валидация методологии обоснованного выбора LLM для КИС на основе многокритериального анализа качества, производительности, экономической эффективности и надёжности с учётом специфики русскоязычных данных.
1. Методология исследования
1.1. Формирование датасета
Для обеспечения репрезентативности был сформирован датасет объёмом 3 900 размеченных примеров, интегрирующий три источника:
- Russian SuperGLUE — академический стандарт для оценки понимания естественного языка (RCB, RWSD, TERRA подзадачи).
- POLLUX — датасет для оценки генеративных способностей на русском языке (500 инструкций).
- MERA Industrial — отраслевые модули (агрономия, медицина) от Альянса в сфере ИИ.
- Синтетический корпоративный датасет — на основе обезличенных данных компаний-партнёров (классификация обращений, извлечение реквизитов, суммаризация).
Распределение по типам задач: классификация — 1 500 примеров, извлечение данных — 1 000, суммаризация — 500, генерация — 500, анализ тональности — 400.
Разметка выполнена по двухэтапной процедуре (автоматическая предразметка + экспертная верификация) с межэкспертным согласием Cohen's Kappa не ниже 0,85.
1.2. Система метрик
Разработана система из 15 метрик, сгруппированных по четырём измерениям:
- Качество: Accuracy, F1-score, ROUGE-L, BERTScore (на модели rubert-tiny2), BLEU.
- Производительность: латентность (p50, p95, p99), TTFT (Time To First Token), токены в секунду.
- Экономическая эффективность: стоимость за 1K токенов, стоимость успешного ответа, авторская метрика EER (Economic Efficiency Ratio) = качество решения / стоимость.
- Надёжность: Faithfulness (доля подтверждённых утверждений), Hallucination Rate, Consistency (стабильность при многократных прогонах), Success Rate API.
1.3. Дизайн эксперимента
Эксперимент проведён на семи моделях (версии зафиксированы на май 2026 г.). Ключевые параметры: temperature = 0, seed = 42, многократные прогоны (3 раза на пример). Для обеспечения воспроизводимости применён рандомизированный порядок запросов с распределением по временным слотам в течение 7 дней. Статистическая значимость различий проверялась с помощью t-теста для парных выборок (α = 0,05).
2. Результаты экспериментального исследования
2.1. Общие результаты
Профилирование API показало, что локальная Llama 4 обладает наилучшей латентностью (p95 = 809 мс) и стопроцентной успешностью запросов. Среди облачных решений Claude Opus 4.6 демонстрирует максимальную стабильность (Success rate = 99,92%). DeepSeek V4.3 имеет наименьшую стоимость — 0,0009 доллара за запрос.
2.2. Задачи классификации
Таблица 1.
|
Модель |
RCB (% Accuracy) |
Тональность |
Тематика |
Среднее |
|
Claude Opus 4.6 |
94,2 |
92,8 |
92,4 |
92,9 |
|
ChatGPT GPT-5.2 |
92,8 |
92,3 |
92,1 |
92,5 |
|
YandexGPT Pro 5.1 |
89,2 |
92,3 |
91,0 |
91,1 |
|
Gemini 3.1 Pro |
90,8 |
91,5 |
91,2 |
90,8 |
Наиболее высокие показатели точности у Claude. В задаче анализа тональности YandexGPT сравнялся с ChatGPT (92,3%), что свидетельствует о качественной русскоязычной адаптации.
2.3. Задачи суммаризации и генерации
Таблица 2.
|
Модель |
ROUGE-L |
BERTScore F1 |
Экспертная оценка (1-5) |
|
Claude Opus 4.6 |
0,527 |
0,918 |
4,7 |
|
ChatGPT GPT-5.2 |
0,518 |
0,912 |
4,5 |
|
YandexGPT Pro 5.1 |
0,512 |
0,904 |
4,3 |
Claude уверенно лидирует во всех метриках, особенно по экспертной оценке (4,7 из 5). Все модели, за исключением Grok, превышают порог BERTScore 0,85, что достаточно для большинства корпоративных сценариев.
2.4. Задачи извлечения данных
Таблица 3.
|
Модель |
Структурированные (%) |
Слабоструктурированные (%) |
Падение (п.п.) |
|
Claude Opus 4.6 |
97,4 |
93,5 |
3,9 |
|
YandexGPT Pro 5.1 |
96,1 |
92,0 |
4,1 |
|
ChatGPT GPT-5.2 |
96,4 |
92,3 |
4,1 |
|
DeepSeek V4.3 |
91,6 |
85,8 |
5,8 |
Заключение
В результате исследования разработана и эмпирически валидирована методология многокритериального выбора LLM для корпоративных информационных систем.
Ключевые выводы:
- Подтверждена гипотеза о статистически значимых различиях между моделями — лидер по одному типу задач может уступать по другому. Универсальной лучшей модели не существует.
- Стоимость API не является линейным предиктором качества: DeepSeek при цене в 9 раз ниже Claude обеспечивает сопоставимую точность для большинства задач.
- Локально развёртываемая Llama 4 конкурентоспособна при наличии GPU-инфраструктуры (окупаемость с 14-го месяца).
- Предложенная методология позволяет сократить временные затраты на выбор модели с 2–3 недель до 2–3 часов.
Разработанный программный комплекс и интерактивный дашборд Power BI могут быть развёрнуты в любой организации, использующей продукты Microsoft Power BI, без дополнительной доработки.
Направления дальнейших исследований: включение мультимодальных задач (изображения, видео, аудио), изучение эффективности fine-tuning на корпоративных данных, разработка системы динамического выбора модели в реальном времени.





