ТЕСТИРОВАНИЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И РАЗРАБОТКА СОСТАВНОГО КРИТЕРИЯ ИХ УНИВЕРСАЛЬНОЙ ОЦЕНКИ
Конференция: CCCXLV Студенческая международная научно-практическая конференция «Молодежный научный форум»
Секция: Технические науки

CCCXLV Студенческая международная научно-практическая конференция «Молодежный научный форум»
ТЕСТИРОВАНИЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И РАЗРАБОТКА СОСТАВНОГО КРИТЕРИЯ ИХ УНИВЕРСАЛЬНОЙ ОЦЕНКИ
Аннотация. Разработан составной критерий оценки языковых моделей, объединяющий качество ответов и скорость их генерации. На основе авторского тестирования по математике и программированию (единый протокол, одна попытка на модель) вычислены статистические показатели: среднее, дисперсия, коэффициент вариации, корреляции Пирсона и Спирмена. Введён интегральный показатель — сила модели (Model Strength, MS), нормализующий обе метрики через взвешенное среднее. Выполнен анализ чувствительности рейтинга к весам критериев; представлен итоговый рейтинг моделей по шкале MS.
Ключевые слова: большие языковые модели, сравнительное тестирование, математические задачи, генерация кода, бенчмарк, математическая статистика.
Рост популярности LLM требует оценки их применимости в математике и программировании. Существующие бенчмарки (MATH, HumanEval) игнорируют качество рассуждений и скорость. Цель работы — сравнительный анализ моделей по единому протоколу, предложение составного критерия (сила модели) с использованием среднего, дисперсии, коэффициента вариации и корреляций.
1. Методология
1.1. Общие правила
Единый промпт, одна попытка. Фиксировались балл (по шкалам ниже) и время отклика.
1.2. Модели
ChatGPT (GPT-5.2), Claude (Sonnet 4.6), DeepSeek (v3.1), Grok (v4), Gemini (v1.0.8).
1.3. Оценивание
Математика: 0.75 за ход решения + 0.25 за ответ (макс 1.00/задача).
Программирование (задачи 1-4, образцовые, по учебнику С. Л. Бабичева [1, с. 46, 128, 252, 347]): +0.33 за работоспособность +0.33 за время +0.33 за память. Задача 5 (версия Python): 1 балл. Задача 6 (сайт): 0-3 балла.
2. Результаты
Таблица 1.
Результаты по математике и программированию
|
|
Математика |
Программирование |
||
|
Модель |
Баллы |
Время (с) |
Баллы |
Время (с) |
|
ChatGPT |
5 |
454.8 |
6 |
291.0 |
|
Claude |
5 |
872.6 |
8 |
994.7 |
|
DeepSeek |
4 |
2341.8 |
4 |
1328.0 |
|
Grok |
3.25 |
594.8 |
6 |
544.8 |
|
Gemini |
4.75 |
204.2 |
4.66 |
108.4 |
3. Статистический анализ
Более подробно про каждую из нижеперечисленных характеристик можно узнать в работах математиков В. Е. Гмурмана [2, с. 75, 85, 197, 253] и А. И. Кобзаря [3, с. 96, 389, 606].
3.1. Среднее (взвешенное)
Математика: 0.733 | Программирование: 0.716 → программирование сложнее.
3.2. Дисперсия и вариация
Математика: σ²=0.465, CV=15.5% (почти однородно)
Программирование: σ²=1.887, CV=24.0% (умеренный разброс)
3.3. Корреляция Пирсона:
r = +0.327 (слабая универсальность)
3.4. Корреляция балла со временем
Математика: r = -0.292 (быстрее = лучше)
Программирование: r = +0.021 (связи нет)
3.5. Ранговая корреляция Спирмена
ρ = 0.4 (рейтинги расходятся → нужен составной критерий).
4. Составной критерий «Сила модели» (MS)
4.1. Нормализация и сила по дисциплине
S* = балл / макс_балл
T* = (мин_время) / время_модели
Сила по дисциплине: MS = 0.75×S* + 0.25×T*
Итоговая сила: MS = 0.5×MS_math + 0.5×MS_prog
Таблица 2.
Показатели
|
|
Нормализованные показатели |
Сила по дисциплине |
Итоговый рейтинг MS |
|||
|
Модель |
Math (S*, T*) |
Prog (S*, T*) |
MS Math |
MS Prog |
MS |
Место |
|
ChatGPT |
0.833, 0.449 |
0.75, 0.373 |
0.737 |
0.656 |
0.697 |
3 |
|
Claude |
0.833, 0.234 |
1.0, 0.109 |
0.683 |
0.777 |
0.730 |
2 |
|
DeepSeek |
0.667, 0.087 |
0.5, 0.082 |
0.522 |
0.396 |
0.459 |
5 |
|
Grok |
0.542, 0.343 |
0.75, 0.199 |
0.492 |
0.612 |
0.552 |
4 |
|
Gemini |
0.792, 1.0 |
0.583, 1.0 |
0.844 |
0.687 |
0.766 |
1 |
4.2. Анализ чувствительности (α = 1 и α = 0.5)
α=1 (только качество): 1. Claude, 2. ChatGPT, 3. Gemini.
α=0.5 (качество=скорость): 1. Gemini, 2. ChatGPT, 3. Claude.
Рейтинг устойчив: топ-3 меняется, но в тройке одни и те же модели.
4.3. Сравнение с рейтингом по сырому баллу (Si)
Таблица 3.
Показатели
|
|
Место по Si |
Место по MS |
Сдвиг |
|
ChatGPT |
2 |
3 |
-1 |
|
Claude |
1 |
2 |
-1 |
|
DeepSeek |
5 |
5 |
0 |
|
Grok |
4 |
4 |
0 |
|
Gemini |
3 |
1 |
2 |
Вывод: Gemini поднялся за счёт скорости (лучшее T*).
5. Заключение
По математике: лучший балл у ChatGPT и Claude. Самаябыстрая — Gemini.
По программированию: лидер Claude (8/8). Остальные заметно хуже.
Статистика: CV(math)=15.5%, CV(prog)=24.0%. Корреляция баллов r=0.327. Ранговая корреляция ρ=0.4 → критерий MS обоснован.
Сила модели (MS): 1 место — Gemini (0.766), 2 — Claude (0.730), 3 — ChatGPT (0.697). Gemini эффективен за счёт скорости, ChatGPT и Claude теряют позиции из-за медлительности.
Рекомендации: для математики — ChatGPT, для разработки — Claude, для быстрых ответов — Gemini.





