Статья:

ТЕСТИРОВАНИЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И РАЗРАБОТКА СОСТАВНОГО КРИТЕРИЯ ИХ УНИВЕРСАЛЬНОЙ ОЦЕНКИ

Конференция: CCCXLV Студенческая международная научно-практическая конференция «Молодежный научный форум»

Секция: Технические науки

Выходные данные

Загреев М.Р., Мухина А.А. ТЕСТИРОВАНИЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И РАЗРАБОТКА СОСТАВНОГО КРИТЕРИЯ ИХ УНИВЕРСАЛЬНОЙ ОЦЕНКИ // Молодежный научный форум: электр. сб. ст. по мат. CCCXLV междунар. студ. науч.-практ. конф. № 19(345). URL: https://nauchforum.ru/archive/MNF_interdisciplinarity/19(345).pdf (дата обращения: 29.07.2026)

К условиям публикации Скачать сборник

Лауреаты определены. Конференция завершена

Эта статья набрала 0 голосов

Мне нравится

Дипломы
лауреатов

Сертификаты
участников

Дипломы
лауреатов

Сертификаты
участников

CCCXLV Студенческая международная научно-практическая конференция «Молодежный научный форум»

на печатьскачать .pdf поделиться

ТЕСТИРОВАНИЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И РАЗРАБОТКА СОСТАВНОГО КРИТЕРИЯ ИХ УНИВЕРСАЛЬНОЙ ОЦЕНКИ

Загреев Михаил Робертович

студент бакалавриата, Уфимский Университет Науки и Технологий РФ, г. Уфа

Мухина Ангелина Андреевна

студент бакалавриата, Уфимский Университет Науки и Технологий РФ, г. Уфа

Аннотация. Разработан составной критерий оценки языковых моделей, объединяющий качество ответов и скорость их генерации. На основе авторского тестирования по математике и программированию (единый протокол, одна попытка на модель) вычислены статистические показатели: среднее, дисперсия, коэффициент вариации, корреляции Пирсона и Спирмена. Введён интегральный показатель — сила модели (Model Strength, MS), нормализующий обе метрики через взвешенное среднее. Выполнен анализ чувствительности рейтинга к весам критериев; представлен итоговый рейтинг моделей по шкале MS.

Ключевые слова: большие языковые модели, сравнительное тестирование, математические задачи, генерация кода, бенчмарк, математическая статистика.

Рост популярности LLM требует оценки их применимости в математике и программировании. Существующие бенчмарки (MATH, HumanEval) игнорируют качество рассуждений и скорость. Цель работы — сравнительный анализ моделей по единому протоколу, предложение составного критерия (сила модели) с использованием среднего, дисперсии, коэффициента вариации и корреляций.

1. Методология

1.1. Общие правила

Единый промпт, одна попытка. Фиксировались балл (по шкалам ниже) и время отклика.

1.2. Модели

ChatGPT (GPT-5.2), Claude (Sonnet 4.6), DeepSeek (v3.1), Grok (v4), Gemini (v1.0.8).

1.3. Оценивание

Математика: 0.75 за ход решения + 0.25 за ответ (макс 1.00/задача).

Программирование (задачи 1-4, образцовые, по учебнику С. Л. Бабичева [1, с. 46, 128, 252, 347]): +0.33 за работоспособность +0.33 за время +0.33 за память. Задача 5 (версия Python): 1 балл. Задача 6 (сайт): 0-3 балла.

2. Результаты

Таблица 1.

Результаты по математике и программированию

	Математика		Программирование
Модель	Баллы	Время (с)	Баллы	Время (с)
ChatGPT	5	454.8	6	291.0
Claude	5	872.6	8	994.7
DeepSeek	4	2341.8	4	1328.0
Grok	3.25	594.8	6	544.8
Gemini	4.75	204.2	4.66	108.4

3. Статистический анализ

Более подробно про каждую из нижеперечисленных характеристик можно узнать в работах математиков В. Е. Гмурмана [2, с. 75, 85, 197, 253] и А. И. Кобзаря [3, с. 96, 389, 606].

3.1. Среднее (взвешенное)

Математика: 0.733 | Программирование: 0.716 → программирование сложнее.

3.2. Дисперсия и вариация

Математика: σ²=0.465, CV=15.5% (почти однородно)
Программирование: σ²=1.887, CV=24.0% (умеренный разброс)

3.3. Корреляция Пирсона:

r = +0.327 (слабая универсальность)

3.4. Корреляция балла со временем

Математика: r = -0.292 (быстрее = лучше)
Программирование: r = +0.021 (связи нет)

3.5. Ранговая корреляция Спирмена

ρ = 0.4 (рейтинги расходятся → нужен составной критерий).

4. Составной критерий «Сила модели» (MS)

4.1. Нормализация и сила по дисциплине

S* = балл / макс_балл

T* = (мин_время) / время_модели

Сила по дисциплине: MS = 0.75×S* + 0.25×T*

Итоговая сила: MS = 0.5×MS_math + 0.5×MS_prog

Таблица 2.

Показатели

	Нормализованные показатели		Сила по дисциплине		Итоговый рейтинг MS
Модель	Math (S, T)	Prog (S, T)	MS Math	MS Prog	MS	Место
ChatGPT	0.833, 0.449	0.75, 0.373	0.737	0.656	0.697	3
Claude	0.833, 0.234	1.0, 0.109	0.683	0.777	0.730	2
DeepSeek	0.667, 0.087	0.5, 0.082	0.522	0.396	0.459	5
Grok	0.542, 0.343	0.75, 0.199	0.492	0.612	0.552	4
Gemini	0.792, 1.0	0.583, 1.0	0.844	0.687	0.766	1

4.2. Анализ чувствительности (α = 1 и α = 0.5)
α=1 (только качество): 1. Claude, 2. ChatGPT, 3. Gemini.
α=0.5 (качество=скорость): 1. Gemini, 2. ChatGPT, 3. Claude.
Рейтинг устойчив: топ-3 меняется, но в тройке одни и те же модели.

4.3. Сравнение с рейтингом по сырому баллу (Si)

Таблица 3.

Показатели

	Место по Si	Место по MS	Сдвиг
ChatGPT	2	3	-1
Claude	1	2	-1
DeepSeek	5	5	0
Grok	4	4	0
Gemini	3	1	2

Вывод: Gemini поднялся за счёт скорости (лучшее T*).

5. Заключение

По математике: лучший балл у ChatGPT и Claude. Самаябыстрая — Gemini.

По программированию: лидер Claude (8/8). Остальные заметно хуже.

Статистика: CV(math)=15.5%, CV(prog)=24.0%. Корреляция баллов r=0.327. Ранговая корреляция ρ=0.4 → критерий MS обоснован.

Сила модели (MS): 1 место — Gemini (0.766), 2 — Claude (0.730), 3 — ChatGPT (0.697). Gemini эффективен за счёт скорости, ChatGPT и Claude теряют позиции из-за медлительности.

Рекомендации: для математики — ChatGPT, для разработки — Claude, для быстрых ответов — Gemini.

Список литературы:

1. Бабичев С. Л. Лекции по алгоритмам и структурам данных. — М. : МГУ / Техносфера, 2022. — 349 с.

2. Гмурман В. Е. Теория вероятностей и математическая статистика. — М. : Высшая школа, 2003. — 479 с.

3. Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. — М. : Физматлит, 2006. — 816 с.

ТЕСТИРОВАНИЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И РАЗРАБОТКА СОСТАВНОГО КРИТЕРИЯ ИХ УНИВЕРСАЛЬНОЙ ОЦЕНКИ

Похожие статьи