Статья:

ТЕСТИРОВАНИЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И РАЗРАБОТКА СОСТАВНОГО КРИТЕРИЯ ИХ УНИВЕРСАЛЬНОЙ ОЦЕНКИ

Конференция: CCCXLV Студенческая международная научно-практическая конференция «Молодежный научный форум»

Секция: Технические науки

Выходные данные
Загреев М.Р., Мухина А.А. ТЕСТИРОВАНИЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И РАЗРАБОТКА СОСТАВНОГО КРИТЕРИЯ ИХ УНИВЕРСАЛЬНОЙ ОЦЕНКИ // Молодежный научный форум: электр. сб. ст. по мат. CCCXLV междунар. студ. науч.-практ. конф. № 19(345). URL: https://nauchforum.ru/archive/MNF_interdisciplinarity/19(345).pdf (дата обращения: 16.06.2026)
Лауреаты определены. Конференция завершена
Эта статья набрала 0 голосов
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

ТЕСТИРОВАНИЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И РАЗРАБОТКА СОСТАВНОГО КРИТЕРИЯ ИХ УНИВЕРСАЛЬНОЙ ОЦЕНКИ

Загреев Михаил Робертович
студент бакалавриата, Уфимский Университет Науки и Технологий РФ, г. Уфа
Мухина Ангелина Андреевна
студент бакалавриата, Уфимский Университет Науки и Технологий РФ, г. Уфа

 

Аннотация. Разработан составной критерий оценки языковых моделей, объединяющий качество ответов и скорость их генерации. На основе авторского тестирования по математике и программированию (единый протокол, одна попытка на модель) вычислены статистические показатели: среднее, дисперсия, коэффициент вариации, корреляции Пирсона и Спирмена. Введён интегральный показатель — сила модели (Model Strength, MS), нормализующий обе метрики через взвешенное среднее. Выполнен анализ чувствительности рейтинга к весам критериев; представлен итоговый рейтинг моделей по шкале MS.

 

Ключевые слова: большие языковые модели, сравнительное тестирование, математические задачи, генерация кода, бенчмарк, математическая статистика.

Рост популярности LLM требует оценки их применимости в математике и программировании. Существующие бенчмарки (MATH, HumanEval) игнорируют качество рассуждений и скорость. Цель работы — сравнительный анализ моделей по единому протоколу, предложение составного критерия (сила модели) с использованием среднего, дисперсии, коэффициента вариации и корреляций.

1. Методология

1.1. Общие правила

Единый промпт, одна попытка. Фиксировались балл (по шкалам ниже) и время отклика.

1.2. Модели

ChatGPT (GPT-5.2), Claude (Sonnet 4.6), DeepSeek (v3.1), Grok (v4), Gemini (v1.0.8).

1.3. Оценивание

Математика: 0.75 за ход решения + 0.25 за ответ (макс 1.00/задача).

Программирование (задачи 1-4, образцовые, по учебнику С. Л. Бабичева [1, с. 46, 128, 252, 347]):  +0.33 за работоспособность +0.33 за время +0.33 за память. Задача 5 (версия Python): 1 балл. Задача 6 (сайт): 0-3 балла.

2. Результаты

Таблица 1.

Результаты по математике и программированию

 

Математика

Программирование

Модель

Баллы

Время (с)

Баллы

Время (с)

ChatGPT

5

454.8

6

291.0

Claude

5

872.6

8

994.7

DeepSeek

4

2341.8

4

1328.0

Grok

3.25

594.8

6

544.8

Gemini

4.75

204.2

4.66

108.4

 

3. Статистический анализ

Более подробно про каждую из нижеперечисленных характеристик можно узнать в работах математиков В. Е. Гмурмана [2, с. 75, 85, 197, 253] и А. И. Кобзаря [3, с. 96, 389, 606].

3.1. Среднее (взвешенное)

Математика: 0.733 | Программирование: 0.716 → программирование сложнее.

3.2. Дисперсия и вариация

Математика: σ²=0.465, CV=15.5% (почти однородно)
Программирование: σ²=1.887, CV=24.0% (умеренный разброс)

3.3. Корреляция Пирсона:

r = +0.327 (слабая универсальность)

3.4. Корреляция балла со временем

Математика: r = -0.292 (быстрее = лучше)
Программирование: r = +0.021 (связи нет)

3.5. Ранговая корреляция Спирмена

ρ = 0.4 (рейтинги расходятся → нужен составной критерий).

4. Составной критерий «Сила модели» (MS)

4.1. Нормализация и сила по дисциплине

S* = балл / макс_балл

T* = (мин_время) / время_модели

Сила по дисциплине: MS = 0.75×S* + 0.25×T*

Итоговая сила: MS = 0.5×MS_math + 0.5×MS_prog

Таблица 2.

Показатели

 

Нормализованные показатели

Сила по дисциплине

Итоговый рейтинг MS

Модель

Math (S*, T*)

Prog (S*, T*)

MS Math

MS Prog

MS

Место

ChatGPT

0.833, 0.449

0.75, 0.373

0.737

0.656

0.697

3

Claude

0.833, 0.234

1.0, 0.109

0.683

0.777

0.730

2

DeepSeek

0.667, 0.087

0.5, 0.082

0.522

0.396

0.459

5

Grok

0.542, 0.343

0.75, 0.199

0.492

0.612

0.552

4

Gemini

0.792, 1.0

0.583, 1.0

0.844

0.687

0.766

1

 

4.2. Анализ чувствительности (α = 1 и α = 0.5)
α=1 (только качество): 1. Claude, 2. ChatGPT, 3. Gemini.
α=0.5 (качество=скорость): 1. Gemini, 2. ChatGPT, 3. Claude.
Рейтинг устойчив: топ-3 меняется, но в тройке одни и те же модели.

4.3. Сравнение с рейтингом по сырому баллу (Si)

Таблица 3.

Показатели

 

Место по Si

Место по MS

Сдвиг

ChatGPT

2

3

-1

Claude

1

2

-1

DeepSeek

5

5

0

Grok

4

4

0

Gemini

3

1

2

 

Вывод: Gemini поднялся за счёт скорости (лучшее T*).

5. Заключение

По математике: лучший балл у ChatGPT и Claude. Самаябыстрая — Gemini.

По программированию: лидер Claude (8/8). Остальные заметно хуже.

Статистика: CV(math)=15.5%, CV(prog)=24.0%. Корреляция баллов r=0.327. Ранговая корреляция ρ=0.4 → критерий MS обоснован.

Сила модели (MS): 1 место — Gemini (0.766), 2 — Claude (0.730), 3 — ChatGPT (0.697). Gemini эффективен за счёт скорости, ChatGPT и Claude теряют позиции из-за медлительности.

Рекомендации: для математики — ChatGPT, для разработки — Claude, для быстрых ответов — Gemini.

 

Список литературы:
1. Бабичев С. Л. Лекции по алгоритмам и структурам данных. — М. : МГУ / Техносфера, 2022. — 349 с.
2. Гмурман В. Е. Теория вероятностей и математическая статистика. — М. : Высшая школа, 2003. — 479 с.
3. Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. — М. : Физматлит, 2006. — 816 с.