МОДЕЛИРОВАНИЕ РЫНОЧНЫХ СЦЕНАРИЕВ МЕТОДОМ МОНТЕ-КАРЛО ДЛЯ ВАЛИДАЦИИ ТОРГОВЫХ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ
Конференция: XCV Международная научно-практическая конференция «Научный форум: технические и физико-математические науки»
Секция: Информатика, вычислительная техника и управление

XCV Международная научно-практическая конференция «Научный форум: технические и физико-математические науки»
МОДЕЛИРОВАНИЕ РЫНОЧНЫХ СЦЕНАРИЕВ МЕТОДОМ МОНТЕ-КАРЛО ДЛЯ ВАЛИДАЦИИ ТОРГОВЫХ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ
MONTE CARLO–BASED MARKET SCENARIO MODELING FOR THE VALIDATION OF MACHINE LEARNING TRADING MODELS
Solobuto Alexey Viktorovich
Applicant of the degree of candidate of technical sciences, Moscow university of Finance and Law MFUA, Russia, Moscow
Аннотация. В работе рассматривается применение метода Монте-Карло для моделирования различных рыночных сценариев с целью валидации торговых моделей машинного обучения. Одной из ключевых проблем валидации торговых алгоритмов является ограниченность исторических данных: их объём часто является недостаточным для надёжной оценки обобщающей способности моделей, что приводит к риску переобучения моделей. Предложен подход к генерации синтетических временных рядов, отражающих различные режимы поведения финансовых рынков. Проведен сравнительный анализ результатов валидации моделей на исторических и сгенерированных данных. Показано, что использование метода Монте-Карло позволяет повысить надежность оценки качества моделей и выявить их чувствительность к изменению рыночных условий. Полученные результаты могут быть использованы при разработке и тестировании алгоритмических торговых систем.
Abstract. This paper examines the application of the Monte Carlo method for modeling various market scenarios to validate machine learning trading models. One of the key challenges in validating trading algorithms is the limited availability of historical data—the volume of such data is often insufficient for reliably assessing the generalization capability of models, leading to the risk of overfitting. An approach to generating synthetic time series that reflect different regimes of financial market behavior is proposed. A comparative analysis of model validation results on historical and generated data is conducted. It is shown that using the Monte Carlo method improves the reliability of model quality assessment and reveals their sensitivity to changing market conditions. The results obtained can be applied in the development and testing of algorithmic trading systems.
Ключевые слова: метод Монте-Карло, моделирование рыночных сценариев, валидация моделей, синтетические данные, временные ряды.
Keywords: Monte Carlo method, market scenario simulation, model validation, synthetic data, time series.
Введение. При разработке торговых стратегий на основе моделей машинного обучения наблюдается проблема в виде малого количества данных, а следовательно, и рыночных сценариев для тестирования моделей [1]. Также стоит отметить, что финансовые временные ряды являются нестационарными: статистические характеристики рынка изменяются во времени, а история представляет собой лишь одну единственную реализацию стохастического процесса [2].
Традиционный подход, представляющий собой тестирование на исторических данных, имеет 2 существенных недостатка. Во-первых, он не позволяет отличить истинную предсказательную способность модели от совпадений, вызванных последовательностью рыночных шумов. Во-вторых, модель, показывающая доходность на одном историческом периоде, часто теряет свою эффективность на других исторических периодах и рыночных сценариях.
Классические методы, применяемые в машинном обучении, предполагают разбиение выборки на обучающую и тестовую выборки, однако у данного подхода в рамках торговых моделей есть существенная проблема: при разделении выборок остается только одна тестовая траектория, что делает статистические выводы о модели ненадёжными [3]. Возникает необходимость в подходе, позволяющем оценить поведение системы на различных рыночных условиях, которые не наблюдались в прошлом, но являются вероятными с точки зрения статистики.
Материалы и методы. Для преодоления ограничений классического подхода к валидации на основе исторических данных используется метод Монте-Карло [4], позволяющий перейти от анализа единственного наблюдаемого сценария к исследованию совокупности возможных траекторий, формируемых в соответствии с его вероятностными характеристиками.
Процедура валидации делится на 3 этапа: калибровка параметров, генерация синтетических рыночных сред, тестирование модели на полученных средах.
На первом этапе на основе исторических данных производится калибровка параметров стохастической модели, описывающей динамику поведения цен и объёмов активов.
Далее генерируется множество синтетических рыночных сред. Каждая из этих сред представляет собой альтернативную историю развития рынка, но имеет уникальную реализацию благодаря случайному шуму.
На полученном наборе сценариев проводится тестирование торговой модели машинного обучения. Данный подход решает проблему недостаточности исторических данных за счёт трёх ключевых механизмов:
1. ММК искусственно расширяет выборку, позволяя оценить поведение в различных рыночных ситуациях, которые статистически возможны, но не возникали в прошлом.
2. Анализ распределения позволяет определить долю сценариев, в которых модель остается прибыльной.
3. Меняя параметры генерации, можно оценить устойчивость модели к кризисным ситуациям.
В данной реализации метода Монте-Карло используется геометрическое броуновское движение [5] (1):
![]()
Параметры геометрического броуновского движения, используемые в модели, включают дрейф, волатильность и случайную компоненту. Значение параметра дрейфа
отражает долгосрочную тенденцию роста ликвидности. Волатильность
характеризует степень изменчивости актива за рассматриваемый период времени. Случайная составляющая процесса
моделируется как нормально распределённая величина с параметрами
и обеспечивает генерацию уникальных траекторий при каждом моделировании.
После получения статистических параметров модели необходимо задать начальные условия: последнее наблюдаемое значение, горизонт планирования и число симуляций. С использованием генератора псевдослучайных чисел формируется последовательность нормально распределённых величин, которая подставляется в модель для пошагового вычисления значения показателя.
На следующем этапе многократно повторяется процедура генерации траекторий, в результате чего формируется набор рыночных сценариев. Каждый сценарий рассчитывается рекурсивно, опираясь на предыдущее значение и случайную компоненту, что обеспечивает стохастический сценарий моделирования. Полученные результаты агрегируются и визуализируются в виде совокупности кривых.
Для реализации метода использовались программные пакеты Pandas и Numpy. Библиотека Pandas применялась для загрузки, структурирования и предобработки данных, тогда как Numpy использовалась для генерации случайных величин. Визуализация полученных результатов осуществлялась с помощью библиотеки Matplotlib.
В качестве исходных данных для моделирования использовались временные ряды наблюдений, включающие значения цен закрытия (вещественные числа) и объемы торгов (количественные данные) индекса Московской биржи [6]. Результаты моделирования изображены на рисунках 1 и 2 для цен и объёмов соответственно.

Рисунок 1. Пример генерации рыночных сценариев методом Монте-Карло для цены IMOEX

Рисунок 2. Пример генерации рыночных сценариев методом Монте-Карло для объёмов IMOEX
Метод Монте-Карло позволяет промоделировать самые разные сценарии: как приближенные к исходному поведению, так и совсем экстремальные, что позволяет протестировать работу модели в самых разных условиях.
Результаты и обсуждение. Для валидации с помощью сгенерированных сценариев была выбрана модель CatBoostClassifier [7], для оценки качества модели были выбраны метрики классификации [8]. Валидация на синтетических данных позволила выявить проблемы, которые невозможно было выявить, проводя тесты только на исторических данных, для этого было проведено тестирование на 3 различных сценариях:
1. Стрессовом
2. Близком к исходному
3. Благоприятном
Результаты тестирования указаны в таблице 1
Таблица 1.
Сравнение метрик качества модели классификации CatBoost для исторических данных и для синтетических данных
|
|
Исторические данные |
Синтетические данные (стрессовый сценарий) |
Синтетические данные (приближенный сценарий) |
Синтетические данные (благоприятный сценарий) |
|
Accuracy |
0.69 |
0.51 |
0.69 |
0.87 |
|
Precision |
0.68 |
0.51 |
0.68 |
0.85 |
|
Recall |
0.73 |
0.54 |
0.72 |
0.9 |
|
F1 score |
0.70 |
0.52 |
0.70 |
0.87 |
|
ROC-AUC |
0.77 |
0.51 |
0.70 |
0.88 |
Валидация на синтетических данных выявила особенности модели, которые оставались скрытыми при тестах на исторических данных. Было обнаружено, что модель очень чувствительна к шуму при стресс-тестировании, что делает её неприменимой в кризисных ситуациях.
Выводы. Применение метода Монте-Карло для валидации торговых моделей машинного обучения позволяет повысить надёжность оценки качества моделей.
Метод Монте-Карло отсеивает стратегии, которые обладают ложной эффективностью на исторических данных, но не имеют истинной предсказательной силы. Анализ метрик классификации на различных сценариях позволяет составить более широкое представление об эффективности модели.
Таким образом, интеграция метода Монте-Карло в процесс валидации торговых моделей машинного обучения является необходимым условием для построения устойчивых к неопределённости и статистически значимых торговых систем на основе методов машинного обучения.

