ПРИМЕНЕНИЕ СОВРЕМЕННЫХ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В ЭКОНОМИЧЕСКИХ ИССЛЕДОВАНИЯХ
Конференция: CI Международная научно-практическая конференция «Научный форум: экономика и менеджмент»
Секция: Математические и инструментальные методы экономики

CI Международная научно-практическая конференция «Научный форум: экономика и менеджмент»
ПРИМЕНЕНИЕ СОВРЕМЕННЫХ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В ЭКОНОМИЧЕСКИХ ИССЛЕДОВАНИЯХ
APPLICATION OF MODERN MACHINE LEARNING METHODS IN ECONOMIC RESEARCH
Makhmutova Anna Sergeevna
Student, Kazan National Research Technical University, Russia, Kazan
Samysheva Ekaterina Yurievna
Scientific Supervisor, Candidate of Economic Sciences, Associate Professor, Kazan National Research Technical University, Russia, Kazan
Аннотация. В работе проведён системный анализ адаптации алгоритмов машинного обучения к задачам экономического прогнозирования, анализа эффективности политик и обработки качественной информации. Рассмотрены методологические противоречия между предсказательной силой сложных моделей и требованиями экономической науки к интерпретируемости и причинному выводу. Предложен гибридный подход, сочетающий методы градиентного бустинга с моделями структурных уравнений для анализа регионального экономического развития.
Abstract. The paper provides a systematic analysis of the adaptation of machine learning algorithms to the tasks of economic forecasting, policy effectiveness analysis, and the processing of high-quality information. It examines the methodological contradictions between the predictive power of complex models and the requirements of economic science for interpretability and causal inference. The paper proposes a hybrid approach that combines gradient boosting methods with structural equation models for analyzing regional economic development.
Ключевые слова: машинное обучение; анализ эффективности; стандартные алгоритмы, методы МО, модель.
Keywords: machine learning; performance analysis; standard algorithms, MO methods, and models.
За последнее десятилетие машинное обучение стало одним из важнейших инструментов прикладной экономики. Его распространение объясняется доступностью больших наборов данных, вычислительными ресурсами и накоплением методических достижений, позволяющих решать, как задачи прогнозирования, так и формальные задачи каузального вывода при высокоразмерных признаковых пространствах. При этом экономисты часто должны учитывать требования к интерпретируемости, идентифицируемости и корректной статистической индукции. Наиболее востребованные методы машинного обучения в экономическом анализе представлены в таблице.
Таблица 1.
Наиболее востребованные методы машинного обучения в экономическом анализе
|
Инструменты машинного обучения |
Характеристика |
|
1 |
2 |
|
Регрессионное моделирование |
Методы линейной и нелинейной регрессии применяются для построения прогнозных моделей количественных экономических индикаторов. Например, множественная регрессия позволяет оценивать зависимость уровня ВВП от таких факторов, как динамика занятости, объем капиталовложений и темпы инфляции. |
|
Алгоритмы классификации |
Методы вроде логистической регрессии, деревьев решений и опорных векторов используются для категоризации экономических объектов. Типичным применением является оценка кредитоспособности заемщиков посредством разделения их на группы. |
|
Методы кластеризации |
Алгоритмы, включая k-средних и иерархическую кластеризацию, служат для выявления однородных групп в данных. |
|
Нейросетевые архитектуры |
Глубокие нейронные сети, способные моделировать сложные нелинейные взаимосвязи, находят применение в таких задачах, как прогнозирование финансовых временных рядов, семантический анализ экономических новостей. |
Экономические данные обладают рядом особенностей, осложняющих применение стандартных алгоритмов МО. В отличие от компьютерных наук, экономисты часто работают с малыми выборками. Данные преимущественно наблюдательные, что обостряет проблемы эндогенности и пропущенных переменных, а также экономические системы подвержены изменениям институциональной среды, что требует от моделей устойчивости к изменениям.
Таким образом, выделяют три основных направления адаптации методов МО для экономических исследований [1]:
- Методы регуляризации (лассо, гребневая регрессия) [3].
- Алгоритмы на основе деревьев (случайный лес, градиентный бустинг). [2].
- Методы обработки естественного языка для квантификации качественной информации (выступлений регуляторов, новостных лент, законопроектов).
Рассмотрим их подробнее. Методы регуляризации используются для работы с большим количеством предикторов при малом числе наблюдений, что актуально для макроэкономического прогнозирования. Алгоритмы на основе деревьев полезны для учета нелинейностей и взаимодействий без их явной спецификации. Особый интерес представляет двойное/дебаггированное машинное обучение (Double/Debiased ML) – метод, разработанный специально для оценки средних эффектов лечения в условиях высокоразмерности. Трансформерные архитектуры (BERT) позволяют улавливать контекст и семантические нюансы, что важно для анализа экономических нарративов.
Основная причина критики МО в экономике – это низкая интерпретируемость сложных моделей (например, нейронных сетей). В ответ сформировалось направление Explainable AI (XAI), предлагающее методы апостериорной интерпретации:
- SHAP (Shapley Additive Explanations).
- LIME (Local Interpretable Model-agnostic Explanations).
Первый оценивает вклад каждого признака в конкретный прогноз на основе теории кооперативных игр. Второй строит локальную линейную аппроксимацию сложной модели вокруг точки прогноза. Однако эти методы объясняют корреляционные, а не причинные связи, что остается методологической проблемой.
Для преодоления указанных ограничений предложена двухэтапная гибридная модель. На первом этапе осуществляется селекция предикторов и выявление взаимодействий с помощью градиентного бустинга. Используется алгоритм CatBoost, устойчивый к категориальным переменным и переобучению на малых выборках. На его основе ранжируются предикторы по важности (feature importance), а с помощью SHAP-значений выявляются нелинейные эффекты и взаимодействия между переменными. Далее отбираются наиболее значимые переменные (15-20) для включения в структурную модель.
На втором этапе происходит построение и оценка структурной модели. На основе отобранных переменных и экономической теории формулируется структурное уравнение. Для оценки параметров и проверки гипотез используется метод инструментальных переменных (IV) или Generalized Method of Moments (GMM), что позволяет бороться с эндогенностью.
Данный подход имеет преимущества благодаря снижению размерности и учету сложных взаимосвязей на первом этапе без потери интерпретируемости, а также возможности тестирования экономических гипотез в рамках структурной модели.
Ограничения исследования проявляются в том, что использование панельных данных средней длины (T=13) может ограничивать выявление долгосрочных эффектов. Инструментальная переменная (трансферты) хотя и удовлетворяет статистическим критериям, может быть подвержена критике с точки зрения строгой экзогенности. Так гибридный подход требует больших вычислительных ресурсов по сравнению с традиционными методами.
Разработанная методология демонстрирует потенциал синтеза методов МО и классической эконометрики. Использование градиентного бустинга на этапе селекции переменных позволило избежать субъективного выбора контрольных переменных и учесть сложные взаимодействия, которые сложно априори специфицировать в структурной модели.


