Статья:

ИНТЕРПРЕТИРУЕМАЯ ОЦЕНКА ПОТЕНЦИАЛА ТОРГОВОЙ ЛОКАЦИИ НА ОСНОВЕ ИНТЕГРАЛЬНОГО ПОКАЗАТЕЛЯ И SHAP-АНАЛИЗА

Конференция: XCVI Международная научно-практическая конференция «Научный форум: инновационная наука»

Секция: Экономика

Выходные данные
Байдин П.И. ИНТЕРПРЕТИРУЕМАЯ ОЦЕНКА ПОТЕНЦИАЛА ТОРГОВОЙ ЛОКАЦИИ НА ОСНОВЕ ИНТЕГРАЛЬНОГО ПОКАЗАТЕЛЯ И SHAP-АНАЛИЗА // Научный форум: Инновационная наука: сб. ст. по материалам XCVI междунар. науч.-практ. конф. — № 5(96). — М., Изд. «МЦНО», 2026.
Конференция завершена
Мне нравится
на печатьскачать .pdfподелиться

ИНТЕРПРЕТИРУЕМАЯ ОЦЕНКА ПОТЕНЦИАЛА ТОРГОВОЙ ЛОКАЦИИ НА ОСНОВЕ ИНТЕГРАЛЬНОГО ПОКАЗАТЕЛЯ И SHAP-АНАЛИЗА

Байдин Павел Игоревич
аспирант кафедры информационных систем и защиты информации, Санкт-Петербургский государственный университет промышленных технологий и дизайна, РФ, г. Санкт-Петербург

 

INTERPRETABLE ASSESSMENT OF TRADING LOCATION POTENTIAL BASED ON AN INTEGRAL INDICATOR AND SHAP ANALYSIS

 

Baydin Pavel Igorevich

Postgraduate Student, Department of Information Systems and Information Security, St. Petersburg State University of Industrial Technologies and Design, Russia, Saint Petersburg

 

Аннотация. В статье рассматривается подход к интерпретируемой оценке потенциала торговой локации на основе интегрального показателя и SHAP-анализа. Показатель формируется на основе нормированных прогнозов выручки и объема продаж, а SHAP-анализ используется для объяснения факторов, повысивших или снизивших итоговую оценку локации.

Abstract. This article examines an approach to interpreting the potential of a retail location based on an integrated indicator and SHAP analysis. Using an integrated indicator based on normalized revenue and sales forecasts, SHAP analysis is used to explain the factors that increased or decreased a location's final assessment.

 

Ключевые слова: потенциал локации, ИППЛ, SHAP-анализ, машинное обучение, геопространственные данные, торговая локация, прогноз выручки, розничная торговля.

Keywords: potential locations, integrated indicator, SHAP analysis, machine learning, geospatial data, retail location, revenue forecast, retail.

 

Введение

Использование машинного обучения в задачах выбора торговой локации позволяет учитывать большое число пространственных факторов: трафик, доступность транспорта, плотность населения, доходы домохозяйств, конкурентную среду и близость к объектам, генерирующим спрос. В исследованиях по геоаналитике розничной торговли подчеркивается, что прогноз продаж и выбор места размещения магазина целесообразно рассматривать совместно, поскольку качество локации проявляется через ожидаемый коммерческий результат [7], [2].

Вместе с тем прикладное использование моделей машинного обучения затрудняется двумя обстоятельствами. Во-первых, прогнозы выручки и продаж имеют разные единицы измерения и плохо воспринимаются как единая оценка локации. Во-вторых, ансамблевые модели обладают высокой точностью, но требуют дополнительного объяснения: пользователю важно понимать не только итоговый балл, но и причины его формирования. Поэтому в статье рассматривается компактная методика, объединяющая интегральный показатель потенциала локации и SHAP-анализ.

Цель статьи - описать способ преобразования прогнозов модели машинного обучения в интерпретируемую шкалу оценки торговой локации и показать, как SHAP-анализ помогает раскрыть вклад пространственных факторов в полученный результат.

Потенциал локации как прогнозно-нормированный показатель

Под потенциалом торговой локации в статье понимается ожидаемая способность места обеспечивать коммерческий результат одной типовой торговой точки. Такая трактовка отличается от экспертной балльной оценки: потенциал не задается вручную, а рассчитывается на основе прогнозных выходов модели машинного обучения. В качестве основных выходов используются два показателя: прогноз месячной выручки и прогноз месячного объема продаж.

Выручка отражает финансовую отдачу локации, а объем продаж - интенсивность покупательского спроса. Для розничных форматов это разграничение важно: одна локация может обеспечивать высокий результат за счет большого числа покупок, другая - за счет более высокого среднего чека. Поэтому интегральная оценка должна учитывать оба аспекта.

Для приведения прогнозов к единой шкале применяется устойчивое нормирование по 5-му и 95-му перцентилям после логарифмирования прогнозных значений. Такой подход снижает влияние выбросов и соответствует общей логике построения композитных индикаторов, где отдельное внимание уделяется нормированию, взвешиванию и устойчивости итогового индекса [6].

Интегральный показатель потенциала локации (ИППЛ) рассчитывается по формуле:

где  — нормированный прогноз выручки,  - нормированный прогноз объема продаж. Вес выручки 0,65 отражает приоритет финансового результата, а вес продаж 0,35 сохраняет роль операционной интенсивности спроса. Итоговый показатель принимает значения от 0 до 100 баллов и используется для сравнительного ранжирования локаций.

Компоненты потенциала и признаки модели

Интегральный показатель не должен восприниматься как механическая сумма отдельных характеристик территории. Его смысл состоит в том, что пространственные признаки преобразуются в прогноз выручки и продаж, а затем прогноз переводится в понятную шкалу. Для интерпретации признаков удобно группировать их в несколько содержательных компонент.

Таблица 1.

Компоненты потенциала торговой локации и признаки модели

Компонента

Примеры признаков

Содержательная роль

Спросовая емкость

число квартир, доходы населения, емкость торговой зоны

характеризует локальный платежеспособный спрос

Транзитность и транспорт

пешеходный трафик, трафик метро, расстояние до метро и остановок

отражает поток потенциальных импульсных покупателей

Событийность

расстояния до ЗАГСов, ресторанов, театров, больниц, роддомов, кладбищ

описывает мотивированный спрос, связанный с событиями и поводами покупки

Конкурентная среда

число конкурентов, расстояние до ближайшего конкурента, конкурентная тень

показывает давление со стороны существующих торговых точек

Инфраструктурная позиция

близость к центру, бизнес-центрам, коммерческой инфраструктуре

характеризует положение локации в городской структуре

Характеристики точки

рейтинг, отзывы, возраст точки, размер сети

отражает не чистый потенциал места, а реализацию потенциала действующим объектом

 

Такая группировка позволяет перейти от технического списка признаков к управленческой интерпретации. Например, высокий показатель может быть сформирован не только за счет большого пешеходного потока, но и за счет событийной инфраструктуры или высокой резидентной емкости. Следовательно, две локации с близким ИППЛ могут иметь разные механизмы формирования спроса и разные риски.

SHAP-анализ как объяснительный слой

Ансамблевые модели, в том числе XGBoost, хорошо работают с табличными и разнородными признаками, однако их результат не всегда легко объяснить пользователю [1]. Для интерпретации модели используется метод SHAP (SHapley Additive exPlanations), основанный на идее разложения прогноза на вклады отдельных факторов [5].

В данной методике SHAP не заменяет интегральный показатель и не используется как формула балла. ИППЛ отвечает на вопрос «насколько перспективна локация», а SHAP-анализ отвечает на вопрос «почему модель сформировала именно такой прогноз». Это разграничение важно, поскольку итоговая оценка должна оставаться связанной с прогнозом коммерческого результата, а объяснение - показывать структуру факторов.

SHAP-анализ может использоваться в двух режимах. Глобальный режим показывает, какие компоненты и признаки в среднем важны для всей выборки. Локальный режим объясняет отдельную локацию: какие факторы повысили прогноз, а какие снизили его. В практическом интерфейсе это может быть реализовано в виде карточки локации: ИППЛ, прогноз выручки, прогноз продаж, тип локации и перечень ключевых положительных и отрицательных факторов.

Апробация на данных цветочного ритейла

Методика апробирована на данных объектов цветочного ритейла Москвы. Выбор данного формата обусловлен высокой чувствительностью спроса к месту размещения: для цветочных магазинов важны транспортные потоки, событийные объекты, конкуренты и локальная покупательная способность. Эмпирическая выборка включает 2 732 наблюдения, для которых рассчитаны прогнозные показатели и ИППЛ.

Финальная модель XGBoost показала тестовую ошибку MAPE 17,20 % для прогноза выручки и 17,76 % для прогноза объема продаж. Значения R² составили 0,591 и 0,616 соответственно. Такие результаты позволяют использовать модель не для точного финансового планирования до рубля, а для предварительного ранжирования и сравнения локаций.

Распределение ИППЛ охватывает весь диапазон от 0 до 100 баллов. Медианное значение составляет 52,24 балла, среднее - 52,78 балла. Проверка альтернативных весовых схем 0,50/0,50, 0,60/0,40 и 0,70/0,30 показала устойчивость ранжирования: совпадение верхнего дециля с базовой схемой составляет от 85,4 % до 97,1 %, а ранговая корреляция Спирмена превышает 0,989.

На рисунке представлена компонентная SHAP-важность факторов для двух прогнозных задач. Для выручки наибольший вклад вносят событийность, транзитность и транспорт, спросовая емкость и конкурентная среда. Для объема продаж также значимы событийность и транзитность, но возрастает роль инфраструктурной позиции и спросовой емкости.

 

Рисунок 1. Компонентная SHAP-важность факторов модели выручки и объема продаж, % (составлено автором)

 

Полученные результаты показывают, что коммерческий потенциал локации формируется не одним фактором, а сочетанием механизмов спроса. Для цветочного ритейла особенно важны событийные и транспортно-транзитные факторы, поскольку значительная часть покупок связана с конкретным поводом или совершается по пути движения покупателя. При этом спросовая емкость и конкурентное давление задают ограничения: высокая плотность населения не гарантирует высокий потенциал, если территория перегружена конкурентами или слабо связана с потоками.

Практическая интерпретация результата

Практический эффект ИППЛ состоит в переводе сложного прогноза модели в простую шкалу, пригодную для ранжирования и картографирования. Локации с оценкой 0–20 баллов можно считать слабыми относительно альтернатив; 20–40 - умеренными; 40–60 - средними; 60–80 - высокими; 80–100 - очень высокими. При этом низкий ИППЛ не означает нулевую выручку, а показывает более слабую позицию локации в сравнении с другими вариантами.

Для принятия решения ИППЛ целесообразно использовать как инструмент предварительного отбора. Он позволяет быстро выделить перспективные зоны, сравнить несколько адресов и определить факторы риска. Окончательное решение должно учитывать аренду, фасад, видимость, условия помещения, формат оператора и финансовую модель. Поэтому ИППЛ является не заменой экспертной оценки, а аналитическим фильтром, уменьшающим неопределенность на раннем этапе выбора места.

Заключение

В статье предложен подход к интерпретируемой оценке потенциала торговой локации на основе интегрального показателя и SHAP-анализа. Интегральный показатель формируется из нормированных прогнозов выручки и объема продаж, что позволяет получить единую шкалу 0–100 баллов. SHAP-анализ раскрывает структуру факторов, влияющих на прогноз, и делает результат модели понятным для пользователя.

Апробация на данных цветочного ритейла Москвы показала, что ИППЛ может использоваться для сравнительного ранжирования локаций, а компонентная интерпретация помогает объяснить причины высокого или низкого потенциала. Основной вклад в прогноз вносят событийность, транзитность, спросовая емкость и инфраструктурная позиция. Дальнейшее развитие подхода связано с внедрением ИППЛ в геоаналитические интерфейсы и проверкой методики на других категориях розничной торговли.

 

Список литературы:
1. Chen T., Guestrin C. XGBoost: A scalable tree boosting system // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016. P. 785–794. URL: https://dl.acm.org/doi/10.1145/2939672.2939785
2. Glaeser C. K., Fisher M., Su X. Optimal retail location: empirical methodology and application to practice // Manufacturing & Service Operations Management. 2019. Vol. 21, № 1. P. 86–102. URL: https://pubsonline.informs.org/doi/abs/10.1287/msom.2018.0759
3. Hu H., Tan D., Thaichon P., Wang B., Zhu Z. Grid-based market sales forecasting for retail businesses using automated machine learning and geospatial intelligence // Expert Systems with Applications. 2025. URL: https://www.sciencedirect.com/science/article/pii/S0957417425014915
4. Lu J., Zheng X., Nervino E., Li Y., Xu Z., Xu Y. Retail store location screening: a machine learning-based approach // Journal of Retailing and Consumer Services. 2024. URL: https://www.sciencedirect.com/science/article/pii/S0969698923003715
5. Lundberg S. M., Lee S.-I. A unified approach to interpreting model predictions // Advances in Neural Information Processing Systems. 2017. Vol. 30. URL: https://proceedings.neurips.cc/paper/2017/hash/8a20a8621978632d76c43dfd28b67767-Abstract.html
6. OECD, Joint Research Centre. Handbook on constructing composite indicators: methodology and user guide. Paris: OECD Publishing, 2008. URL: https://doi.org/10.1787/9789264043466-en
7. Ting C. Y., Ho C. C., Yee H. J., Matsah W. R. Geospatial analytics in retail site selection and sales prediction // Big Data. 2018. Vol. 6, № 1. P. 42–52. URL: https://doi.org/10.1089/big.2017.0085
8. Wang J., Chong W. K., Lin J. Retail demand forecasting using spatial-temporal gradient boosting methods // Journal of Computer Information Systems. 2024. URL: https://www.tandfonline.com/doi/abs/10.1080/08874417.2023.2240753