Статья:

КАК МАШИННОЕ ОБУЧЕНИЕ ПОМОГАЕТ ПОНЯТЬ РЫНОК ТРУДА: АНАЛИЗ ЗАРПЛАТ В СОЦИАЛЬНОЙ СФЕРЕ

Журнал: Научный журнал «Студенческий форум» выпуск №33(342)

Рубрика: Технические науки

Выходные данные
Бруев Г.В. КАК МАШИННОЕ ОБУЧЕНИЕ ПОМОГАЕТ ПОНЯТЬ РЫНОК ТРУДА: АНАЛИЗ ЗАРПЛАТ В СОЦИАЛЬНОЙ СФЕРЕ // Студенческий форум: электрон. научн. журн. 2025. № 33(342). URL: https://nauchforum.ru/journal/stud/342/178263 (дата обращения: 16.11.2025).
Журнал опубликован
Мне нравится
на печатьскачать .pdfподелиться

КАК МАШИННОЕ ОБУЧЕНИЕ ПОМОГАЕТ ПОНЯТЬ РЫНОК ТРУДА: АНАЛИЗ ЗАРПЛАТ В СОЦИАЛЬНОЙ СФЕРЕ

Бруев Григорий Витальевич
студент, ФГБОУ ВО Рязанский государственный радиотехнический университет им. В.Ф. Уткина, РФ, г. Рязань
Бубнов Алексей Алексеевич
научный руководитель, ФГБОУ ВО Рязанский государственный радиотехнический университет им. В.Ф. Уткина, РФ, г. Рязань

 

Рынок труда в России стремительно меняется. Появляются новые профессии, исчезают старые, а уровень заработных плат становится всё более неоднородным в зависимости от региона, опыта и сектора экономики. Особенно остро эта ситуация проявляется в социальной сфере — образовании, медицине, науке и культуре. Эти отрасли традиционно испытывают давление между общественной значимостью и ограниченностью бюджетных ресурсов.

Понимание закономерностей, влияющих на уровень зарплат, позволяет не только оценить текущие диспропорции, но и строить прогнозы, необходимые для принятия решений в кадровой политике и планировании государственных программ.

Современные методы интеллектуального анализа данных (Data Mining) и машинного обучения (Machine Learning) дают возможность взглянуть на рынок труда под новым углом: не просто описывать статистику, а выявлять скрытые зависимости и строить прогнозы. Рассмотрим, как можно применить эти технологии на практике для анализа данных о зарплатах работников социальной сферы и науки в России.

Этап 1. Сбор и подготовка данных

Первый шаг любого аналитического проекта — формирование качественного набора данных.

Источниками могут служить:

  • открытые данные Росстата (уровень зарплат по регионам и отраслям),
  • вакансии с сайтов HH.ru, SuperJob и «Работа в России», содержащие должности, зарплаты, требования, регион, опыт работы,
  • данные образовательных организаций и НИИ, где указаны ставки, должности и оклады.

Для практической реализации удобно использовать язык Python и библиотеки requests или BeautifulSoup для парсинга данных. После получения исходных наборов данных выполняется очистка: удаление дубликатов, заполнение пропусков, стандартизация регионов и названий профессий.

import pandas as pd

data = pd.read_csv("salary_data.csv")

data = data.dropna(subset=["salary"])

data["region"] = data["region"].str.lower().str.strip()

Очистка и унификация данных занимают до 60% времени проекта — но именно на этом этапе формируется качество последующих выводов.

Этап 2. Исследовательский анализ данных (EDA)

Далее выполняется разведочный анализ (Exploratory Data Analysis).

Здесь аналитик проверяет:

  • распределение зарплат по регионам,
  • зависимость уровня оплаты от должности и опыта,
  • влияние типа учреждения (гос/частное) на среднюю зарплату.

Визуализация (с помощью matplotlib или seaborn) помогает быстро заметить закономерности. Например, медианная зарплата в Москве может превышать аналогичный показатель в регионах в 2–3 раза, но внутри отрасли разброс бывает ещё выше: младший научный сотрудник и заведующий лабораторией могут отличаться по доходу на порядок.

import seaborn as sns

sns.boxplot(x="region", y="salary", data=data)

EDA также помогает выявить аномалии: например, некорректно указанные зарплаты (в тысячах вместо рублей) или регионы с подозрительно высокими значениями.

Этап 3. Построение модели предсказания зарплаты

После анализа можно перейти к прогнозированию — попытке объяснить и предсказать уровень зарплаты на основе характеристик вакансии.

Для начала применим простую модель линейной регрессии:

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

 

X = data[["experience", "education_level", "region_index"]]

y = data["salary"]

 

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = LinearRegression().fit(X_train, y_train)

Модель показывает, какие признаки сильнее всего влияют на уровень дохода. Например, опыт работы может добавлять в среднем 10–15% к зарплате за каждые 3 года, а фактор региона может иметь даже больший эффект, чем образование.

Более сложные модели — Random Forest, Gradient Boosting, XGBoost — позволяют учитывать нелинейные зависимости и взаимодействия признаков. Они часто показывают точность прогноза до 80–85% на реальных данных.

Этап 4. Интерпретация результатов и визуализация

Машинное обучение даёт не только цифры, но и понимание закономерностей.

Интерпретация модели позволяет ответить на конкретные вопросы:

  • какие факторы больше всего влияют на зарплату;
  • какие регионы и отрасли отстают;
  • как изменится средний доход при росте квалификации.

Для интерпретации удобно использовать методы SHAP или LIME, которые визуально показывают вклад каждого признака в предсказание.

Например, для социальной сферы характерно, что ключевыми предикторами оказываются регион, уровень образования и должность, тогда как опыт и тип организации влияют слабее.

Этап 5. Прогнозирование и сценарный анализ

После обучения модели можно построить сценарный прогноз — например, как изменится средняя зарплата работников науки к 2030 году при сохранении текущих трендов.

Для этого можно использовать модели временных рядов — Prophet от Meta или ARIMA.

from prophet import Prophet

 

df = data[["date", "salary"]].rename(columns={"date": "ds", "salary": "y"})

model = Prophet().fit(df)

forecast = model.predict(model.make_future_dataframe(periods=36, freq="M"))

Прогнозы показывают, что даже при умеренном росте финансирования различия между регионами могут сохраниться, если не будет системных изменений в распределении бюджета и политике оплаты труда.

Практическая ценность анализа

Результаты интеллектуального анализа рынка труда могут использоваться:

  • государственными органами — для планирования программ поддержки и выравнивания доходов;
  • образовательными учреждениями — для адаптации программ под актуальные требования рынка;
  • исследовательскими институтами — для формирования конкурентной кадровой политики;
  • аналитическими центрами и HR-службами — для оценки эффективности оплаты труда.

Таким образом, машинное обучение становится инструментом не только для исследователей, но и для управленцев, которые стремятся принимать решения на основе данных.

Заключение

Машинное обучение и аналитика данных открывают новые возможности для понимания динамики рынка труда в России.

На примере анализа зарплат работников социальной сферы и науки видно, что даже простые модели способны выявить закономерности, скрытые в огромных массивах данных.

Технологии помогают увидеть, где система оплаты труда неэффективна, какие факторы влияют на рост доходов, и как можно прогнозировать развитие отрасли.

Главная ценность такого подхода — переход от описательной статистики к data-driven принятию решений.

Когда решения о повышении зарплат, кадровых программах и развитии регионов строятся на данных, а не на предположениях — это шаг к более справедливой и устойчивой социальной политике.

 

Список литературы:
1. [Электронный ресурс]. - Режим доступа:  https://trends.rbc.ru/trends/social/cmrm/68e626079a7947f6fad7a030 (Дата обращения 16.10.2025).