Исследование состояния жилищного фонда в России путем применения факторного анализа
Журнал: Научный журнал «Студенческий форум» выпуск №42(135)
Рубрика: Экономика
Научный журнал «Студенческий форум» выпуск №42(135)
Исследование состояния жилищного фонда в России путем применения факторного анализа
Аннотация. В данной статье рассматривается влияние различных факторов на жилищный фонд в регионах Российской Федерации. Проведен регрессионный данных за 2019 год. Анализ проводился средствами прикладного пакета программ «Statistica».
Ключевые слова: анализ, метод, факторный анализ, фактор, статистика, жилищный фонд.
Факторный анализ – многомерный статистический метод, применяемый для изучения взаимосвязей между значениями количественных переменных. Основная идея факторного анализа заключается в том, что имеющиеся зависимости между большим числом исходных наблюдаемых переменных определяются существованием гораздо меньшего числа скрытых или латентных переменных, называемых факторами.
Главными целями факторного анализа являются: сокращение числа переменных и определения структуры взаимосвязей между переменными. Поэтому факторный анализ используется или как метод сокращения данных или как метод классификации. Факторный анализ позволяет исследователю описать объект измерения с одной стороны всесторонне, учитывая множество исходных тесно взаимосвязанных между собой переменных, а с другой стороны компактно с помощью небольшого числа переменных.
Рассмотрим набор данных из 17 переменных:
Показатели, участвующие в классификации, следующие:
Y1 – Жилищный фонд млн. м2.;
X1 – Численность рабочей силы, тыс. чел.;
X2 – Среднедушевые денежные доходы населения, руб./мес.;
X3 – Инвестиции в основной капитал, млн. руб.;
X4 – Количество жилищных ипотечных кредитов, единиц;
X5 – Ввод в действие жилых домов, тыс. м2;
X6 – Число действующих строительных организаций;
X7 – Количество зарегистрированных договоров участия в долевом строительстве, единиц;
X8 – Площадь квартир в жилых зданиях, находящихся в незавершенном строительстве, тыс. м2;
X9 – Удельный вес площади жилищного фонда, оборудованной горячим водоснабжением, в общей площади всего жилищного фонда (процент, значение показателя за год);
X10 – Удельный вес площади жилищного фонда, оборудованной водоотведением (канализацией), в общей площади всего жилищного фонда (процент, значение показателя за год);
X11 – Удельный вес площади жилищного фонда, оборудованной водопроводом, в общей площади всего жилищного фонда (процент, значение показателя за год).
Переменная Y (Жилищный фонд) – зависимая переменная, остальные независимые переменные – факторы или предикторы. Таким образом, воспользовавшись методами статистического анализа необходимо провести множественный регрессионный анализ зависимости жилищного фонда в РФ от ряда факторов, провести факторный анализ по исходным данным о регионах РФ, провести кластеризацию списка регионов РФ в зависимости от ряда показателей, провести классификацию регионов РФ по различным классам, используя дискриминантный анализ.
Для решения задачи числа компонент воспользуемся графическим методом – критерием каменистой осыпи. . График собственных значений факторов (график каменистой осыпи) позволяет выбрать число значимых факторов для дальнейшего анализа
Так как метод «каменистой осыпи» графический, он является приближенным и не дает точного значения факторов. В данном случае убывание собственных значений слева направо максимально замедляется на 4 факторе. (Рис. 1).
Рисунок 1. График собственных значений
Таблица собственных значений позволяет принять решение о том, сколько факторов нужно оставить в модели. В ней отображен значения в виде абсолютных значений, а также % полной дисперсии, приходящейся на каждый фактор.
Рисунок 2. Таблица собственных значений
Как видно из таблицы, собственное значение для первого фактора равно 5,559624, а доля дисперсии, объясненная первым фактором равна приблизительно 50,54%. Собственное значение для второго фактора равно 2,559356, а доля дисперсии, объясненная вторым фактором равна приблизительно 23,27%. Собственное значение для третьего фактора равно 1,184313, а доля дисперсии, объясненная третьим фактором равна приблизительно 10,77%.
Можно сделать вывод, что первый фактор наиболее значимый, т.к. он объясняет почти половину вариаций переменных.
В соответствии с критерием Кейзера, необходимо оставить факторы с собственными значениями больше 1. Из таблицы собственных значений следует, что критерий приводит к выбору полученных трех факторов.
Факторный анализ. Далее следует рассмотреть факторные нагрузки. Чем теснее связь с рассматриваемым фактором, тем выше значение факторной нагрузки. Если коэффициент факторной нагрузки больше 0,7, то он выделяется красным цветом и соответствующая переменная включается в состав фактора
Рассмотрим факторные нагрузки без вращения факторов (Рис.3).
Рисунок 3. Факторные нагрузки главных компонент без вращения
Поскольку в этой модели нет переменных, которые можно включить в факторы 1, 2 и 3. Поэтому модель нельзя считать информативной. Если используем вращение факторов «Варимакс исходных», то получим другие факторные нагрузки (рис. 4)
Рисунок 4. Факторные нагрузки главных компонент с вращением факторов «Варимакс исходных»
Задача вращения обобщающих факторов – главных компонент решается с целью улучшения их интерпретируемости.
Значимость признаков, участвующих в формировании главной компоненты, можно установить коэффициентом информативности. Набор признаков считается удовлетворительным, если . Коэффициент информативности рассчитывается по следующей формуле:
Фактор 1 «Объем услуг жилищного фонда»
Х1 - Численность рабочей силы, тыс. чел.;
Х4 - Количество жилищных ипотечных кредитов, единиц;
Х5 - Ввод в действие жилых домов, тыс. м^2;
Х6 - Число действующих строительных организаций;
X7 - Количество зарегистрированных договоров участия в долевом строительстве, единиц;
X8 - Площадь квартир в жилых зданиях, находящихся в незавершенном строительстве, тыс. М^2.
Кинф1 = 94,95%, что в пределах допустимого уровня.
Фактор 2 «Жилищные условия домохозяйств»
X9 - Удельный вес площади жилищного фонда, оборудованной горячим водоснабжением, в общей площади всего жилищного фонда (процент, значение показателя за год);
X10 - Удельный вес площади жилищного фонда, оборудованной водоотведением (канализацией), в общей площади всего жилищного фонда (процент, значение показателя за год);
X11 - Удельный вес площади жилищного фонда, оборудованной водопроводом, в общей площади всего жилищного фонда (процент, значение показателя за год).
Кинф2 = 94,69%, что в пределах допустимого уровня.
Фактор 3: «Доходы потребителя»
X2 - Среднедушевые денежные доходы населения, руб./мес.
X3 - Инвестиции в основной капитал, млн.руб.
Кинф3 = 93,39%, что в пределах допустимого уровня.
Таким образом, применив вращение факторных нагрузок, значения коэффициентов информативности немного изменились (увеличились).
Регрессионный анализ полученных компонент. Чтобы проверить, являются ли входящие в фактор переменные значимыми, нужно применить регрессионный анализ для каждой компоненты. На рисунке 5-6 представлен регрессионный анализ факторов.
Рисунок 5. Итоги регрессии для компонентов фактора 1
Из таблицы видно, что все 3 фактора являются значимым по отношению к жилищному фонду в РФ, так как они являются статистически значимыми.
Уравнение множественной регрессии в обычной форме будет выглядеть следующим образом:
Y = 37,94 – 24,76 * Ф1 + 8,08 * Ф2 - 3,33 * Ф3
Таким образом, при увеличении второго фактора на 1 млн. м^2. жилищный фонд увеличится на 8,08 млн. м^2.
Таким образом, на жилищный фонд в РФ из всех исследуемых характеристик оказывают существенное все 3 главные компоненты: объем услуг жилищного фонда, жилищные условия домохозяйств, доходы потребителя. Для проверки адекватности модели важна гистограмма остатков, которая должна быть близка к графику нормального распределения, что и наблюдается в данном случае (рисунок 6).
Рисунок 6. Гистограмма остатков
Она должна быть близка к графику нормального распределения, что и наблюдается в данном случае.
Таким образом, можно сделать вывод, что использование факторного анализа позволяет:
- определить основные аспекты различий между факторами;
- обосновать существование доминирующих факторов;
- осуществить позиционирование регионов по уровню региональных различий в разрезе вычисленных главных факторов.