Data Mining и его применение
Секция: Физико-математические науки
XLIV Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»
Data Mining и его применение
Более двухсот лет назад английский банкир, предприниматель и финансист Натан Ротшильд утверждал: «Кто владеет информацией, тот владеет миром». Но, последние десятилетие показали, насколько это спорное выражение. Ведь сейчас накопилось огромное количество информации, но понятие ее истинного смысла, овладение ею человек не всегда подвластно. Старые методы обработки информации, используемые математиками и статистиками, отнимали много времени, чтобы в результате получить конструктивную и полезную информацию.
В 1989 году Григорием Пятецким-Шапиро был предложен термин «Data Mining». Основой данного метода послужили попытки ответить на вопрос: возможно ли автоматически находить установленные закономерности, чтобы ускорить некоторые запросы к гигантским базам данных?
Зачастую под понятием Data Mining подразумевают технологию выявления скрытых взаимосвязей внутри больших баз данных; с другой стороны, есть мнение, что это процесс, при помощи которого из старых данных можно извлечь нечто новое, или же – это процесс отбора данных из скрытой и косвенной информации и представления ее в виде, подходящим для использования. В совокупности, все эти определения верно обозначают смысл Data Mining.
Этот метод нашел широкое применение в таких областях науки, как: экономика, маркетинг, технический анализ, биология, прикладная химия, астрономия, фармация, медицина. Практически любая информация может быть предметом Data Mining.
Для наглядной демонстрации цели нашего исследования мы применили процесс Data Mining для обработки данных анкетирования. Мы обработали более 50 анкет, заполненных студентами КГМУ, об отношении современной молодежи к религии и нравственности. Далее, используя программу Data Mining, выявили закономерность, которая установилась в результате ответов на значимые вопросы анкеты. Данные, полученные в результате нашего исследования, представлены в таблице 1, таблице 2 и таблице 3.
Таблица 1.
Сводка обработки наблюдений
Сводка обработки наблюдений |
|||
|
N |
Процент |
|
Выборка |
Обучающая |
277 |
70,3% |
Контрольная |
117 |
29,7% |
|
Валидные |
394 |
100,0% |
|
Исключенные |
5 |
|
|
Всего |
399 |
|
Таблица 2.
Информация о сети
Информация о сети |
|||
Входной слой |
Факторы |
1 |
Pol |
2 |
Vozrast |
||
3 |
Religia |
||
4 |
Doverieduchovenstva |
||
5 |
Istochikinformacii |
||
6 |
Znanie o razlichijae |
||
7 |
Utvergdenie o postupkach |
||
8 |
Predotvratitbeznravstvennost |
||
9 |
Vvedenieizuchenijkursareligiovedtnij |
||
|
10 |
Tainstvoeprichastie |
|
11 |
Posecheniebogoslugenija |
||
12 |
Palomnicheskijapoezdki |
||
13 |
Disciplina o religioznichdoktrinach v VUSe |
||
Ковариаты |
1 |
Stepenireligioznosti |
|
2 |
Religioznietradicii |
||
3 |
Posescheniereligioznieslugbie |
||
4 |
Religioznieprazdniki |
||
5 |
Vlijnienaprofessii(uchubu) |
||
6 |
Vlijniereligiinapovedenie |
||
7 |
Zapovedivagnie |
Таблица 3.
Информация о сети
Информация о сети |
||||
Входной слой |
Ковариаты |
8 |
Chastowieprichachschaetes |
|
Количество нейронов |
52 |
|||
Метод изменения масштаба для ковариат |
Стандартизировано |
|||
Скрытые слои |
Количество скрытых слоев |
1 |
||
|
Количество нейронов в скрытом слое 1 |
5 |
||
Функция активации |
Сигмоид |
|||
Выходной слой |
Зависимые переменные |
1 |
Sekciiporeligioznosti |
|
Количество нейронов |
1 |
|||
Метод изменения масштаба для количественных зависимых переменных |
Нормализовано |
|||
Функция активации |
Сигмоид |
|||
Функция ошибки |
Сумма квадратов |
|||
|
a. Исключен нейрон смещения |
При задаче программе действия «Создать», на основе введенных данных получили Data Mining. Сводка для её моделирования представлены на в таблице 4 соответственно.
Таблица 4.
Сводка для модели
Сводка для модели |
||
Обучающая |
Ошибка суммы квадратов |
,697 |
Относительная ошибка |
,029 |
|
Использованное правило остановки |
Количество последовательных шагов без уменьшения ошибки: 1a |
|
Время обучения |
0:00:00,05 |
|
Контрольная |
Ошибка суммы квадратов |
1,587 |
Относительная ошибка |
,175 |
|
Зависимая переменная: Sekciiporeligioznosti |
||
a. При вычислении ошибок используется контрольная выборка. |
Эта программа позволяет рассчитать важность переменных и составлять диаграммы по полученным результатам. Полученные данные представлены в таблице 5 и на рисунке 1.
Таблица 5.
Важность независимых переменных
Важность независимых переменных |
||
|
Важность |
Нормализованная важность |
Pol |
,006 |
1,4% |
Vozrast |
,007 |
1,8% |
Religia |
,029 |
6,8% |
Doverieduchovenstva |
,008 |
2,0% |
Istochikinformacii |
,044 |
10,5% |
Znanie o razlichijae |
,024 |
5,7% |
Utvergdenie o postupkach |
,009 |
2,2% |
Predotvratitbeznravstvennost |
,030 |
7,2% |
Vvedenieizuchenijkursareligiovedtnij |
,031 |
7,4% |
Tainstvoeprichastie |
,017 |
4,1% |
Posecheniebogoslugenija |
,011 |
2,5% |
Palomnicheskijapoezdki |
,008 |
1,9% |
Disciplina o religioznichdoktrinach v VUSe |
,418 |
100,0% |
Stepenireligioznosti |
,043 |
10,4% |
Religioznietradicii |
,014 |
3,3% |
Posescheniereligioznieslugbie |
,039 |
9,3% |
Religioznieprazdniki |
,034 |
8,2% |
Vlijnienaprofessii(uchubu) |
,077 |
18,3% |
Vlijniereligiinapovedenie |
,102 |
24,4% |
Zapovedivagnie |
,029 |
7,0% |
Chastowieprichachschaetes |
,021 |
5,0% |
Рисунок 1. Важность независимых переменных
Подводя итоги можно сказать, что данная программа позволяет установить закономерности в ряде вопросов для анкетирования. Полученные ошибки перекрестной энтропии говорят о том, что было исследовано недостаточное количество испытуемых (нужно больше), и что ряд вопросов для исследования данной тематики не представляет особой важности.
Таким образом, цель нашего исследования была достигнута. Было проведено демонстративное доказательство значимости процесса и программы Data Mining.
Подводя итоги, можно сказать, что технология Data Mining состоят из элементов способных решить наибольшее количество различных задач. Ввиду того, что Data Mining развивалась и развивается на стыке таких дисциплин, как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин.
В основу современной технологии Data Mining положена концепция шаблонов, отражающих закономерности, свойственные подвыборкам данных. Поиск шаблонов производится методами, не использующими никаких априорных предположений об этих под выборках. Важной особенностью Data Mining является нестандартность и неочевидность разыскиваемых шаблонов. Иными словами, средства Data Mining отличаются от инструментов статистической обработки данных и средств OLAP тем, что вместо проверки заранее предполагаемых пользователями взаимозависимостей они на основании имеющихся данных способны находить такие взаимозависимости самостоятельно и строить гипотезы об их характере.
Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Люди осознали, что с помощью методов Data Mining они могут получить нужные знания, благодаря этому методу можно выявить шаблоны при постановке диагноза, описывающих собрание различных симптомов для конкретных заболеваний.