Статья:

Data Mining и его применение

Конференция: XLIV Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»

Секция: Физико-математические науки

Выходные данные
Коротаева Т.Н., Купчинская И.Н. Data Mining и его применение // Молодежный научный форум: Технические и математические науки: электр. сб. ст. по мат. XLIV междунар. студ. науч.-практ. конф. № 4(44). URL: https://nauchforum.ru/archive/MNF_tech/4(44).pdf (дата обращения: 25.09.2018)
Лауреаты определены. Конференция завершена
Эта статья набрала 381 голос
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

Data Mining и его применение

Коротаева Татьяна Николаевна
студент, Курский государственный медицинский университет, РФ, г.Курск
Купчинская Ирина Николаевна
студент, Курский государственный медицинский университет, РФ, г.Курск
Горюшкин Евгений Игоревич
научный руководитель, канд. пед. наук, доц., Курский государственный медицинский университет, РФ, г.Курск
Микрюкова Екатерина Юрьевна
научный руководитель, канд. пед. наук, старший преподаватель, Курский государственный медицинский университет, РФ, г. Курск

 

Более двухсот лет назад английский банкир, предприниматель и финансист Натан Ротшильд утверждал: «Кто владеет информацией, тот владеет миром». Но, последние десятилетие показали, насколько это спорное выражение. Ведь сейчас накопилось огромное количество информации, но понятие ее истинного смысла, овладение ею человек не всегда подвластно. Старые методы обработки информации, используемые математиками и статистиками, отнимали много времени, чтобы в результате получить конструктивную и полезную информацию.

В 1989 году Григорием Пятецким-Шапиро был предложен термин «Data Mining». Основой данного метода послужили попытки ответить на вопрос: возможно ли автоматически находить установленные закономерности, чтобы ускорить некоторые запросы к гигантским базам данных?

Зачастую под понятием Data Mining подразумевают технологию выявления скрытых взаимосвязей внутри больших баз данных; с другой стороны, есть мнение, что это процесс, при помощи которого из старых данных можно извлечь нечто новое, или же – это процесс отбора данных из скрытой и косвенной информации и представления ее в виде, подходящим для использования. В совокупности, все эти определения верно обозначают смысл Data Mining.

Этот метод нашел широкое применение в таких областях науки, как: экономика, маркетинг, технический анализ, биология, прикладная химия, астрономия, фармация, медицина. Практически любая информация может быть предметом Data Mining.

Для наглядной демонстрации цели нашего исследования мы применили процесс Data Mining для обработки данных анкетирования. Мы обработали более 50 анкет, заполненных студентами КГМУ, об отношении современной молодежи к религии и нравственности. Далее, используя программу Data Mining, выявили закономерность, которая установилась в результате ответов на значимые вопросы анкеты. Данные, полученные в результате нашего исследования, представлены в таблице 1, таблице 2 и таблице 3.

Таблица 1.

Сводка обработки наблюдений

Сводка обработки наблюдений

 

N

Процент

Выборка

Обучающая

277

70,3%

Контрольная

117

29,7%

Валидные

394

100,0%

Исключенные

5

 

Всего

399

 

 

Таблица 2.

Информация о сети

Информация о сети

Входной слой

Факторы

1

Pol

2

Vozrast

3

Religia

4

Doverieduchovenstva

5

Istochikinformacii

6

Znanie o razlichijae

7

Utvergdenie o postupkach

8

Predotvratitbeznravstvennost

9

Vvedenieizuchenijkursareligiovedtnij

 

10

Tainstvoeprichastie

11

Posecheniebogoslugenija

12

Palomnicheskijapoezdki

13

Disciplina o religioznichdoktrinach v VUSe

Ковариаты

1

Stepenireligioznosti

2

Religioznietradicii

3

Posescheniereligioznieslugbie

4

Religioznieprazdniki

5

Vlijnienaprofessii(uchubu)

6

Vlijniereligiinapovedenie

7

Zapovedivagnie

 

Таблица 3.

Информация о сети

Информация о сети

Входной слой

Ковариаты

8

Chastowieprichachschaetes

Количество нейронов

52

Метод изменения масштаба для ковариат

Стандартизировано

Скрытые слои

Количество скрытых слоев

1

 

Количество нейронов в скрытом слое 1

5

Функция активации

Сигмоид

Выходной слой

Зависимые переменные

1

Sekciiporeligioznosti

Количество нейронов

1

Метод изменения масштаба для количественных зависимых переменных

Нормализовано

Функция активации

Сигмоид

Функция ошибки

Сумма квадратов

 

a. Исключен нейрон смещения

 

При задаче программе действия «Создать», на основе введенных данных получили Data Mining. Сводка для её моделирования представлены на в таблице 4 соответственно.

Таблица 4.

Сводка для модели

Сводка для модели

Обучающая

Ошибка суммы квадратов

,697

Относительная ошибка

,029

Использованное правило остановки

Количество последовательных шагов без уменьшения ошибки: 1a

Время обучения

0:00:00,05

Контрольная

Ошибка суммы квадратов

1,587

Относительная ошибка

,175

Зависимая переменная: Sekciiporeligioznosti

a. При вычислении ошибок используется контрольная выборка.

 

Эта программа позволяет рассчитать важность переменных и составлять диаграммы по полученным результатам. Полученные данные представлены в таблице 5 и на рисунке 1.

Таблица 5.

Важность независимых переменных

Важность независимых переменных

 

Важность

Нормализованная важность

Pol

,006

1,4%

Vozrast

,007

1,8%

Religia

,029

6,8%

Doverieduchovenstva

,008

2,0%

Istochikinformacii

,044

10,5%

Znanie o razlichijae

,024

5,7%

Utvergdenie o postupkach

,009

2,2%

Predotvratitbeznravstvennost

,030

7,2%

Vvedenieizuchenijkursareligiovedtnij

,031

7,4%

Tainstvoeprichastie

,017

4,1%

Posecheniebogoslugenija

,011

2,5%

Palomnicheskijapoezdki

,008

1,9%

Disciplina o religioznichdoktrinach v VUSe

,418

100,0%

Stepenireligioznosti

,043

10,4%

Religioznietradicii

,014

3,3%

Posescheniereligioznieslugbie

,039

9,3%

Religioznieprazdniki

,034

8,2%

Vlijnienaprofessii(uchubu)

,077

18,3%

Vlijniereligiinapovedenie

,102

24,4%

Zapovedivagnie

,029

7,0%

Chastowieprichachschaetes

,021

5,0%

 

Рисунок 1. Важность независимых переменных

 

Подводя итоги можно сказать, что данная программа позволяет установить закономерности в ряде вопросов для анкетирования. Полученные ошибки перекрестной энтропии говорят о том, что было исследовано недостаточное количество испытуемых (нужно больше), и что ряд вопросов для исследования данной тематики не представляет особой важности.

Таким образом, цель нашего исследования была достигнута. Было проведено демонстративное доказательство значимости процесса и программы Data Mining.

Подводя итоги, можно сказать, что технология Data Mining состоят из элементов способных решить наибольшее количество различных задач. Ввиду того, что Data Mining развивалась и развивается на стыке таких дисциплин, как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин.

В основу современной технологии Data Mining положена концепция шаблонов, отражающих закономерности, свойственные подвыборкам данных. Поиск шаблонов производится методами, не использующими никаких априорных предположений об этих под выборках. Важной особенностью Data Mining является нестандартность и неочевидность разыскиваемых шаблонов. Иными словами, средства Data Mining отличаются от инструментов статистической обработки данных и средств OLAP тем, что вместо проверки заранее предполагаемых пользователями взаимозависимостей они на основании имеющихся данных способны находить такие взаимозависимости самостоятельно и строить гипотезы об их характере.

Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Люди осознали, что с помощью методов Data Mining они могут получить нужные знания, благодаря этому методу можно выявить шаблоны при постановке диагноза, описывающих собрание различных симптомов для конкретных заболеваний.

 

Список литературы:
1. DataMining – технология добычи данных – [Электронный ресурс] – Режим доступа:http: //bourabai.ru/tpoi/datamining.htm (дата обращения 17. 03.2017).
2. DataMining – интеллектуальный анализ данных – [Электронный ресурс] – Режим доступа: http://www.olap.ru/basic/dm2.asp (дата обращения: 19.03.2017).
3. Datamining – об интеллектуальном анализе данных – [Электронный ресурс] – Режим доступа: http://www.tadviser.ru/index.php (дата обращения 19.03.2017).