Статья:

Data Mining и его применение

Конференция: XLIV Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»

Секция: Физико-математические науки

Выходные данные

Коротаева Т.Н., Купчинская И.Н. Data Mining и его применение // Молодежный научный форум: Технические и математические науки: электр. сб. ст. по мат. XLIV междунар. студ. науч.-практ. конф. № 4(44). URL: https://nauchforum.ru/archive/MNF_tech/4(44).pdf (дата обращения: 29.07.2026)

Скачать сборник

Лауреаты определены. Конференция завершена

Эта статья набрала 464 голоса

Мне нравится

464

Дипломы
лауреатов

Сертификаты
участников

Дипломы
лауреатов

Сертификаты
участников

XLIV Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»

на печатьскачать .pdf поделиться

Data Mining и его применение

Коротаева Татьяна Николаевна

студент, Курский государственный медицинский университет, РФ, г.Курск

Купчинская Ирина Николаевна

студент, Курский государственный медицинский университет, РФ, г.Курск

Горюшкин Евгений Игоревич

научный руководитель, канд. пед. наук, доц., Курский государственный медицинский университет, РФ, г.Курск

Микрюкова Екатерина Юрьевна

научный руководитель, канд. пед. наук, старший преподаватель, Курский государственный медицинский университет, РФ, г. Курск

Более двухсот лет назад английский банкир, предприниматель и финансист Натан Ротшильд утверждал: «Кто владеет информацией, тот владеет миром». Но, последние десятилетие показали, насколько это спорное выражение. Ведь сейчас накопилось огромное количество информации, но понятие ее истинного смысла, овладение ею человек не всегда подвластно. Старые методы обработки информации, используемые математиками и статистиками, отнимали много времени, чтобы в результате получить конструктивную и полезную информацию.

В 1989 году Григорием Пятецким-Шапиро был предложен термин «Data Mining». Основой данного метода послужили попытки ответить на вопрос: возможно ли автоматически находить установленные закономерности, чтобы ускорить некоторые запросы к гигантским базам данных?

Зачастую под понятием Data Mining подразумевают технологию выявления скрытых взаимосвязей внутри больших баз данных; с другой стороны, есть мнение, что это процесс, при помощи которого из старых данных можно извлечь нечто новое, или же – это процесс отбора данных из скрытой и косвенной информации и представления ее в виде, подходящим для использования. В совокупности, все эти определения верно обозначают смысл Data Mining.

Этот метод нашел широкое применение в таких областях науки, как: экономика, маркетинг, технический анализ, биология, прикладная химия, астрономия, фармация, медицина. Практически любая информация может быть предметом Data Mining.

Для наглядной демонстрации цели нашего исследования мы применили процесс Data Mining для обработки данных анкетирования. Мы обработали более 50 анкет, заполненных студентами КГМУ, об отношении современной молодежи к религии и нравственности. Далее, используя программу Data Mining, выявили закономерность, которая установилась в результате ответов на значимые вопросы анкеты. Данные, полученные в результате нашего исследования, представлены в таблице 1, таблице 2 и таблице 3.

Таблица 1.

Сводка обработки наблюдений

Сводка обработки наблюдений
		N	Процент
Выборка	Обучающая	277	70,3%
	Контрольная	117	29,7%
Валидные		394	100,0%
Исключенные		5
Всего		399

Таблица 2.

Информация о сети

Информация о сети
Входной слой	Факторы	1	Pol
		2	Vozrast
		3	Religia
		4	Doverieduchovenstva
		5	Istochikinformacii
		6	Znanie o razlichijae
		7	Utvergdenie o postupkach
		8	Predotvratitbeznravstvennost
		9	Vvedenieizuchenijkursareligiovedtnij
		10	Tainstvoeprichastie
		11	Posecheniebogoslugenija
		12	Palomnicheskijapoezdki
		13	Disciplina o religioznichdoktrinach v VUSe
	Ковариаты	1	Stepenireligioznosti
		2	Religioznietradicii
		3	Posescheniereligioznieslugbie
		4	Religioznieprazdniki
		5	Vlijnienaprofessii(uchubu)
		6	Vlijniereligiinapovedenie
		7	Zapovedivagnie

Таблица 3.

Информация о сети

Информация о сети
Входной слой		Ковариаты	8	Chastowieprichachschaetes
		Количество нейронов		52
		Метод изменения масштаба для ковариат		Стандартизировано
Скрытые слои		Количество скрытых слоев		1
		Количество нейронов в скрытом слое 1		5
		Функция активации		Сигмоид
Выходной слой		Зависимые переменные	1	Sekciiporeligioznosti
		Количество нейронов		1
		Метод изменения масштаба для количественных зависимых переменных		Нормализовано
		Функция активации		Сигмоид
		Функция ошибки		Сумма квадратов
	a. Исключен нейрон смещения

При задаче программе действия «Создать», на основе введенных данных получили Data Mining. Сводка для её моделирования представлены на в таблице 4 соответственно.

Таблица 4.

Сводка для модели

Сводка для модели
Обучающая	Ошибка суммы квадратов	,697
	Относительная ошибка	,029
	Использованное правило остановки	Количество последовательных шагов без уменьшения ошибки: 1^a
	Время обучения	0:00:00,05
Контрольная	Ошибка суммы квадратов	1,587
Контрольная	Относительная ошибка	,175
Зависимая переменная: Sekciiporeligioznosti
a. При вычислении ошибок используется контрольная выборка.

Эта программа позволяет рассчитать важность переменных и составлять диаграммы по полученным результатам. Полученные данные представлены в таблице 5 и на рисунке 1.

Таблица 5.

Важность независимых переменных

Важность независимых переменных
	Важность	Нормализованная важность
Pol	,006	1,4%
Vozrast	,007	1,8%
Religia	,029	6,8%
Doverieduchovenstva	,008	2,0%
Istochikinformacii	,044	10,5%
Znanie o razlichijae	,024	5,7%
Utvergdenie o postupkach	,009	2,2%
Predotvratitbeznravstvennost	,030	7,2%
Vvedenieizuchenijkursareligiovedtnij	,031	7,4%
Tainstvoeprichastie	,017	4,1%
Posecheniebogoslugenija	,011	2,5%
Palomnicheskijapoezdki	,008	1,9%
Disciplina o religioznichdoktrinach v VUSe	,418	100,0%
Stepenireligioznosti	,043	10,4%
Religioznietradicii	,014	3,3%
Posescheniereligioznieslugbie	,039	9,3%
Religioznieprazdniki	,034	8,2%
Vlijnienaprofessii(uchubu)	,077	18,3%
Vlijniereligiinapovedenie	,102	24,4%
Zapovedivagnie	,029	7,0%
Chastowieprichachschaetes	,021	5,0%

Рисунок 1. Важность независимых переменных

Подводя итоги можно сказать, что данная программа позволяет установить закономерности в ряде вопросов для анкетирования. Полученные ошибки перекрестной энтропии говорят о том, что было исследовано недостаточное количество испытуемых (нужно больше), и что ряд вопросов для исследования данной тематики не представляет особой важности.

Таким образом, цель нашего исследования была достигнута. Было проведено демонстративное доказательство значимости процесса и программы Data Mining.

Подводя итоги, можно сказать, что технология Data Mining состоят из элементов способных решить наибольшее количество различных задач. Ввиду того, что Data Mining развивалась и развивается на стыке таких дисциплин, как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин.

В основу современной технологии Data Mining положена концепция шаблонов, отражающих закономерности, свойственные подвыборкам данных. Поиск шаблонов производится методами, не использующими никаких априорных предположений об этих под выборках. Важной особенностью Data Mining является нестандартность и неочевидность разыскиваемых шаблонов. Иными словами, средства Data Mining отличаются от инструментов статистической обработки данных и средств OLAP тем, что вместо проверки заранее предполагаемых пользователями взаимозависимостей они на основании имеющихся данных способны находить такие взаимозависимости самостоятельно и строить гипотезы об их характере.

Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Люди осознали, что с помощью методов Data Mining они могут получить нужные знания, благодаря этому методу можно выявить шаблоны при постановке диагноза, описывающих собрание различных симптомов для конкретных заболеваний.

Список литературы:

1. DataMining – технология добычи данных – [Электронный ресурс] – Режим доступа:http: //bourabai.ru/tpoi/datamining.htm (дата обращения 17. 03.2017).

2. DataMining – интеллектуальный анализ данных – [Электронный ресурс] – Режим доступа: http://www.olap.ru/basic/dm2.asp (дата обращения: 19.03.2017).

3. Datamining – об интеллектуальном анализе данных – [Электронный ресурс] – Режим доступа: http://www.tadviser.ru/index.php (дата обращения 19.03.2017).

Data Mining и его применение

Похожие статьи