Статья:

ИССЛЕДОВАНИЕ МЕХАНИЗМОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ (DATA MINING) ДЛЯ РЕШЕНИЯ ЗАДАЧ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ОБРАЗОВАТЕЛЬНОГО ПРОЦЕССА

Конференция: I Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»

Секция: 3. Информационные технологии

Выходные данные
Петрова Т.В. ИССЛЕДОВАНИЕ МЕХАНИЗМОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ (DATA MINING) ДЛЯ РЕШЕНИЯ ЗАДАЧ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ОБРАЗОВАТЕЛЬНОГО ПРОЦЕССА // Молодежный научный форум: Технические и математические науки: электр. сб. ст. по мат. I междунар. студ. науч.-практ. конф. № 1(1). URL: https://nauchforum.ru/archive/MNF_social/1.pdf (дата обращения: 22.11.2024)
Лауреаты определены. Конференция завершена
Эта статья набрала 3 голоса
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

ИССЛЕДОВАНИЕ МЕХАНИЗМОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ (DATA MINING) ДЛЯ РЕШЕНИЯ ЗАДАЧ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ОБРАЗОВАТЕЛЬНОГО ПРОЦЕССА

Петрова Татьяна Вадимовна
студент Санкт-Петербургского государственного политехнического университета, г. Санкт-Петербург
Сабинин Олег Юрьевич
научный руководитель, научный руководитель, доцент Санкт-Петербургского государственного политехнического университета, г. Санкт-Петербург

В настоящее время информационные технологии широко используются во всех областях жизни человека. Система образования не стала исключением. Годами накапливалось множество информации о студентах, их успеваемости, преподавателях, создавались дистанционные курсы обучения студентов, образовательные форумы, системы тестирования студентов, продолжать можно бесконечно. Таким образом, накопилась масса информации. И в настоящее время крайне актуальным стал вопрос обработки этой информации, возможности извлечения новых знаний из уже представленных в базах данных, хранилищах и т. д.

Существует множество задач, в которых методы статистики, машинного обучения и извлечения знаний (data mining) очень полезны как для учащихся, так и для преподавателя и для людей, ответственных за весь образовательный процесс в целом. Анализ данных позволяет лучше понять студентов, узнать какие предметы вызывают большие затруднения, как лучше построить курс, чтобы получить максимально высокие баллы, с какими тестами студенты справляются, какую форму занятий предпочитают, в какой области научных интересов преуспевают и т. д. Эти данные могут быть использованы для принятия эффективных решения по управлению образовательным процессом.

Интеллектуальный анализ данных образовательного процесса (EDM — Educational data mining) как раз занимается обработкой и анализом данных из образовательного процесса. Это область науки, связанная с разработкой методов для изучения уникальных типов данных, поступающих из образовательной сферы и использование этих методов для лучшего понимания студентов и условий в которых они учатся. Основные направления в данной области — использование анализа данных для поддержки интеллектуальных систем обучения (Intelligence Tutoring Systems), анализ образовательных процессов, визуализация данных и паттернов образовательного процесса [1].

Целью данной работы является исследование механизмов интеллектуального анализа данных (data mining) для решения задач извлечения знаний образовательного процесса.

Для достижения поставленной цели необходимо решить следующие задачи:

  • провести исследование основных методов EDM;
  • рассмотреть области применения EDM;
  • провести обзор инструментов для анализа данных.
  • рассмотреть задачи образовательного процесса, решение которых может быть найдено с использование интеллектуального анализа данных;

На первом этапе были рассмотрены основные методы интеллектуального анализа данных образовательного процесса. Краткое описание представлено в таблице 1 [2].

Таблица 1.

Основные методы интеллектуального анализа данных образовательного процесса

Метод

Описание метода

Предсказание (Prediction)

(различают три типа предсказания — классификация, регрессия и оценка плотности)

Разработка модели, в которой вывод одиночного аспекта данных (предсказываемой переменной) осуществляется на основе комбинации других аспектов (переменных-предсказателей).

 

Пример: кто из студентов не справится с итоговым экзаменом (предсказываемая переменная — провал/сдача итогового экзамена, переменные предсказатели — текущие оценки, активность в течении семестра, выполненные домашние работы и т. д.)

Кластеризация

(Clustering)

Нахождение точек, которые естественным образом соединены вместе, разделение данных на кластеры.

Применяется когда ничего не известно о структуре данных.

Пример: объединение студентов в группы, согласно их успеваемости по отдельным предметам

Анализ взаимоотношений (Relationship Mining)

Изучение отношений между переменными в наборе из многих переменных

Исследование с помощью моделей (Discovery with Models)

Изучение предварительно составленных моделей (разработанных с помощью EDM методов прогнозирования, кластеризации, инженерии знаний)

Применение моделей к данным и их использование как компонент другого анализа

Преобразование данных к виду, понятному человеку (Distillation of Data For Human Judgment)

Преобразование сложных данных к виду, понятному для человека, для использования данных в человеческих суждениях

 

 

Первые три подхода — общие для data mining в различных областях, однако четвертый и пятый подходы относятся именно к анализу данных в образовательных доменах.

Одной из отличительных особенностей интеллектуального анализа данных образовательного процесса является то, что кроме методов data mining и машинного обучения здесь также применяются психометрические методы для более точного описания характеристик среды (поведения студентов, обоснования выбора студентами тех или иных предметов и т. д.). Кроме того, данные из образовательного процесса имеют несколько уровней значимости, которые определяются самими данными, и не заранее (например, уровень студента, уровень преподавателя, уровень университета или образовательной системы в целом).

В работе были рассмотрены основные области применения интеллектуального анализа данных образовательного домена, а также задачи, решение которых уже было найдено, или по которым ведутся исследования. К данным областям относится [3]:

  • построение моделей;
  • исследование и улучшение моделей структуры домена;
  • изучение педагогической поддержки, оказываемой программным обеспечением;
  • Научное исследование процесса обучения и поведения учащихся.

Учитывая области применения, описанные выше, а также предшествующий опыт в исследованиях, было выявлено несколько задач, актуальных для университетов России, которые возможно решить при помощи интеллектуального анализа данных:

  • выбор студентов для участия в международных олимпиадах и конкурсах;
  • предоставление работодателям информации о наиболее подходящих для запрашиваемых должностей студентах-выпускниках;
  • исследование наиболее частых ошибок при построении студентами SQL запросов, перестроение лекций, основываясь на полученной информации;
  • оценка вероятности трудоустройства студента по специальности, выявление степени влияния наличия сертификатов и побед в соревнованиях на трудоустройство.

Данные, необходимые для решения поставленных проблем могут быть взяты из баз данных университетов, в которых хранится информация о студентах, преподавателях, успеваемости и т. д. Чаще всего в таких базах представлена следующая информация:

  • данные о студентах (имя, дата рождения, национальность, адрес, документы и т. д.);
  • успеваемость (оценки студентов);
  • расписание;
  • данные о преподавателях (имя, дата рождения, должность, уровень образования и т. д.)

В работе были рассмотрены различные инструменты интеллектуального анализа данных образовательного домена, такие как

  • PSLC DataShop — хранилище Питтсбургского научного учебного центра (PSLC) является центральным репозиторием данных о взаимодействии студентов и образовательного программного обеспечения, а также предоставляет набор инструментов для анализа данных, безопасное хранение информации и средства визуализации посредствам веб интерфейса;
  • Microsoft Excel — имеет большое число статистических функций, часть из которых является встроенной, часть доступна после установки дополнительного пакета анализа; предоставляет инструменты для разведочного анализа данных и для построения простейших моделей;
  • Weka — набор алгоритмов машинного обучения для задач извлечения данных, предоставляет инструменты для предобработки данных, классификации, регрессии, кластеризации, ассоциативных правил и визуализации;
  • RapidMiner — свободно распространяемая система, предоставляет следующие процедуры машинного обучения и анализа данных: загрузка и трансформация данных, предобработка данных и визуализация, моделирование и оценка;
  • Oracle Data Mining — система интеллектуального анализа данных, встроенная в базу данных Oracle. Алгоритмы ODM оперируют с данными непосредственно из реляционных таблиц и представлений, поддерживает предсказательные и описательные методы анализа данных.

Описанные инструменты могут быть использованы для решения задач образовательного процесса с использование интеллектуального анализа данных. Для университетов, использующих СУБД Oracle, наиболее оправданным является использование Oracle Data Mining, для небольших образовательных учреждений среднего профессионального образования, наименее затратным будет использование возможностей Microsoft Excel, поскольку пакет Microsoft Office установлен практически во всех учреждениях, а также RapidMiner, поскольку данное программное обеспечение является свободным.

Таким образом, анализ данных предоставляет мощный инструментарий для извлечения информации и ее трансформации в форму, необходимую для последующего использования. Использование таких методов в образовательном процессе может решить множества проблем, таких как понимание студентов, улучшение качества лекций, уменьшение затрат на организацию процесса обучения.

Анализ данных в образовательной сфере довольно новая и актуальная область науки, поэтому существует множество нерешенных задач для анализа и исследования. В работе было показано, что благодаря большому объему данных в образовательном процессе (базы данных студентов с информацией об успеваемости, предыдущих этапах обучения, программой курсов, дистанционные системы обучения и т. д.), существует множество проблем и решений в данной области; было рассмотрено существующее программное обеспечение, для решения задач образовательного процесса при помощи интеллектуального анализа данных, а также задачи, которые можно решить, используя данное программное обеспечение.

 

Список литературы:

  1. Интервью с Миколой Печенижским — соорганизатором конференции Educational Data Mining 2011 — [Электронный ресурс] — Режим доступа. URL: http://www.hse.ru/data/2012/01/27/1264446084/Mykola_for_HSE.pdf (дата обращения 15.11.2012).
  2. Baker R.S.J.d., Data Mining for Education, Carnegie Mellon University, Pittsburgh, Pennsylvania, USA.
  3. Baker R.S.J.d., Yacef K., The State of Educational Data Mining in 2009: A Review and Future Visions.
  4. Oracle Data Mining Concepts — [Электронный ресурс] — Режим доступа. URL: http://docs.oracle.com/cd/B19306_01/datamine.102/b14339/2data.htm (дата обращения 11.12.2012).
  5. PSLC DataShop — [Электронный ресурс] — Режим доступа. URL: https://pslcdatashop.web.cmu.edu/ (дата обращения 02.12.2012).
  6. RapidMiner — [Электронный ресурс] — Режим доступа URL: http://rapid-i.com/content/view/181/190/ (дата обращения 03.12.2012).
  7. RapidMiner — [Электронный ресурс] — Режим доступа URL: http://en.wikipedia.org/wiki/RapidMiner (дата обращения 10.12.2012).
  8. Weka 3: Data Mining Software in Java — [Электронный ресурс] — Режим доступа URL: http://www.cs.waikato.ac.nz/ml/weka/ (дата обращения 11.12.2012).