Статья:

Использование data mining для обработки исторических данных

Конференция: XXVIII Международная научно-практическая конференция «Научный форум: инновационная наука»

Секция: Технические науки

Выходные данные
Свиридова Л.Е., Жуковская А.Н., Плотников Д.В. Использование data mining для обработки исторических данных // Научный форум: Инновационная наука: сб. ст. по материалам XXVIII междунар. науч.-практ. конф. — № 10(28). — М., Изд. «МЦНО», 2019. — С. 13-16.
Конференция завершена
Мне нравится
на печатьскачать .pdfподелиться

Использование data mining для обработки исторических данных

Свиридова Лидия Евгеньевна
аспирант, Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева, РФ, г. Красноярск
Жуковская Ангелина Николаевна
аспирант, Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева, РФ, г. Красноярск
Плотников Дмитрий Вячеславович
аспирант, Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева, РФ, г. Красноярск

 

DATA MINING FOR PROCESSING HISTORICAL DATA

 

Lidia Sviridova

Postgraduate, Reshetnev Siberian State University of Science and Technology, Russia, Krasnoyarsk

Angelina Zhukovskaya

Postgraduate,  Reshetnev Siberian State University of Science and Technology, Russia, Krasnoyarsk

Dmitrii Plotnikov

Postgraduate, Reshetnev Siberian State University of Science and Technology, Russia, Krasnoyarsk

 

Аннотация. Применение data mining очень обширно и может быть использовано практически где угодно, где требуется машинный анализ текста. В последнее время специалисты в области цифровой гуманитарнистики генерируют хранилища исторической информации, которые включают в себя помимо полных текстов, ещё и аудио-, видео-, фото, 3D модели и многое другое. Все эти объекты представляют собой ценность в качестве исторического источника, однако данные, нуждающиеся в машинной обработке, следует предварительно подготовить и снабдить атрибутами. Можно сказать, что существует необходимость работы с «сырыми» исходными данными при анализе исторических исследований.

Abstract. The use of data mining is very extensive and can be used almost anywhere where text analysis is required. Recently, experts in the field of digital humanities are generating repositories of historical information that include, in addition to the full texts, audio, video, photos, 3D models and much more. All of these objects represent a value as a historical source, however, data that needs to be machined should be preliminarily prepared and supplied with attributes. It can be said that there is a need to work with raw data when analyzing historical research.

 

Ключевые слова: data mining; статистика; анализ данных; data analysis; базы данных; искусственный интеллект; история; гуманитарная информатика.

Keywords: statistics; databases; artificial intelligence; history; digital humanities.

 

Data mining (интеллектуальный анализ данных) – исследование данных, использующее методы искусственного интеллекта и ориентированное на придание системе свойств искусственного интеллекта.

Применение средств искусственного интеллекта для изучения информации, а также стремление придать системе свойства интеллектуальных систем называется интеллектуальным анализом данных, другими словами data mining [1, с. 8].

Базовые задачи, используемые в data mining:

  • выявление отклонений – поиск информации, выделяющейся из основного массива данных;
  • ассоциация - распознавание соотношений среди данных;
  • кластерный анализ – группировка похожих событий;
  • классификация – это соотнесение событий к известным шаблонам;
  • регрессия – анализ функции, показывающей группу данных с минимальным выбросом;
  • подведение итогов – преобразование первоначальной информации в переработанном виде, а также вывод отчетов [2, с. 69].

Применение интеллектуального анализа данных возможно во многих сферах, где требуется анализ больших массивов информации.

Как правило, когда речь заходит о компьютерном анализе исторических данных, то под этим понимается анализ текстов.

Это является заблуждением, так как сам текст не может являться предметом, автоматически обрабатывая который можно достать «скрытые знания».

В последнее время специалисты в области цифровой гуманитарнистики генерируют хранилища исторической информации, которые включают в себя помимо полных текстов, ещё и аудио-, видео-, фото, 3D модели и многое другое.

Все эти объекты представляют собой ценность в качестве исторического источника, однако данные, нуждающиеся в машинной обработке, следует предварительно подготовить и снабдить атрибутами.

Можно сказать, что существует необходимость работы с «сырыми» исходными данными при анализе исторических исследований.

Применительно к базам исторических данных можно составить практичный способ.

Генерируется выборка из оцифрованных текстов архивных документов, которые содержат данные о событиях и явлениях изучаемого промежутка времени.

Для обработки данных проводится автоматизированный семантический анализ текстов, а также выделяются в них имена собственные: названия и т.п.

Необходимо также ввести «меру близости» - функцию расстояния между двумя событиями.

Составим такую комплексную функцию, которая учитывает все параметры. Например, если в событии принимают участие одни и те же действующие лица, или они происходят в одном и том же географическом месте, то такие события считаются более «близкими».

Для достижения более точного результата мы можем использовать принцип взвешенного голосования: для каждой из метрик использовать коэффициент, на который умножается значение при исчислении «расстоянии» между событиями.

Подбирая этот коэффициент, можно творчески регулировать «разделяет силу» параметра, то есть решать, исходя из представлений исследователя, насколько сильно то или иное изменение в значении параметра будет влиять на итоговый результат - отнесение объекта к тому или иному классу [3].

Интеллектуальный анализ данных скрывает в себе огромные возможности для обработки исторических данных.

Имеющийся мировой опыт использования алгоритмов data mining к решению важных задач может расширять имеющийся инструментарий, а также применяться в решении проблем социальных и гуманитарных наук, в том числе исторической науки.

 

Список литературы:
1. Мусаев, А.А. Интеллектуальный анализ данных: учебное пособие. СПб.: СПбГТИ(ТУ), 2018. – 56 с.
2. Анализ данных и процессов: учеб. Пособие / Барсегян А. А., Куприянов М. С., Холод И. И., Тесс М. Д., Елизаров С. И.- СПб.: БХВ-Петербург, 2009. -512 с. 
3. Боровский А.А. Перспективы применения технологий машинного обучения к обработке больших массивов исторических данных // Кибернетика и программирование. - 2015. - № 1. - С.77-114.