Использование data mining для обработки исторических данных
Конференция: XXVIII Международная научно-практическая конференция «Научный форум: инновационная наука»
Секция: Технические науки
XXVIII Международная научно-практическая конференция «Научный форум: инновационная наука»
Использование data mining для обработки исторических данных
DATA MINING FOR PROCESSING HISTORICAL DATA
Lidia Sviridova
Postgraduate, Reshetnev Siberian State University of Science and Technology, Russia, Krasnoyarsk
Angelina Zhukovskaya
Postgraduate, Reshetnev Siberian State University of Science and Technology, Russia, Krasnoyarsk
Dmitrii Plotnikov
Postgraduate, Reshetnev Siberian State University of Science and Technology, Russia, Krasnoyarsk
Аннотация. Применение data mining очень обширно и может быть использовано практически где угодно, где требуется машинный анализ текста. В последнее время специалисты в области цифровой гуманитарнистики генерируют хранилища исторической информации, которые включают в себя помимо полных текстов, ещё и аудио-, видео-, фото, 3D модели и многое другое. Все эти объекты представляют собой ценность в качестве исторического источника, однако данные, нуждающиеся в машинной обработке, следует предварительно подготовить и снабдить атрибутами. Можно сказать, что существует необходимость работы с «сырыми» исходными данными при анализе исторических исследований.
Abstract. The use of data mining is very extensive and can be used almost anywhere where text analysis is required. Recently, experts in the field of digital humanities are generating repositories of historical information that include, in addition to the full texts, audio, video, photos, 3D models and much more. All of these objects represent a value as a historical source, however, data that needs to be machined should be preliminarily prepared and supplied with attributes. It can be said that there is a need to work with raw data when analyzing historical research.
Ключевые слова: data mining; статистика; анализ данных; data analysis; базы данных; искусственный интеллект; история; гуманитарная информатика.
Keywords: statistics; databases; artificial intelligence; history; digital humanities.
Data mining (интеллектуальный анализ данных) – исследование данных, использующее методы искусственного интеллекта и ориентированное на придание системе свойств искусственного интеллекта.
Применение средств искусственного интеллекта для изучения информации, а также стремление придать системе свойства интеллектуальных систем называется интеллектуальным анализом данных, другими словами data mining [1, с. 8].
Базовые задачи, используемые в data mining:
- выявление отклонений – поиск информации, выделяющейся из основного массива данных;
- ассоциация - распознавание соотношений среди данных;
- кластерный анализ – группировка похожих событий;
- классификация – это соотнесение событий к известным шаблонам;
- регрессия – анализ функции, показывающей группу данных с минимальным выбросом;
- подведение итогов – преобразование первоначальной информации в переработанном виде, а также вывод отчетов [2, с. 69].
Применение интеллектуального анализа данных возможно во многих сферах, где требуется анализ больших массивов информации.
Как правило, когда речь заходит о компьютерном анализе исторических данных, то под этим понимается анализ текстов.
Это является заблуждением, так как сам текст не может являться предметом, автоматически обрабатывая который можно достать «скрытые знания».
В последнее время специалисты в области цифровой гуманитарнистики генерируют хранилища исторической информации, которые включают в себя помимо полных текстов, ещё и аудио-, видео-, фото, 3D модели и многое другое.
Все эти объекты представляют собой ценность в качестве исторического источника, однако данные, нуждающиеся в машинной обработке, следует предварительно подготовить и снабдить атрибутами.
Можно сказать, что существует необходимость работы с «сырыми» исходными данными при анализе исторических исследований.
Применительно к базам исторических данных можно составить практичный способ.
Генерируется выборка из оцифрованных текстов архивных документов, которые содержат данные о событиях и явлениях изучаемого промежутка времени.
Для обработки данных проводится автоматизированный семантический анализ текстов, а также выделяются в них имена собственные: названия и т.п.
Необходимо также ввести «меру близости» - функцию расстояния между двумя событиями.
Составим такую комплексную функцию, которая учитывает все параметры. Например, если в событии принимают участие одни и те же действующие лица, или они происходят в одном и том же географическом месте, то такие события считаются более «близкими».
Для достижения более точного результата мы можем использовать принцип взвешенного голосования: для каждой из метрик использовать коэффициент, на который умножается значение при исчислении «расстоянии» между событиями.
Подбирая этот коэффициент, можно творчески регулировать «разделяет силу» параметра, то есть решать, исходя из представлений исследователя, насколько сильно то или иное изменение в значении параметра будет влиять на итоговый результат - отнесение объекта к тому или иному классу [3].
Интеллектуальный анализ данных скрывает в себе огромные возможности для обработки исторических данных.
Имеющийся мировой опыт использования алгоритмов data mining к решению важных задач может расширять имеющийся инструментарий, а также применяться в решении проблем социальных и гуманитарных наук, в том числе исторической науки.