Хранилища данных и базы данных: особенности организации данных
Конференция: LXXXVI Студенческая международная научно-практическая конференция «Молодежный научный форум»
Секция: Технические науки
лауреатов
участников
лауреатов
участников
LXXXVI Студенческая международная научно-практическая конференция «Молодежный научный форум»
Хранилища данных и базы данных: особенности организации данных
В настоящее время организации обеспечивают хранение и обработку большого количества данных, которое постоянно увеличивается в несколько раз. Использование этих данных в качестве ресурса для организации и для поддержки принятия решений привела к постоянному совершенствованию их способов хранения.
Организация больших объемов данных превратилась из файлов в базу данных, а затем в хранилища данных.
Основным критерием организации данных в хранилищах данных является предмет (область деятельности), а основным критерием для баз данных является приложение. Принцип хранилища данных представляет собой логический архитектурный подход к извлечению оперативных данных и преобразованию их в точную историческую информацию для поддержки процесса принятия решений.
Особенности двух способов организации данных можно выявить из определений этих понятий. База данных представляет собой ориентированный на приложения набор данных, который организован, структурирован, согласован, с минимальной и контролируемой избыточностью, к которым в свое время могут обращаться несколько пользователей.
Хранилище данных - это предметно-ориентированный набор данных, который является интегрированным, зависящим от времени, энергонезависимым, который может использоваться для поддержки процесса принятия решений.
Организация данных в хранилищах данных основана на областях, представляющих интерес, по основным предметам организации: клиентам, продуктам, видам деятельности и т. д. Базы данных организуют данные на основе корпоративных приложений, полученных в результате выполнения своих функций. Главная цель хранилища данных - поддерживать систему принятия решений, ориентируясь на субъекты организации. Все элементы данных, относящиеся к одному и тому же предмету или событию в реальном мире, связаны и данные ориентации для обработки - очевидны в содержимом базы данных.
Хранилище данных включает только информацию, которая должна использоваться при обработке информации и анализа, тогда как операционная база данных включает в себя подробные данные, необходимые для целей обработки, но не имеющие отношения к управлению или анализу.
Значение оперативных данных в базах данных периодически обновляется. Регулярная загрузка данных из оперативных баз данных делает данные в хранилищах данных временным вариантом.
Данные в хранилищах данных точно отображают статус в разные моменты, тем самым обеспечивая исторический взгляд на дату. Это делает хранилища данных отличными от операционных баз данных, где данные должны показывать статус во время доступа. В базах данных данные обновляются с каждой новой транзакцией, а прежние значения обычно теряются. В оперативных базах данных хранятся исторические данные, и это происходит лишь в течение коротких периодов времени, поскольку их целью является сохранение текущих данных.
В отличие от этих систем хранилища данных не обновляются, но данные периодически загружаются для отображения истории данных.
Это позволяет выявлять тенденции, а также сравнивать между различными периодами времени. Временной горизонт хранилищ данных значительно больше по сравнению с базами операционных данных, предоставляя информацию с исторической точки зрения (5-10 лет).
Поэтому любая структура хранилища данных включает в себя явно или неявно элемент времени для идентификации определенной функции в определенное время, что не является обязательным условием для баз данных.
Данные в хранилищах данных являются статическими, а не динамическими, как в случае с операционными системами. Поскольку хранилища данных показывают оперативные данные в определенное время, данные не будут обновляться после загрузки в хранилищах данных. В результате идентичный запрос, сделанный после одного года на основе одних и тех же ссылочных данных, даст тот же результат.
В операционных базах данных информация нестабильна, так как запросы сосредотачиваются на текущих данных. Данные постоянно обновляются, в большинстве случаев, на основе транзакций. Любая обрабатываемая транзакция включает в себя обновление: добавление новых записей, изменение или удаление существующих других.
Таким образом, несмотря на то, что операционные базы данных и хранилища данных в основном базируются на одной и той же технологической поддержке (сбор данных, обе функции основаны на ключах, индексах и представлениях), разделение двух систем обеспечивает масштабируемость решений бизнес-аналитики, а также их способность быстро и эффективно отвечать на запросы в компании. Хранилища данных позволяют проводить многосторонний анализ, поскольку структуры коллекций данных более просты - сохраняется только нужная информация и существует меньше объединений между наборами данных.