Основные принципы больших данных: Volume, Velocity, Variety
Секция: Технические науки
XIX Студенческая международная научно-практическая конференция «Технические и математические науки. Студенческий научный форум»
Основные принципы больших данных: Volume, Velocity, Variety
Большие данные - это термин, используемый для обозначения наборов данных, которые являются слишком большими или сложными для традиционного прикладного программного обеспечения, обработки данных, манипулирования данными. Данные с большим количеством случаев (строк) предоставляют большую статистическую мощность, в то время как данные с более высокой сложностью (больше атрибутов или столбцов) могут привести к более высокой частоте ложных обнаружений. Проблемы с большими данными включают сбор данных, хранение данных, анализ данных, поиск, совместное использование, передачу, визуализацию, запросы, обновление, конфиденциальность информации и источник данных. Большие данные изначально были связаны с тремя ключевыми понятиями: объем, разнообразие и скорость. Другими понятиями, позже связанными с большими данными, являются достоверность (то есть, сколько шума в данных) и ценность.
Каждый бизнес, большой или маленький, управляет значительным объемом данных, генерируемых с помощью различных точек данных и бизнес-процессов. Время от времени предприятия могут обрабатывать эти данные, используя таблицы Excel, доступ к базам данных или другие подобные инструменты. Тем не менее, когда данные не могут вписаться в такие инструменты, и количество случаев человеческих ошибок превышает допустимые пределы из-за интенсивной ручной обработки, настало время подумать о больших данных и аналитике.
Большие данные могут быть определены с помощью знаменитых 3 V (Volume, Velocity, Variety) - объем, скорость и разнообразие.
Например, в пространстве социальных сетей объем относится к объему данных, генерируемых через веб-сайты, порталы и онлайн-приложения. Специально для компаний B2C, объем охватывает имеющиеся данные, которые необходимо оценить на предмет актуальности. Примите во внимание следующее: Facebook имеет 2 миллиарда пользователей, Youtube - 1 миллиард пользователей, Twitter - 350 миллионов пользователей и Instagram - 700 миллионов пользователей. Каждый день эти пользователи предоставляют миллиарды изображений, постов, видео, твитов и т. д. Теперь вы можете представить себе невероятно большой объем данных, или объем данных, которые генерируются каждую минуту и каждый час: скорость, то есть как быстро генерируются данные.
Под Velocity мы понимаем скорость, с которой генерируются данные. Следуя нашему примеру с социальными сетями, каждый день 900 миллионов фотографий загружаются в Facebook, 500 миллионов твитов публикуются в Twitter, 0,4 миллиона часов видео загружаются на Youtube и 3,5 миллиарда поисковых запросов выполняются в Google. Это похоже на взрыв ядерных данных. Большие данные помогают компании выдержать этот взрыв, принять входящий поток данных и в то же время быстро обработать его, чтобы не создавать узких мест.
Разнообразие больших данных относится ко всем структурированным и неструктурированным данным, которые могут генерироваться людьми или машинами. Наиболее часто добавляемые данные - это структурированные тексты, твиты, изображения и видео. Однако неструктурированные данные, такие как электронные письма, голосовые сообщения, рукописный текст, чтение ЭКГ, аудиозаписи и т. Д., Также являются важными элементами в разделе «Разнообразие». Разнообразие - это способность классифицировать входящие данные по различным категориям.
Это был пример классических принципов больших данных. Но в некоторых источниках появляется информация о четвертом принципе: правдивость.
Еще более важным является четвертый V, правдивость. Насколько точны эти данные в прогнозировании ценности бизнеса? Имеют ли смысл результаты анализа больших данных? Данные должны быть в состоянии быть проверенными на основе как точности, так и контекста. Инновационный бизнес может захотеть иметь возможность анализировать огромные объемы данных в режиме реального времени, чтобы быстро оценить ценность этого клиента и потенциал для предоставления дополнительных предложений этому клиенту. Необходимо определить правильное количество и типы данных, которые можно анализировать в режиме реального времени, чтобы повлиять на результаты бизнеса.