Статья:

Основные принципы больших данных: Volume, Velocity, Variety

Конференция: XIX Студенческая международная научно-практическая конференция «Технические и математические науки. Студенческий научный форум»

Секция: Технические науки

Выходные данные
Смирнов В.А., Соломыков А.Д., Волошко М.Ю. Основные принципы больших данных: Volume, Velocity, Variety // Технические и математические науки. Студенческий научный форум: электр. сб. ст. по мат. XIX междунар. студ. науч.-практ. конф. № 8(19). URL: https://nauchforum.ru/archive/SNF_tech/8(19).pdf (дата обращения: 05.11.2024)
Лауреаты определены. Конференция завершена
Эта статья набрала 0 голосов
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

Основные принципы больших данных: Volume, Velocity, Variety

Смирнов Владимир Алексеевич
студент, Кубанский государственный университет, РФ, г. Краснодар
Соломыков Александр Дмитриевич
студент, Кубанский государственный университет, РФ, г. Краснодар
Волошко Марина Юрьевна
студент, Кубанский государственный университет, РФ, г. Краснодар
Куликова Наталья Николаевна
научный руководитель, преподаватель, Кубанский государственный университет, РФ, г. Краснодар

 

Большие данные - это термин, используемый для обозначения наборов данных, которые являются слишком большими или сложными для традиционного прикладного программного обеспечения, обработки данных, манипулирования данными. Данные с большим количеством случаев (строк) предоставляют большую статистическую мощность, в то время как данные с более высокой сложностью (больше атрибутов или столбцов) могут привести к более высокой частоте ложных обнаружений. Проблемы с большими данными включают сбор данных, хранение данных, анализ данных, поиск, совместное использование, передачу, визуализацию, запросы, обновление, конфиденциальность информации и источник данных. Большие данные изначально были связаны с тремя ключевыми понятиями: объем, разнообразие и скорость. Другими понятиями, позже связанными с большими данными, являются достоверность (то есть, сколько шума в данных) и ценность.

Каждый бизнес, большой или маленький, управляет значительным объемом данных, генерируемых с помощью различных точек данных и бизнес-процессов. Время от времени предприятия могут обрабатывать эти данные, используя таблицы Excel, доступ к базам данных или другие подобные инструменты. Тем не менее, когда данные не могут вписаться в такие инструменты, и количество случаев человеческих ошибок превышает допустимые пределы из-за интенсивной ручной обработки, настало время подумать о больших данных и аналитике.

Большие данные могут быть определены с помощью знаменитых 3 V (Volume, Velocity, Variety) - объем, скорость и разнообразие.

Например, в пространстве социальных сетей объем относится к объему данных, генерируемых через веб-сайты, порталы и онлайн-приложения. Специально для компаний B2C, объем охватывает имеющиеся данные, которые необходимо оценить на предмет актуальности. Примите во внимание следующее: Facebook имеет 2 миллиарда пользователей, Youtube - 1 миллиард пользователей, Twitter - 350 миллионов пользователей и Instagram - 700 миллионов пользователей. Каждый день эти пользователи предоставляют миллиарды изображений, постов, видео, твитов и т. д. Теперь вы можете представить себе невероятно большой объем данных, или объем данных, которые генерируются каждую минуту и ​​каждый час: скорость, то есть как быстро  генерируются данные.

Под Velocity мы понимаем скорость, с которой генерируются данные. Следуя нашему примеру с социальными сетями, каждый день 900 миллионов фотографий загружаются в Facebook, 500 миллионов твитов публикуются в Twitter, 0,4 миллиона часов видео загружаются на Youtube и 3,5 миллиарда поисковых запросов выполняются в Google. Это похоже на взрыв ядерных данных. Большие данные помогают компании выдержать этот взрыв, принять входящий поток данных и в то же время быстро обработать его, чтобы не создавать узких мест.

Разнообразие больших данных относится ко всем структурированным и неструктурированным данным, которые могут генерироваться людьми или машинами. Наиболее часто добавляемые данные - это структурированные тексты, твиты, изображения и видео. Однако неструктурированные данные, такие как электронные письма, голосовые сообщения, рукописный текст, чтение ЭКГ, аудиозаписи и т. Д., Также являются важными элементами в разделе «Разнообразие». Разнообразие - это способность классифицировать входящие данные по различным категориям.

Это был пример классических принципов больших данных. Но в некоторых источниках появляется информация о четвертом принципе: правдивость.

Еще более важным является четвертый V, правдивость. Насколько точны эти данные в прогнозировании ценности бизнеса? Имеют ли смысл результаты анализа больших данных? Данные должны быть в состоянии быть проверенными на основе как точности, так и контекста. Инновационный бизнес может захотеть иметь возможность анализировать огромные объемы данных в режиме реального времени, чтобы быстро оценить ценность этого клиента и потенциал для предоставления дополнительных предложений этому клиенту. Необходимо определить правильное количество и типы данных, которые можно анализировать в режиме реального времени, чтобы повлиять на результаты бизнеса.

 

Список литературы:
1. Марц Н. Большие данные. Принципы и практика построения масштабируемых систем обработки данных в реальном времени / Н. Марц, Д. Уоррен. - М.: Вильямс, 2016. - 368 c.