Язык программирования для статистической обработки данных R
Журнал: Научный журнал «Студенческий форум» выпуск №42(135)
Рубрика: Технические науки
Научный журнал «Студенческий форум» выпуск №42(135)
Язык программирования для статистической обработки данных R
В последнее время, язык программирования R широко используется для статистического анализа данных, обгоняя такие языки как Python, Java и такие пакеты статистической обработки данных как SPSS и STATISTICA.
Язык программирования R – это интерпретируемый язык, а это значит, что команды можно записывать непосредственно в консоли.
R является языком мультипарадигменным, то есть сочетающим в себе элементы из разных парадигм (объектно-ориентированное, процедурное и т.д.). Также, следует упомянуть, что бесплатен.
Язык R содержит большое количество стандартных наборов данных, встроенных статистических тестов, математических функций и алгоритмов для статистической обработки данных. При необходимости, возможности языка можно расширить с помощью пакетов.
Для работы с языком R, следует установить сам язык программирования и среду разработки. Одной из популярных сред является RStudio. В дальнейшем, все примеры будут выполнятся в данной среде.
При запуске среды нас встречают три окна: окно консоли, окно, отображающее созданные в среде объекты и историю операций, а также окно, показывающее файлы, графики, встроенную справку и установленные пакеты (рисунок 1). Для удобства, можно открыть окно для написания скриптов сочетанием клавиш Ctrl+Shift+N.
Рисунок 1. Интерфейс среды RStudio
Прежде чем приступить к простейшему анализу данных, нам нужно рассмотреть основные понятия и операторы языка.
Для присваивания значения переменной используют знак «<-». После присвоения, переменная сохраняется в памяти и отображается вместе со своим значением во вкладке Environment. Также посмотреть переменные можно, написав в консоли функцию ls().
Для того, чтобы удалить переменную из памяти, нужно ввести в консоль функцию rm() и в качестве аргумента указать удаляемую переменную.
Язык R содержит 5 первичных типов данных: integer (целые числа), numeric (числа, с плавающей точкой), logical (логические), character (символьный) и complex (комплексные).
Существуют также контейнерные типы данных, в которых хранится большое количество данных. Их в языке 7 это: vector (вектор), factor (фактор), matrix (матрица), array (массив), list (список), data.frame (структура) и class (класс). Рассмотрим один из контейнерных типов, вектор.
Вектор предназначен для хранения и обрабатывания множества однотипных данных. Его можно объявить разными способами, с помощью функции vector и функции c. Только в первом случае, для передачи значений, нужно будет обращаться к каждому элементу вручную, а это не удобно, поэтому используют второй вариант (рисунок 2).
Рисунок 2. Пример создания вектора
Также в языке R определено множество встроенных функций, например, var(x) -дисперсия некоторой совокупности x, sd(x) – стандартное отклонение или cor(x) – корреляционная матрица.
Так как мы рассмотрели основные понятия языка, можем приступить к реализации простейшего анализа данных на языке R.
Для анализа, возьмем встроенный набор данных storms, описывающий характеристики 198 тропических штормов (рисунок 3). Можем посмотреть описательные статистики этих данных (рисунок 4).
Рисунок 3. Содержание таблицы storms
Рисунок 4. Описательные статистики
Мы можем из набора данных извлечь отдельно вектор и работать с ним, например, посчитаем среднюю максимальной скорости ветра шторма (рисунок 5).
Рисунок 5. Средняя