Статья:

ОЦЕНКА КОРРЕКТНОСТИ ПРИМЕНЕНИЯ МОДЕЛИ GAN В ЗАДАЧЕ АНАЛИЗА ВРЕМЕННЫХ РЯДОВ ПАРАМЕТРОВ ПОТОКА СОБЫТИЙ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ

Конференция: LVI Международная научно-практическая конференция «Научный форум: инновационная наука»

Секция: Технические науки

Выходные данные
Яковлев Е.Д. ОЦЕНКА КОРРЕКТНОСТИ ПРИМЕНЕНИЯ МОДЕЛИ GAN В ЗАДАЧЕ АНАЛИЗА ВРЕМЕННЫХ РЯДОВ ПАРАМЕТРОВ ПОТОКА СОБЫТИЙ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ / Е.Д. Яковлев, Д.Е. Горохов, А.В. Кокорев, А.В. Тезин // Научный форум: Инновационная наука: сб. ст. по материалам LVI междунар. науч.-практ. конф. — № 1(56). — М., Изд. «МЦНО», 2023.
Конференция завершена
Мне нравится
на печатьскачать .pdfподелиться

ОЦЕНКА КОРРЕКТНОСТИ ПРИМЕНЕНИЯ МОДЕЛИ GAN В ЗАДАЧЕ АНАЛИЗА ВРЕМЕННЫХ РЯДОВ ПАРАМЕТРОВ ПОТОКА СОБЫТИЙ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ

Яковлев Егор Денисович
сотрудник, Академия ФСО России, РФ, г. Орел
Горохов Денис Евгеньевич
сотрудник, Академия ФСО России, РФ, г. Орел
Кокорев Антон Владимирович
сотрудник, Академия ФСО России, РФ, г. Орел
Тезин Александр Васильевич
сотрудник, Академия ФСО России, РФ, г. Орел

 

Аннотация. В данной статье рассматривается актуальность применения метода анализа временных рядов Time series anomaly detection Generative Adversarial Network (TadGAN) для обеспечения безопасности информационной системы.

 

Ключевые слова: глубокое обучение; защита информации; модель TadGAN; временные ряды; информационная безопасность.

 

В настоящее время сфера сетевых технологий развивается и совершенствуется с высокой скоростью, что приводит к ежегодному увеличению количества преступлений в компьютерной сфере. Проводить компьютерные атаки могут как хакеры–любители с целью личного обогащения (например, кража банковских данных), так и группы профессиональных злоумышленников, которые могут преследовать различные цели (например, дискредитация власти, нарушение социальной стабильности в стране и др.). Постоянное улучшение технологий реализации компьютерных атак приводит к необходимости совершенствования средств оперативного распознавания признаков реализации компьютерной атаки, и методов реагирования на нее.

Для решения задачи обеспечения информационной безопасности компьютерной сети в настоящее время используются системы обнаружения атак, содержащие множество сенсоров в узлах доступа к транспортной сети и терминалы администратора. В большинстве случаев обнаружение признаков компьютерной атаки реализуется на основе сигнатурного анализа трафика, то есть сенсор принимает решение на основании набора шаблонов, описывающего некоторые признаки (последовательности пакетов, значения полей и т.д.) характерные для реализаций компьютерных атак. В случае обнаружения такого шаблона сигнатурный анализатор предупреждает оператора системы или выполняет другое действие. Использование сигнатурного анализа обеспечивает высокую вероятность детектирования известных атак, однако, такой метод требует оперативного обновления базы сигнатур, что на практике не всегда достижимо. Известны случаи, когда информация о способах реализации компьютерной атаки обнародовалась спустя годы после обнаружения уязвимости. В связи с этим, применение методов обнаружения признаков компьютерной атаки на основе анализа временных рядов параметров сетевого трафика является перспективным направлением в сфере обеспечения безопасности информационной системы, так как в этом случае принятие решение о моменте проведения атаки будет производиться не на основе содержимого пакетов, передаваемых по сети передачи данных, а на основе статистической информации потока этих пакетов. При этом задача обнаружения признаков компьютерной атаки сводится к задаче обнаружения аномалий временных рядов параметров сетевого трафика. Задача осложняется нестационарным характером потока пакетов в мультисервисной сети, а также зависимостью закономерностей поведения трафика от структуры конкретной сети. Высокую эффективность в решении подобных задач показывает методы глубокого обучения искусственных нейронных сетей (ИНС) [1]. Одной из перспективных моделей для обнаружения аномалий в многомерных временных рядах является TadGAN, основанная на генеративной ИНС.

Процесс создания модели глубокого обучения в соответствии с методологией Cross–Industry Standard Process for Data Mining (CRISP–DM) заключается в последовательном выполнении ряда технологических операций. Методология представлена на рисунке 1.

 

Рисунок 1. Методология CRISPDM

 

Для корректной работы модели необходимо обучать ее на релевантных данных. В связи с этим, для обучения модели был использован датасет CICDDoS2019, который представляет собой сетевые потоки, прошедшие через информационную систему, в которой функционирует подключенный к сети Интернет web-сервер [2]. Данный датасет был выбран в связи с тем, что в нем представлены сетевые потоки информационной системы в нормальном состоянии (когда на нее не производится компьютерная атака), что позволит смоделировать поведение информационной системы в повседневном режиме. Кроме того, в данном наборе данных определены интервалы времени, когда на систему проводилась компьютерная атака, поэтому появляется возможность проверить корректность обнаружения аномалий в потоке сетевого трафика при помощи модели глубокого обучения.

Макет информационной системы, с которой были получены сетевые потоки, представлен на рисунке 2.

Рисунок 2. Макет информационной системы

 

Модель TadGAN была разработана относительно недавно, в 2020 году. Алгоритм работы модели TadGAN состоит в следующем: сначала модель обучается кодировать и декодировать части информации (в случае анализа временных рядов это параметры сетевого трафика, полученные из дампов pcap набора данных). При этом критерием обученности, как правило, считается некоторое пороговое значение ошибки восстановления.

После обучения на вход модели подают данные, являющиеся отрезками исследуемого временного ряда. Если после обработки данных нейросетью ошибка восстановления не превышает некоторого порога определяемого на валидационной выборке, то поведение процесса считается «нормальным» (модель адекватна наблюдаемому процессу), в противном случае принимается решение о падении уровня адекватности модели, что является следствием изменения свойств наблюдаемого случайного процесса. Общая архитектура работы модели TadGAN представлена на рисунке 3.

 

Рисунок 3. Общая архитектура работы модели TadGAN

 

В модели TadGAN обучаются 2 функции  и , где X – множество отрезков временных рядов [3], а Z представляет собой скрытый слой, в котором данные представлены в виде векторов z случайных значений, являющихся белым шумом и имеющих нормальный закон распределения.

За x обозначают значения наблюдаемой переменной на отрезке времени t. Благодаря функциям отображения, в данной модели происходит восстановление входящей временной последовательности в соответствии с формулой:

x → Ɛ(x) → G(E(x)) ≈ 

Для определения корректности восстановления используются два дескриминатора Cx и Cz. Основная задача дескриминатора Cx состоит в оценке качества восстановления исходных данных, в то время как дескриминатор Cz оценивает похожесть скрытого представления z = Ɛ(x) на белый шум.  Кроме того, оценку качества восстановления исходной последовательности производит L2 мера, которая представляет собой метрику Минковского. L2 мера предназначена для сравнения исходного и восстановленного значений в пространстве объектов временного ряда.

Для проверки корректности применения модели TadGAN была использована ее реализация, расположенная в свободном доступе на веб-сервисе хостинга IT–проектов GitHub [4].  На графике рисунка 4 продемонстрирован результат анализа временного ряда значений отношения объема входящего и исходящего трафика, полученного из набора данных CICDDoS2019 в условиях реализации Distributed Denial of Service (DDoS) атаки.

 

Рисунок 4. Обнаружение аномалий с помощью метода TadGAN

 

На данном графике наглядно представлено, что модель выявила аномалии на участках, в которых поведение функции отклоняется от нормального. В связи с этим можно сделать вывод о том, что при корректном задании порога определения аномальных участков временного ряда данную модель можно будет использовать в системе, в которой исследуемый информационный процесс обладает идентичным набором параметров.

В данной статье был рассмотрен один из методов обнаружения аномалий во временных рядах. Можно сделать вывод о том, что модель TadGAN может быть применена для обеспечения безопасности компьютерной системы, так как она выполняет задачу обнаружения моментов проведения компьютерных атак с заданным уровнем точности. Используя разнообразные наборы данных, в которых содержатся различные типы аномального и легального трафика, можно увеличить количество типов аномалий, распознаваемых моделью глубокого обучения. Улучшения достоверности классификации трафика нейронной сетью можно добиться за счет обучения модели глубокого обучения на сетевом трафике, который циркулировал в реальной информационной сети. При использовании ИНС можно повысить точность обнаружения аномалий в потоке сетевого трафика информационной системы. В рамках дальнейшего исследования возможен переход к многомерному анализу, в котором участки аномального поведения исследуемого процесса будут определяться на основе анализа многомерных временных рядов, что позволит дать комплексную оценку информационного процесса на основе набора его параметров.

 

Список литературы:
1. Чио, К. Машинное обучение и безопасность: защита систем с помощью данных и алгоритмов: практическое руководство / К. Чио, Д. Фримэн. - Москва: ДМК Пресс, 2020. - 388 с. - ISBN 978-5-97060-713-8. - Текст : электронный. - URL: https://znanium.com/catalog/product/1908430 (дата обращения: 23.10.2022).
2. Distributed Denial of Service Dataset (CICDDoS2019) [Набор данных для обучения] //Canadian Institute for Cybersecurity [Электронный ресурс]. URL: https://www.unb.ca/cic/datasets/ddos-2019.html (дата обращения: 06.12.2022) Текст: электронный.
3. TadGAN: Time Series Anomaly Detection Using Generative Adversarial Networks [Электронный ресурс] // https://arxiv.org/abs/2009.07769 (дата обращения: 07.12.2022) Текст: электронный. 
4. TadGAN: Time Series Anomaly Detection Using Generative Adversarial Networks [Электронный ресурс] // https://github.com/arunppsg/TadGAN (дата обращения: 06.12.2022) Текст: электронный.