Статья:

МЕТОДЫ ОБНАРУЖЕНИЯ И СПОСОБЫ ПРОТИВОДЕЙСТВИЯ АВТОМАТИЗИРОВАННОМУ СБОРУ ДАННЫХ С ВЕБ РЕСУРСОВ

Конференция: XLIX Студенческая международная научно-практическая конференция «Технические и математические науки. Студенческий научный форум»

Секция: Технические науки

Выходные данные
Иванов А.Д. МЕТОДЫ ОБНАРУЖЕНИЯ И СПОСОБЫ ПРОТИВОДЕЙСТВИЯ АВТОМАТИЗИРОВАННОМУ СБОРУ ДАННЫХ С ВЕБ РЕСУРСОВ // Технические и математические науки. Студенческий научный форум: электр. сб. ст. по мат. XLIX междунар. студ. науч.-практ. конф. № 4(49). URL: https://nauchforum.ru/archive/SNF_tech/4(49).pdf (дата обращения: 25.01.2025)
Лауреаты определены. Конференция завершена
Эта статья набрала 0 голосов
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

МЕТОДЫ ОБНАРУЖЕНИЯ И СПОСОБЫ ПРОТИВОДЕЙСТВИЯ АВТОМАТИЗИРОВАННОМУ СБОРУ ДАННЫХ С ВЕБ РЕСУРСОВ

Иванов Александр Дмитриевич
студент кафедры Информационная безопасность, Московский Политехнический Институт, РФ, Москва
Кесель Сергей Александрович
научный руководитель, Московский Политехнический Институт, РФ, Москва

 

DETECTION METHODS AND WAYS TO COUNTER AUTOMATED DATA COLLECTION FROM WEB RESOURCES

 

Alexander Ivanov

Student of the department Information Security, Moscow Polytechnic University, Russia, Moscow

Sergey Kesel

Academic advisor, Moscow Polytechnic University, Russia, Moscow

 

Аннотация. В современном мире одним из ценнейших ресурсов является информация. Люди стали чаще использовать веб ресурсы, такие как маркетплейсы, сервисы бронирования, агрегаторы объявлений. Появляются новые компании и растет конкуренция. Современные технологии позволяют использовать автоматизированные средства для сбора данных у конкурентов и автоматически предлагать более привлекательные услуги для клиента. Для противодействия автоматизированным средствам сбора информации необходим комплексный подход к безопасности веб ресурсов.

Abstract. In the modern world, one of the most valuable resources is information. People began to use web resources more often, such as marketplaces, booking services, ad aggregators. New companies are emerging and competition is growing. Modern technologies make it possible to use automated means to collect data from competitors and automatically offer more attractive services to the client. To counteract automated means of collecting information, an integrated approach to the security of web resources is needed..

 

Ключевые слова: веб безопасность; противодействие автоматизированному сбору; веб скраперы; автогенерация шаблонов; обфускация.

Keywords: web security; countering automated collection; web scrapers; template autogeneration; obfuscation.

 

Противодействие автоматизированным средствам по сбору данных

Автоматизированные средства сбора данных с веб ресурсов (веб скраперы) могут нанести большой ущерб владельцу объекта защиты. Можно выделить несколько векторов атак:

  • Сбор информации с веб ресурса. Основная цель автоматизированных средств это получение информации с сайта. Собранная информация служит для конкурентов неким маркерами, способные изменять цены на своих площадках, агрегировать данные и собирать их на одном ресурсе, переманивая аудиторию;
  • Заполнение форм;
  • Замедление работоспособности объекта защиты;
  • Поиск уязвимостей. Автоматизированные средства при анализе сайта могут проводить сканирование для поиска веб уязвимостей. Эти данные могут быть использованы для внедрения вредоносного кода для последующих атак.
  • Бронирование мест в залах. Автоматические средства или физическое лицо может злонамеренно производить действия по бронированию или аренде помещения;

Для противодействия выделенным векторам атак необходим комплексный подход для обнаружения и противодействия веб скраперам. Разработанный модуль по обнаружению и противодействию ботам имеет несколько способов обнаружения автоматического сканирования.

Одним из действенных способов обнаружения ботов, являются ловушки. Ловушки представляют из себя невидимые для человеческого глаза формы или ссылки. Ловушка скрывается при помощи определенных тегов или специальных правил верстки, чтобы пользователь не мог в нее попасть. При парсинге страницы боты попадут в ловушку, о чем получит сигнал средство блокировки.

Модуль обнаружения веб скраперов предполагает усовершенствование устоявшегося подхода. Многие разработчики встраивают статичные ловушки, но данный метод имеет ряд недостатков. К таким недостаткам относится статичность, это позволяет четко идентифицировать ловушку и передавать информации о ее наличии.

Чтобы устранить вышеуказанные недостатки, был разработан модуль безопасности для обнаружения и блокирования автоматизированных сборщиков.

Модуль представляет из себя библиотеку, написанную на языке Python. Библиотека позволяет автоматически встраивать в страницу фронтенда ловушки разных типов. При новом обращении библиотека встраивает новые ловушки. Стоит отметить что в параметрах, заданы условия, которые позволяют увеличить шанс обнаружения веб скрапера.

Для более точного детектирования существует возможность встраивать несколько ловушек разного типа на одну страницу. Данная функция была разработана с целью подстраховки системы защиты. При возможном обнаружении ловушки, веб скраперы могут обходить ее. При встраивании двух ловушек разного типа шанс обнаружения веб скрапера повышается, что снижает риск выделенных угроз.

После детектирования веб скрапера необходимо принять решение что дальше делать с запросом. В модуле предусмотрено два режима.  Первый режим – режим наблюдения, он позволяет детектировать и записывать в лог аудиты произошедшее событие. Данный режим может быть полезен при отладке.

Второй режим – это режим блокировки подключения. Он позволяет незамедлительно производить блокировка подключения бота. Блокировка производится по средствам блокировки ip адреса.

К минусу данного метода можно отнести возможность автоматизированных средств использовать прокси сервера для новых подключений. Блокировка подключения является одним из наиболее эффективных методов борьбы. Для обеспечения наибольшей безопасности стоит заблокировать подключения на своем веб сервер с известных прокси серверов. Злоумышленники часто используют внешние сервера, т.к. иметь насколько своих достаточно финансово затратная задача.

К еще одному методу защиты можно отнести капчу. Данный метод эффективно применять при подозрительном трафике. Использование капчи не является эффективным методом борьбы, т.к. большинство умных веб скраперов умеют обходить все типы капч: звуковые, видео капчи, капчи с картинками. Наиболее вероятный сценарий — это вывод капчи легитимному пользователю что приведет к потере времени на ее решение и как следствие к негативным эмоциям.

После разработки модуля детектирования и блокировка, был создан тестовый стенд. Стенд представлял несколько страниц схожих по контенту с онлайн кинотеатром. Приложение было развёрнуто в двух докер контейнерах: база данных и само приложение. Данный стенд был создан для тестирования эффективности работоспособности модуля безопасности.

В качестве средств автоматизированного сборщика данных были взяты бесплатные, доступные в сети интернет веб скраперы. К ним относится Octoparse и Outwit.

В ходе испытаний модуль показал хороший результат. Около 78 процентов вредоносных подключений было обнаружено и заблокировано. Данный показатель указывает на высокую эффективность модуля защиты, что позволяет применять его в пром средах. Среди недостатков можно выделить умные веб скраперы, которые используют в своей основе искусственный интеллект и машинное обучение. Они начинают достаточно быстро понимать и выделать похожие части кода и стараются их избегать. При построении защиты необходим комплексный подход, нельзя останавливаться на одном модуле защиты. Необходимо использовать программное обеспечение, работающее по разным принципам.

 

Список литературы:
1. Методы обхода защиты при автоматизированном сборе [Электронный ресурс] Режим доступа. URL - https://habr.com/ru/post/353348/ (Дата обращения 07.01.2022)
2. Изучение работы веб скраперов.   [Электронный ресурс] Режим доступа. URL - https://habr.com/ru/company/oleg-bunin/blog/321294/ (Дата обращения 06.01.2022)
3. Исходный код библиотеки fingerprintjs. [Электронный ресурс] Режим доступа. URL - https://github.com/fingerprintjs/fingerprintjs (Дата обращения 03.11.2021)
4. Исследование активности людей в интернете. Электронный ресурс] Режим доступа. URL - https://vc.ru/marketing/292832-rost-botnyh-perehodov-na-sayt-kak-interpretirovat-i-chto-delat (дата обращения 05.12.2021)