Статья:

ОБЗОР МЕТОДОВ ВЫЯВЛЕНИЯ ПРИЗНАКОВ ЭКСТРЕМИЗМА И ТЕРРОРИЗМА В ТЕКСТАХ СОЦИАЛЬНЫХ СЕТЕЙ И НОВОСТЕЙ С ПОМОЩЬЮ МАШИННОГО ОБУЧЕНИЯ: ЗАКОНОМЕРНОСТИ, ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ

Конференция: CCLII Студенческая международная научно-практическая конференция «Молодежный научный форум»

Секция: Технические науки

Выходные данные
Зырянов М.С. ОБЗОР МЕТОДОВ ВЫЯВЛЕНИЯ ПРИЗНАКОВ ЭКСТРЕМИЗМА И ТЕРРОРИЗМА В ТЕКСТАХ СОЦИАЛЬНЫХ СЕТЕЙ И НОВОСТЕЙ С ПОМОЩЬЮ МАШИННОГО ОБУЧЕНИЯ: ЗАКОНОМЕРНОСТИ, ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ // Молодежный научный форум: электр. сб. ст. по мат. CCLII междунар. студ. науч.-практ. конф. № 20(252). URL: https://nauchforum.ru/archive/MNF_interdisciplinarity/20(252).pdf (дата обращения: 23.01.2025)
Лауреаты определены. Конференция завершена
Эта статья набрала 0 голосов
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

ОБЗОР МЕТОДОВ ВЫЯВЛЕНИЯ ПРИЗНАКОВ ЭКСТРЕМИЗМА И ТЕРРОРИЗМА В ТЕКСТАХ СОЦИАЛЬНЫХ СЕТЕЙ И НОВОСТЕЙ С ПОМОЩЬЮ МАШИННОГО ОБУЧЕНИЯ: ЗАКОНОМЕРНОСТИ, ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ

Зырянов Михаил Сергеевич
магистрант, Томский государственный университет систем управления и радиоэлектроники (ТУСУР), РФ, г. Томск

 

Введение

В условиях обостряющегося информационно-геополитического противоборства распространение текстового материала экстремистского и террористического характера в сети Интернет остается насущной проблемой, что обусловливает целесообразность применения методов машинного обучения для целей оперативного выявления и пресечения подобных действий, а также снижения нагрузки на специалистов, задействованных в проведении экспертизы. Официальное количество названий материалов, признанных судами Российской Федерации экстремистскими, по состоянию на 20.12.2023 г. превышает пять тысяч (а именно 5424; часть из них исключена) [64].

Обилие и изменчивость экстремистских материалов не позволяют ограничиться единым исчерпывающим списком.

Настоящая статья, носящая характер обзора литературы, посвящена установлению и классификации основных (наиболее адекватных целям) методов обработки естественного языка, применимых в задачах выявления признаков экстремизма и терроризма в текстовых сообщениях произвольного формата, генерируемых пользователями социальных сетей и информационными агентами, по природе подобными или внешне уподобляющимися средствам массовой информации, а также уровням реализации таких признаков в тексте. Обзор охватывает 63 отечественных и зарубежных источника за 2014‑2022 гг.

1 Предмет исследований

Прежде всего, необходимо отметить относительную разнородность предмета исследований: разные авторы ориентируются на разные семантические границы рассматриваемого явления и опираются на разные основания классификации и разнородные определения.

 Так, русскоязычные исследователи выделяют следующие искомые элементы:

1) экстремизм, включающий в себя следующие подгруппы: терроризм, идеологические тексты, религиозная ненависть, сепаратизм, национализм, агрессия и призывы к беспорядкам, фашизм [26, 28, 38, 39, 40];

2) наркоторговля, экстремизм, терроризм [31];

3) деструктивный контент [47, 51, 56], в рамках которого демаркируются следующие группы: «национализм», «терроризм и экстремизм», «политика», «нецензурная лексика» [51]; деструктивные тексты экстремистского содержания [48];

4) террористический и экстремистский контент [46];

Тексты англоязычных публикаций преимущественно организованы вокруг следующих концептов:

1) extremist(-related) tweets / terrorism-related content [10], terrorism support [25], terrorism texts [5], terrorism-related activities [14]; extremist affiliation [10], extremist [2];

2) suspicious contents [21].

Установлено, что концепт «язык вражды» («риторика ненависти», hate speech) — в целом, как таковой плохо подходит для выявления непосредственно терроризма и экстремизма [61, 62]; тем не менее, в англоязычных источниках в силу причин идеологического характера он представлен крайне широко, а контуры методологии выявления целевых признаков в этих предметных областях частично совпадают.

Как правило, носителем экстремистской идеологии выступает группа неонацистского либо религиозно-фундаменталистского толка, где «экстремизм» понимается как приверженность крайним взглядам вплоть до готовности применять насилие по отношению к представителям иных групп, а «терроризм» — как непосредственное совершение насильственных действий в политических или идеологических целях; смежными концептами при этом выступают «пропаганда», «радикализация», «идеология» и «вербовка».

Решаемая задача преимущественно сводится к идентификации документов экстремистской и террористической направленности, т.е. отнесению каждого из экземпляров (документов, сообщений), оцениваемых моделью, к классу запрещенных либо разрешенных материалов. Классификация может быть как бинарной (в том числе по разным видам правонарушений), так и мультиклассовой/расплывчатой (допускающей принадлежность документа сразу к нескольким тематикам в рамках комплексного понятия «экстремизм») или вероятностной, а также допускать градацию по степени выраженности явления или его социальной опасности (напр., «не экстремизм», «неявный экстремизм», «явный экстремизм», «угрожающий экстремизм» [63]).

2 Текстовые материалы и наборы данных

С учетом специфики машинного обучения неизменно актуальным является вопрос о качестве, доступности и объеме набора данных, на котором обучается модель. В ходе работы было установлено, что ни один набор данных для выявления признаков экстремизма и терроризма в текстах не является общедоступным, и большинство исследований включают в себя этап подготовки авторского набора данных сообразно поставленным цели и задачам. В некоторых случаях задействованы наборы данных ограниченного доступа или специализированные открытые наборы данных (см. ниже), но преимущественно авторы самостоятельно собирают данные из открытых источников [напр., 14, 18, 21, 25, 27, 46, 51], после чего эти наборы данных в открытый доступ также не попадают.

Обучение моделей практически во всех случаях предполагает наличие корпуса текстов, заранее размеченного по классам и (или) разбитого на подкорпуса по тематикам [12, 21, 27, 28, 29, 38, 39, 40, 50]. Термин «корпус» в данном случае не вполне тождествен используемому в корпусной лингвистике, где объем корпусов достигает сотен миллионов словоупотреблений; применяемые в исследованиях методы могут как совпадать с инструментарием корпусного анализа [40, 46, 50], компьютерной лингвистики и корпусной лингвистики, так и отступать от них — в зависимости от решаемой задачи. Под «корпусом» здесь и далее понимается набор текстовых данных (а также метаданных — в соответствующих случаях), формируемый из постов, сообщений и подобных форм представления информации (обобщенно «документов»), объединенных общим признаком — как правило, наличием либо отсутствием маркеров содержания экстремистской или террористической направленности, а также тех или иных маркеров, затрудняющих однозначную классификацию текста, т.е. призванных внести «шум» в набор данных. Такой корпус может включать от нескольких сотен до нескольких миллионов документов и иметь различное соотношение классов. Например, в [39] использован собранный вручную корпус из 493 документов (650 тысяч токенов), 368 из них отнесены к экстремистским (по характеру: пропаганда, оправдания экстремизма и терроризма, призывы к действию), 125 — к «нейтральным» (политические блоги, религиозные тексты, новости); в рамках дальнейшей исследовательской деятельности авторского коллектива корпус дополнен до 709 текстов (900 тысяч словоупотреблений/токенов), и затем — вручную собранный корпус из 3,3 млн. словоупотреблений (в разбиении на 7 подкорпусов) [26]. На определенном этапе в качестве контрольного элемента вводится корпус русских рассказов 1900–1930 гг. с разбиением по годам (составлен сотрудниками филологического факультета СПбГУ в сотрудничестве с департаментом филологии НИУ ВШЭ; включает в себя 310 рассказов, 1 млн. словоупотреблений) [40].

В других исследованиях используются наборы эталонных данных ограниченного доступа; например, «kavkazchat» (составлен в Аризонском университете, США), включающий в себя 600 Гб текстовых данных — 16 тыс. веток обсуждения с форумов; не все сообщения носят экстремистский характер) [41], «Ansar1» (в сопоставлении с нейтральным набором 20 Newsgroups) [43], и производные от них наборы данных. Зарубежные исследователи также нередко обращаются к таким наборам данных, как GTD (Global Terrorism Database) [4, 9, 17], а также Dark Web Project [18], специально предназначенным для решения задач, связанных с антитеррористической безопасностью.

М.М. Шарнин и др. задействуют инструменты краудсорсинга и ориентируются на объемы порядка BigData [62]; так, исследовательским коллективом на материалах социальных сетей общего доступа (Vkontakte, «Одноклассники» *, Facebook *, Twitter * и др.) составлены тематические корпуса, посвященные высказываниям исламских экстремистов в отношении «неверных» (корпус «кафиры»; 100 тыс. документов, 25 млн. словоупотреблений) и проукраинских приверженцев радикальных взглядов в отношении пророссийской аудитории (корпус «ватники»; 200 тыс. документов, 70 млн. словоупотреблений) за 2012–2018 гг.; также для более узконаправленных задач отбираются вручную коллекции меньшего размера: более 1 000 текстов [23, 62, 61].

Отмечается целенаправленный подход ряда авторов [31, 32] по формированию корпусов вручную из неструктурированных данных с разнородными вкраплениями; при этом классы предопределены, но неоднородность данных выступает фактором погружения в реальную информационную среду.

Сходный случай — введение в набор данных «шумового» корпуса (одобренная религиозная литература) в противовес «радикальному» корпусу и корпусу с «имитацией» обычных социальных медиа (в рамках указанного исследования каждый корпус содержит по 113 587 предложений, в среднем по 14,3 слова в каждом предложении) [37].

Как правило, экземплярам целевого класса на уровне подмножеств корпуса или отдельных корпусов противопоставляются «нейтральные» экземпляры; соотношение количества экземпляров (т.е. степень сбалансированности наборов данных и статистической репрезентативности корпуса) при этом может разниться. Так, в [32] набор включает в себя 1800 документов, из которых 300 отнесены к радикальным, а остальные представляют собой тексты нейтрального характера или относятся к классическому исламу. В другом случае набор данных, сформированный на основе пользовательских постов в социальных сетях, содержит 2 «корпуса»: 190 «опасных» постов и 820 «подозрительных» постов соответственно [37]. При этом в качестве источника «нормального» контента может выступать энциклопедия Wikipedia или коллекция книг Google Books Ngram, призванная упростить расчет нормы; в частности, с помощью подобных сопоставлений делается вывод о нерепрезентативности использования «языка вражды» как такового в выявлении экстремистского контента [61].

Сопоставляются как отдельные документы, так и совокупности постов по сообществу: так, в рамках исследования контента с признаками радикализации [37] было выделено 391 сообщество с признаками радикализации, 70 — без таковых признаков, 18 сообществ блогеров и т.д. Далее все посты каждого сообщества за каждый календарный год объединены в отдельный документ, и общий набор данных подвергнут кластеризации.

Отдельно выделяется Twitter* (формат микроблога), стабильно привлекающий повышенное внимание со стороны исследователей — в частности, англоязычных: по приблизительным оценкам, не менее половины англоязычных работ, посвященных рассматриваемой тематике, так или иначе фокусируются на твитах и твиттер-сообществах, что объясняется взрывным ростом популярности данной социальной сети [3, 6, 19, 20, 58].

3 Методология. Этапы, признаки и инструменты

3.1 Подготовка данных

Начальным этапом машинного обучения, когда исследовательская задача уже поставлена и данные собраны, является подготовка данных к обработке, т.е. приведение их в вид, позволяющий минимизировать погрешность модели при достижении поставленной задачи. Этап предобработки текстовых данных включает в себя токенизацию (разделение тела текста на единицы-токены: предложения/параграфы [41, 43] или слова/термы [46, 51, 58]), удаление стоп-слов (не несущих значимой информации) и приведение слова к базовой форме (или ее аналогу сообразно задачам), т.е. лемматизацию [6, 17, 43, 39, 40, 46, 48, 57, 58] и (или) стемминг [12, 41]. В отдельных работах [51] указывается, что лемматизация для русского языка предпочтительнее стемминга ввиду минимизации ошибок первого и второго рода по сравнению со стеммингом; также встречается комбинация лемматизации и стемминга (применение операции стемминга к результатам лемматизации) [44, 48]; в [63] авторами предлагается вариант решения методологической проблемы, связанной с многоязычностью противоправных текстов, путем формирования словаря мегалемм (разноязычная лексика с близким смыслом).

Данный этап может включать в себя унификацию регистра, обработку пунктуации и удаление спецсимволов [5, 47], а также обработку тэгов и иных метаданных: как удаление в целях очистки, так и добавление их в целях обогащения исходного документа (например, в целях аннотирования и (или) тематического моделирования [43], а также построения временных рядов для соотнесения информационной активности с динамикой т.н. «тревожных событий» [15, 61, 62]).

3.2 Извлечение признаков

Как правило, данный этап реализуется посредством извлечения n-грамм [5, 6, 9, 21] или с помощью модели «мешок слов» (bag-of-words), также именуемой моделью векторного пространства (VSM) [5, 21, 37, 41, 43, 44, 48, 57]. Эти методы широко используются, поскольку они просты в реализации, а результаты их применения обширно представлены в тематической литературе. Исследователи также активно используют решения на основе Word2vec [12, 28, 14, 18, 37, 44, 48, 58, 61] и его расширения Doc2vec, позволяющего сопоставлять термины и документы в едином векторном пространстве [24]. Количество признаков (размерность пространства/вектора) может колебаться от десятков [12, 28] до десятков тысяч [6, 31].

Выбор дифференцирующих признаков входит в число ключевых задач, которые необходимо решить при создании любой методики, ориентированной на выявление тематической направленности текстов на естественных языках [52, 60]. В задачах обработки естественного языка (и, в частности, выявления признаков экстремизма и терроризма) выделяемые признаки по категориям, как правило, в том или ином виде соответствуют уровням текстового анализа (лексический, морфологический, синтаксический, семантический и прагматический).

3.2.1 Лексические признаки

К лексическим признакам относятся входящие в состав документа слова (лексемы, термы, леммы и др.) [46, 48, 59] и словосочетания (технически являющиеся n-граммами) по корпусам или тематическим подкорпусам; одной из центральных подзадач, решаемых с использованием лексических признаков, выступает распознавание именованных сущностей (named entity recognition) [18, 25, 28, 46, 49, 59]. По наиболее частотным единицам, а также их совместному вхождению (или, напротив, взаимоисключительности) возможно получить индекс специфичности, т.е. построить «профиль» экстремистского (деструктивного, противоправного, террористического и т.д.) текста (или корпуса/подкорпуса текстов, объединенного некоторой тематикой); для полученных частотных словарей по подкорпусам вычисляется коэффициент попарной ранговой корреляции [26, 38, 39, 40].

Допустимо комбинирование различных лексических признаков (напр., сочетание словосочетаний-триграмм с 10 наиболее частотными ключевыми леммами) [3, 46]. И.В. Машечкин и др. указывают, что решения, включающие в себя токенизацию на уровне буквосочетаний (n-граммы, где n равняется 3-4), требуют меньших вычислительных мощностей, нежели решения на основе лингвистического стемминга, при этом позволяя снять зависимость методики от конкретного языка [43]; в [26] проведено исследование применимости буквосочетаний длиной 3 6 символов в качестве дифференцирующих признаков и показано, что при буквосочетаниях длиной 5-6 достигается наибольшая рассогласованность частотных словарей. А.М. Лаврентьев и др. также выделяют 3- и 4-буквенные сочетания как наиболее эффективный и универсальный вид дифференцирующих признаков для специального типа текстов [38].

3.2.2 Морфологические признаки

Выделение морфологических признаков обобщенно сводится к частеречной разметке словоупотреблений с целью установления соотношения типов лексем (напр., отношение количества глаголов к количеству прилагательных), каковое может выступать психолингвистическим маркером [12, 26, 28] и использоваться как для идентификации автора того или иного текста, так и для задач сентимент- и аффект-анализа (анализа тональности и анализа эмоционального состояния соответственно). Роль таких психолингвистических маркеров в задачах выявления признаков противоправного содержания рассматривается, в частности, А. М.Чеповским с соавторами [26, 38, 39, 40]: все слова в исследуемом тексте распределяются по 24 категориям (с опорой на грамматический словарь русского языка А.А. Зализняка), после чего на основе метода структурных схем выделяются псевдоосновы (путем удаления суффиксов и префиксов сообразно соответствующей структурной схеме), которые и используются в дальнейшем анализе. Так, к наиболее репрезентативным психолингвистическим маркерам Н.Л. Аванесян и др. относят следующие статистические показатели: коэффициент лексического разнообразия (отношение числа уникальных лексем к числу словоупотреблений), коэффициент действия (отношение количества глаголов, за вычетом деепричастий и причастий, к количеству прилагательных), коэффициент логической связности (отношение общего количества служебных слов, т.е. союзов и предлогов, к общему количеству предложений), коэффициент связности лексики (отношение числа существительных и глаголов, за вычетом причастий и деепричастий, к количеству прилагательных и наречий), среднее количество подгрупп в именной группе (см. ниже) и среднее количество подгрупп в глагольной группе (см. ниже) [26].

3.2.3 Синтаксические признаки

Признаки данного уровня выделяются на основании синтаксической связи между лексемами; в наибольшей степени репрезентативны т.н. именные и глагольные группы, активно исследуемые в работах Н.Л. Аванесяна, А.М. Лаврентьева и А.М. Чеповского с соавторами [26, 38, 39, 40]. Авторская методика, посвященная расчету индекса специфичности (построению «профиля») подкорпуса, также включает в себя учет специфики совместного употребления именных и глагольных групп в такой подкорпус (наряду с леммами и псевдоосновами), оперируя статистическими методами компьютерной лингвистики без использования средств корпусной лингвистики.

3.2.4 Семантические признаки

На семантическом уровне в фокусе внимания оказывается смысловое содержание текста, а исследователи оперируют категориями тематического анализа и релевантности информации, используя преимущественно такие алгоритмы, как LDA (латентное размещение Дирихле), LSA/LSI (латентно-семантический анализ/индексирование) и PLSA (вероятностный ЛСА). Анализ семантических признаков позволяет выделять ключевые (наиболее релевантные) слова и фрагменты (информативные фразы) для коллекции текстов или некоторой предметной области, на основе которых выполняются тематическое моделирование [34, 41, 43, 63], реферирование/аннотирование [12, 41, 55] и объединение текстов, а также установление смыслового (семантического, тематического) подобия/сходства (semantic similarity) [2, 15, 24]. В [59] по результатам статистического анализа корпуса прецедентных текстов на исламскую тематику извлекается множество ключевых понятий. В [16] выделяются две основные категории методов статистической семантики для целей векторизации, основанные на анализе совместного вхождения терминов в коллекцию текстов: первая — методы тематического моделирования (LDA, LSA), анализирующие глобальное распределение терминов в корпусе; вторая — методы предсказания локального контекста и включения слов и документов в семантическое векторное пространство, такие как Word2Vec и Doc2Vec [24].

Обе категории методов допускают комбинирование и позволяют установить меру семантического подобия терминов и документов, построив семантическое векторное пространство и рассчитывать семантические расстояния между рассматриваемыми объектами. Так, в [28] М.И. Ананьева и др., опираясь на [12], вводят 46 маркеров на основе частот семантических значений. В [37] принадлежность некоторого сообщества в социальной сети к радикальным течениям устанавливается на основе степени семантического сходства сводных текстов, получаемых путем слияния всех постов такого сообщества за календарный год воедино, с контрольными образцами.

Распространен подход к решению задачи выявления противоправного контента той или иной направленности посредством формирования тематических словарей/тезауруса, после чего исследуемые тексты классифицируются как нейтральные либо деструктивные [51] на основании результатов пересечения множеств; эффективность таких языково-зависимых решений, однако, снижается по мере возрастания количества ошибок и иносказаний в тексте (что в целом характерно для исследуемых материалов).

Статистически значимые результаты получены при исследовании семантики (терминологии) ненависти в [61, 63]; при этом отмечается, что установление смыслового подобия для глагола «ненавидеть» с помощью контекстуального анализа (авторами задействована архитектура Word2vec) повышает результативность выявления целевых текстов в 7 раз по сравнению с расширением запроса по словарям синонимов, что позволяет непрерывно актуализировать словарь/тезаурус для выявления новых лексических маркеров [61, 62]. Авторы используют собственноручно составленные тематические коллекции, посвященные высказываниям исламских экстремистов в отношении «неверных» (коллекция «кафиры»; 100 тыс. документов, 25 млн. словоупотреблений) и проукраинских приверженцев радикальных взглядов в отношении пророссийской аудитории (коллекция «ватники»; 200 тыс. документов, 70 млн. словоупотреблений) за 2012–2018 гг.; в [61] перечисляются основные темы (кластеры тематик), характерные для коллекций: «война», «терроризм», «призывы к насилию» (общие); «священная война» и оскорбления-религиофолизмы (коллекция «кафиры»), «национализм», «ВОВ», оскорбления по политпризнаку («ватники»). В рамках научно-исследовательской деятельности того же коллектива авторов перспективным для целей настоящей работы представляется отбор «терминов-антагонистов» (подкласс «языка ненависти»; ярлыки, свидетельствующие о сформированной групповой идентичности носителей и о готовности совершать насилие в отношении представителей группы-антагониста); отмечается, что использование Word2vec позволяет определять новые наименования с помощью контекстуального анализа, а анализ совместного вхождения терминов-антагонистов и лексем из тем «терроризм» и «призывы к насилию» демонстрирует, что определенная совместная динамика терминов из вышеперечисленных групп коррелирует с «тревожными событиями» (т.е. терактами и иного рода насильственными действиями в отношении представителей группы-антагониста).

В [50] описывается успешное решение задачи тематического моделирования на основе LSA (с сингулярным разложением) и модели «мешок слов». В работах И.В. Машечкина и др. [41, 42] предложен оригинальный метод автоматического аннотирования и выявления ключевых слов, основанный на ТМ и LDA; объектом исследования послужил набор эталонных данных «kavkazchat» (подготовлен в Аризонском университете, США). Показано, что метод позволяет: получать релевантные аннотации в виде выдержки наиболее важных предложений из исходного текста, а также генерировать по тексту релевантные ключевые слова. В [43] продемонстрирована методика установления наибольшего соответствия фрагмента текста тематикам и наоборот, позволяющая выделять ключевые слова по 15 тематикам: осуществляется отбор наиболее релевантных термов и предложений, покрывающих более 30% и 10% от общей релевантности всех предложений в ветке форума (набор «kavkazchat»), а также выделение ключевых слов с дальнейшем обогащением документа-референта (что позволяет более эффективно искать семантически сходные документы).

3.2.5 Прагматические признаки

Анализ прагматического уровня текста выступает предпосылкой для проведения сентимент-анализа (также известен как анализ тональности, или отношения субъекта речи к объекту: позитивное, негативное либо нейтральное) и аффект-анализа, или анализа эмоционального содержания [2, 5, 8, 10, 19, 36, 53, 54]. Так, в [19] описывается методика, позволяющая выявлять 619 признаков тональности, а в [2] — методика анализа эмоций EmoFeat, предназначенная для оценивания фрагмента текста относительно 8 шкал: гнев, страх, отвращение, грусть, удивление, доверие, предвкушение и удовольствие.

3.3 Представление признаков

Для числового представления признаков применяется один из трех основных методов: бинарное представление (BR; если признак присутствует, то присваивается значение «1», иначе — «0»), частота вхождения (TF) или удельная частота по документу (TF-IDF) [5, 6, 28, 14, 18, 21]. Наиболее типичными методами представления признаков являются BR (в большинстве исследований авторы используют те или иные слова как триггерные) и TF (отбор более частотных токенов увеличивает вероятность того, что единожды установленные признаки будут актуальны и в будущих наборах данных).

3.4 Отбор признаков

Данный этап представлен методами фильтрации (filter; примеры критериев: информационный прирост и хи-квадрат), надстройки (wrapper; поиск наилучшей комбинации признаков, пример — RFE, recursive feature elimination) и вложенными методами (embedded; важность признаков устанавливается в ходе обучения, т.е. непосредственно в процессе классификации). Наиболее широко используется метод информационного прироста [17], опирающийся на расчет уменьшения энтропии при наличии признаков по сравнению с их отсутствием. Задача данного этапа сводится к удалению наименее релевантных (либо формированию производных) признаков, компонент и (или) фрагментов информации с целью получения признакового пространства оптимальной размерности (где оптимальным считается некоторый диапазон баланса между вычислительной сложностью и производительностью решения). Напр., Машечкин и др. [41, 42] исследуют методы сингулярного разложения матриц (SVD) и неотрицательной матричной факторизации (NMF), а Минаев и др. [54] опираются на метод главных компонент (PCA).

3.5 Подбор и обучение классификатора

Результирующий вектор подается на вход той или иной модели-классификатору; перед этим может потребоваться некоторый набор операций дополнительной предобработки (напр., нормализация данных). Наиболее распространенные классификаторы: логистическая регрессия (LR) [2, 3, 5, 6, 9, 14, 21, 28, 45, 58], наивный байесовский алгоритм (NB; в том числе мультиномиальный и др.) [6, 7, 19, 21, 30], различные вариации решающих деревьев (DT) [7, 21], случайный лес (RF) [7, 9, 10, 18, 21, 28, 31], машина опорных векторов (SVM) [2, 3, 5, 6, 7, 9, 10, 17, 19, 20, 37, 45], алгоритм k-ближайших соседей (kNN) [5, 7, 20, 32]; нередко исследователи ставят задачу выявить сравнительную производительность нескольких классификаторов, обученных на одном и том же наборе данных. Так, в [31] авторы приходят к выводу, что случайный лес (500 бинарных решающих деревьев, Classification and Regression Tree; CART) как алгоритм классификации продемонстрировал наибольшую эффективность по сравнению с SVM и NB; методика выглядит следующим образом: имеется некоторое множество предопределенных категориальных признаков, каждому из них присваивается значение 0 либо 1 (бинарное представление), а последним шагом алгоритма является итоговый вывод: «разрешен» (т.е. не содержит признаков экстремизма) либо «запрещен» (т.е. является экстремистским) рассматриваемый текст. Э. Феррара (Ferrara) и др. [11] использовали LR, RF и SVM для обнаружения экстремистских групп в социальной сети Twitter * и прогнозирования их читательской аудитории. В [23] задача выявления твитов, пропагандирующих ненависть и экстремизм, решается посредством бинарной классификации с помощью методов kNN и LIBSVM; показано, что классификация с помощью LIBSVM является более точной. В [13] представлено исследование прогнозирования уровня ежедневной активности кибер-вербовки агрессивных экстремистских групп; для идентификации вербовочных постов используется модель на основе SVM (текстовое содержание анализируется с помощью LDA).

Отдельно стоит выделить такой вид решений, как нейросети (НС); он включает в себя реализацию таких архитектур, как RNN (рекуррентные НС, основанные на принципе рекурсии), CNN (сверточные НС, принимают входные данные с сетчатой структурой, размерность которой поэтапно сокращается путем применения к ней скользящего фильтра с матрицей весов), LSTM (сложные нейронные сети, которые воспринимают последовательность входов и выходов, учитывая при этом контекстную информацию), GRU [5] и др. Рекуррентные архитектуры (LSTM, GRU) показывают высокую производительность в задачах глубокого (в частности, прагматического) анализа текста — к примеру, в сентимент-анализе — за счет обработки информации о последовательности слов (в отличие от полносвязных сетей, которые учитывают только вхождение тех или иных слов) [1]. Также эффективно комбинирование нескольких типов архитектур в рамках единого комплексного решения (CNN + LSTM [5], LSTM + Attention Mechanism [45, 44]); при этом «чистая» LSTM оказалась более эффективна как классификатор по сравнению с комбинацией LR и результатов векторизации средствами Doc2vec [14].

Успешный опыт использования нейросети LSTM-архитектуры в сочетании с алгоритмом стохастического градиентного спуска (SGD) Adam описан в [25, 58]. Ряд исследователей отдают безоговорочное предпочтение трансформерам, объединяющим в себе функционал токенизатора, векторизатора и классификатора, таким как BERT (Bidirectional Encoder Representation for Transformers) [7, 22, 44, 47]; высокие оценки получила архитектура FastText [2, 5]. В [18, 25] авторы описывают методику нахождения именованных сущностей с помощью связки Bi-LSTM+CRF: двунаправленная рекуррентная архитектура типа LSTM (bidirectional LSTM) дополнена добавлением условного случайного поля (conditional random field) для минимизации ошибок разметки слов за счет учета меток, проставленных на соседних словах.

В то же время, необходимо неизменно учитывать, что итоговый результат зависит в большей степени не от мощности конкретного инструмента (а нейросети в среднем демонстрируют более высокую эффективность), но от квалификации исследователя; так, в [32] при сопоставлении результатов классификации средствами SVM (оценка точности: 0,45), KNN (0,53), NB (0,53) и НС (0,87; без указания типа нейросети) оценки, полученные первыми тремя классификаторами, чрезмерно низки, что ставит под сомнение качество самого исследования в целом.

3.6 Оценка эффективности классификатора

В проанализированных работах использовались преимущественно такие показатели (метрики), как определенность (precision), полнота (recall) [17, 25, 32, 58] и F-мера / F1 (гармоническое среднее между двумя предыдущими) [2, 5, 14, 17, 28, 31], а также общая точность (accuracy) [2, 5, 6, 7, 10, 14, 17, 18, 19].

В большинстве исследований авторы отдавали приоритет точности (accuracy) как интуитивно понятному и наиболее распространенному показателю, который рассчитывает совокупную долю правильных ответов классификатора относительно общего количества экземпляров; однако сами наборы данных часто характеризуются определенным дисбалансом («террористических» данных, как правило, существенно меньше), а при работе с несбалансированными наборами данных более подходящей метрикой для оценки качества модели является ROC AUC [18, 21]. Метрика «accuracy» в таких случаях нерепрезентативна: чем выше коэффициент дисбаланса (отношение количества экземпляров наиболее представленного класса к количеству экземпляров наименее представленного класса в выборке), тем в большей степени итоговый показатель будет сформирован за счет наиболее представленного класса (иначе говоря, модель будет неэффективна в распознавании экземпляров наименее представленного класса).

4 Выводы. Проблемы и перспективы

В ходе исследования выявлены следующие проблемные зоны (как указанные авторами проанализированных публикаций, так и обнаруженные непосредственно в ходе анализа источников), одновременно представляющие собой окна возможностей:

1) недостаточно представлены решения, включающие в себя комбинирование различных методов / значимых признаков (лексика, семантика, психолингвистика) [19, 28, 46]; нередко имеет место упрощение (сведение до бинарности) классификации [17, 29] или использование неподходящих метрик [17];

2) произвольный объем сообщений препятствует стабильности в обучении моделей [43], что обусловливает необходимость объединения малых текстов [37] и аннотирования крупных [11, 26, 43]; отсюда же, часто требуется сокращение объемов информации (размерности признакового/векторного пространства) [35, 41] в целях ускорения их автоматической обработки без снижения качества [17, 38, 41, 48] (в частности, в режиме потоковой обработки данных);

3) информация часто кодирована, искажена или загрязнена жаргонизмами [35, 39, 43]; также она может быть представлена на разных языках [17, 21], что осложняет задачу классификации (в частности, с использованием языково-зависимых методов); сообщения содержат невербальную информацию [5], а проектирование мультиагентных решений более требовательно к ресурсам [30];

4) нечеткое формулирование критериев и признаков экстремизма; проблема доступности текстов и стандартизированных наборов данных ввиду их антиправового характера [14, 17, 18, 21]; сложность организации автоматизированного сбора релевантных данных [5];

5) проблемы размера выборок (качественное обучение требует крупных наборов данных, каждый из которых должен быть предварительно размечен экспертом-лингвистом) и дефицита данных [20, 29, 35]; опора на словарные системы и тезаурусы, имеющие тенденцию к разрастанию и требующие актуализации [29, 35, 43, 49, 51];

6) проблема балансировки выборки [9, 21], ограниченность («ошибки выжившего») [31, 35, 37]; проблема определения значимости той или иной текстовой информации (зашумленность, нерелевантность) [30, 31, 44, 46, 48]; сложность в установлении реальной динамики соотнесенности текстовой информации с тревожными событиями и стадией радикализации экстремистского сообщества [61];

7) изменчивость лексики [43, 61] — проблема потенциально устранима с помощью методов контекстуального анализа (смысловое/семантическое подобие) и (или) использования самообучающейся нейросети [2, 33, 61, 63]; распознавание именованных сущностей (востребовано знание персоналий, мифологем и сюжетов, культурно-исторических реалий и др.) [25, 35].

Также следует отметить относительно менее высокое качество ряда работ, обусловленное следующими причинами:

1) недостаточность профильных компетенций специалистов по отдельности: как правило, для решения поставленных задач исследовательская группа должна включать квалифицированных математиков (отбор и обоснование математических методов, поскольку «машина», или модель, по существу представляет собой математическую функцию), программных инженеров (непосредственное написание кода, обработка данных и иная работа с техническим инструментарием), а также специалистов предметной области (в данном случае это лингвисты, способные адекватно интерпретировать полученные результаты).

Члены рабочих групп слабо ориентируются в «чужих» областях и не специализируются непосредственно на противодействии экстремизму и терроризму. Чаще всего, у них есть ряд исследовательских задач иного характера, на которые они периодически переключаются (установлено путем мониторинга академической активности наиболее перспективных коллективов), а при выпадении одного из специалистов остальные фокусируются на своих областях. В целом, данная проблема характерна для трансдисциплинарных областей научного знания как таковых;

2) недостаточность технических компетенций: нередко авторы не владеют методами машинного обучения (напр., операция нормализации данных для логистической регрессии нередко сама по себе позволяет повысить точность модели на несколько десятков процентных пунктов, но практически нигде не задействована либо не описана). Отсюда, оценки качества моделей представляются слабо обоснованными, как и выводы касаемо результатов их сопоставления в решении тех или иных исследовательских задач;

3) в отдельных случаях недостаточное внимание уделяется методологии и структурированию работ, изучение чужих исследований (related work) нередко носит формальный характер; горизонтальное взаимодействие между коллективами из разных учреждений практически не развито;

4) практически отсутствуют стандартизированные наборы данных (корпуса) достаточного объема (для качественного обучения моделей), доступные исследователям для решения соответствующих задач безопасности. Наборы формируются исследовательскими коллективами самостоятельно, сведений об экспертном оценивании исходных данных, как правило, не приводится, и соотнесение таких наборов (а также контрольных материалов как «допустимого», так и «недопустимого» характера) между собой представляет собой отдельную методологическую проблему;

5) крайне слабо охвачены такие каналы коммуникации, как мессенджеры (за исключением разработки DLP-систем) — в частности, Telegram, являющийся одной из наиболее перспективных площадок информационного обмена (в т.ч. обмена информацией экстремистского, террористического и антиправового характера).

Помимо вышеизложенного, целесообразно упомянуть, что «экстремизм» как область академических интересов специфичен для РФ/СНГ, но в меньшей степени — для англоязычных стран.

В целом, семантические границы концептов «экстремизм» и «терроризм» обусловлены идеологически и политически; отсюда, практика выявления признаков экстремизма, носящая одновременно «беспристрастный, независимый, достоверный и взвешенный» характер («unbiased, independent, verified, balanced»), остается скорее умозрительным явлением, и в последнее время вышеизложенная проблема дополнительно усугубляется повышением накала геополитического и информационного противоборства.

Заключение

Настоящий обзор охватывает 63 русскоязычные и зарубежные публикации за 2014‑2022 гг., посвященные вопросам применения машинного и глубокого обучения в решении задач выявления признаков экстремизма и терроризма в текстах социальных сетей и новостей.

В общем виде задача по выявлению содержания экстремистской и террористической направленности решается путем бинарной классификации текстов на «разрешенные» (нейтральные, классические, допустимые и т.п.) и «запрещенные» (террористические, экстремистские, радикальные, деструктивные, подозрительные и т.п.) на основе отобранных дифференцирующих признаков. Алгоритм классификации выглядит следующим образом:

1. Выбор или составление набора данных и его разметка.

2. Подготовка данных к обработке (очистка и (или) обогащение).

3. Извлечение дифференцирующих признаков:

1) лексические (токенизация, удаление стоп-слов, лемматизация, стемминг);

2) морфологические (частеречная разметка и установление соотношений частей речи);

3) синтаксические (выделение именных, глагольных и др. групп);

4) семантические (тематическое моделирование, аннотирование и установление семантического сходства, распознавание именованных сущностей, выявление релевантных фрагментов и ключевых слов);

5) прагматические (сентимент- и аффект-анализ).

4. Числовое представление признаков (бинарное, частотное, удельно-частотное).

5. Отбор признаков (методы фильтрации, надстройки и вложенные методы).

6. Подбор и обучение модели-классификатора (наиболее распространенные: логистическая регрессия, метод опорных векторов, решающее дерево, случайный лес, наивный байесовский алгоритм и алгоритм k-ближайших соседей; либо нейронные сети — преимущественно на основе рекуррентных архитектур).

7. Оценка эффективности классификатора (наиболее распространенные метрики: precision, recall, F1/F-мера, accuracy, ROC AUC; отмечается, что для наборов с дисбалансом данных ROC AUC предпочтительнее, нежели accuracy).

Также выявлен ряд проблемных областей, касающихся как неоднородного качества научных работ, так и сложностей с подбором релевантного набора данных, формированием необходимого набора компетенций в исследовательском коллективе и противодействием методикам выявления противоправного контента со стороны лиц, его распространяющих.

 

Список литературы:
1. Abbas S.K., George L.E. The Performance Differences between Using Recurrent Neural Networks and Feedforward Neural Network in Sentiment Analysis Problem // Iraqi Journal of Science. – 2020. – Vol. 61, No. 6. – P. 1512-1524. – DOI: 10.24996/ijs.2020.61.6.31.
2. Araque O, Iglesias CA. An Approach for Radicalization Detection Based on Emotion Signals and Semantic Similarity // IEEE Access. – 2020. – Vol. 8. – P. 17877–17891. – DOI:10.1109/ACCESS.2020.2967219.
3. Abrar M.F., Arefin M.S., Hossain Md.S. A Framework for Analyzing Real-Time Tweets to Detect Terrorist Activities // 2019 International Conference on Electrical, Computer and Communication Engineering (ECCE). – IEEE, 2019. – DOI:10.1109/ECACE.2019.8679430. – [Электронный ресурс]: электронная версия. – Режим доступа: http://103.99.128.19:8080/jspui/bitstream/123456789/281/1/A%20Framework%20for%20Analyzing%20Real-Time%20Tweets%20to.pdf (дата обращения: 27.05.2024).
4. Agarwal P, Sharma M, Chandra S. Comparison of Machine Learning Approaches in the Prediction of Terrorist Attacks // 2019 Twelfth International Conference on Contemporary Computing (IC3). – IEEE, 2019. – DOI:10.1109/IC3.2019.8844904. – [Электронный ресурс]: электронная версия. – Режим доступа: https://ieeexplore.ieee.org/document/8844904 (дата обращения: 27.05.2024).
5. Ahmad S., Asghar M.Z., Alotaibi F.M., Awan I. Detection and classification of social media-based extremist affiliations using sentiment analysis techniques // Human-centric Computing and Information Sciences. – 2019. Vol. 9, No. 1. – DOI:10.1186/s13673-019-0185-6. – [Электронный ресурс]: электронная версия. – Режим доступа: https://hcis-journal.springeropen.com/articles/10.1186/s13673-019-0185-6 (дата обращения: 27.05.2024).
6. AL-Harbi N., Kamsin A. An Effective Text Classifier using Machine Learning for Identifying Tweets’ Polarity Concerning Terrorist Connotation // International Journal of Information Technology and Computer Science (IJITCS). – 2021. – Vol. 13(5). – P. 19–29. – DOI:10.5815/ijitcs.2021.05.02.
7. Boukabous M, Azizi M. Crime prediction using a hybrid sentiment analysis approach based on the bidirectional encoder representations from transformers // Indonesian Journal of Electrical Engineering and Computer Science. – 2022. – Vol. 25. – P. 1131–1139. – DOI:10.11591/ijeecs.v25.i2.pp1131-1139.
8. Cohen K., Johansson F., Kaati L., Mork , J.C. Detecting linguistic markers for radical violence in social media // Terrorism and Political Violence – 2014. – Vol. 26, No. 1. – pp. 246–256.
9. Diab S. Optimizing Stochastic Gradient Descent in Text Classification Based on Fine-Tuning Hyper-Parameters Approach. A Case Study on Automatic Classification of Global Terrorist Attacks // International Journal of Computer Science and Information Security (IJCSIS). – 2018. – Vol. 16, No. 12. – P. 155–160. – DOI:10.48550/arXiv.1902.06542.
10. Djaballah K.A., Boukhalfa K., Boussaid O. Sentiment Analysis of Twitter * Messages using Word2vec by Weighted Average // 2019 Sixth International Conference on Social Networks Analysis, Management and Security (SNAMS). – IEEE, 2019. – P. 223–228. – DOI:10.1109/SNAMS.2019.8931827.
11. Ferrara E., Wang W.-Q., Varol O., Flammini A., Galstyan A. Predicting Online Extremism, Content Adopters, and Interaction Reciprocity // Social Informatics: 8th International Conference. – Springer International Publishing, 2016. – P. 22–39. – DOI:10.1007/978-3-319-47874-6_3.
12. Finlayson M.A., Halverson J.R. and Corman S. R. The N2 corpus: A semantically annotated collection of Islamist extremist stories. // LREC –2014. – pp. 896–902.
13. Jacob R. Scanlon, Matthew S. Gerber. Forecasting Violent Extremist Cyber Recruitment // IEEE Trans. Information Forensics and Security. – 2015. – Vol. 10(11). – P. 2461–2470.
14. Johnston A., Marku A. Identifying Extremism in Text Using Deep Learning // Development and Analysis of Deep Learning Architectures. – Springer International Publishing, 2020. – P. 267–289. – DOI:10.1007/978-3-030-31764-5_10.
15. Kim S, Fiorini N, Wilbur WJ, Lu Z. Bridging the gap: Incorporating a semantic similarity measure for effectively mapping PubMed queries to documents // Journal of Biomedical Informatics. – 2017. – Vol. 75 (Issue C). – P. 122–127. – DOI:10.1016/j.jbi.2017.09.014.
16. Lau J.H., Baldwin T. An Empirical Evaluation of doc2vec with Practical Insights into Document Embedding Generation // 1st Workshop on Representation Learning for NLP. – Berlin, Germany, 2016. – P. 78–86.
17. Mujtaba G, Shuib L, Raj RG, Gunalan R. Detection of suspicious terrorist emails using text classification: A review // Malaysian Journal of Computer Science. – 2018. – Vol. 31 No. 4. – P. 271–299.
18. Mussiraliyeva S., Bolatbek M., Omarov B., Bagitova  K. Detection of Extremist Ideation on Social Media Using Machine Learning Techniques // Computational Collective Intelligence. Lecture Notes in Computer Science. – Springer International Publishing. – 2020. – P. 743–752. – DOI:10.1007/978-3-030-63007-2_58.
19. Najjar E., Al-augby S. Sentiment Analysis Combination in Terrorist Detection on Twitter *: A Brief Survey of Approaches and Techniques // Research in Intelligent and Computing in Engineering. Advances in Intelligent Systems and Computing. – Springer. – 2021. – P. 231–240. – DOI:10.1007/978-981-15-7527-3_23.
20. Sarker A., Chakraborty P., Sha S.M.S., Khatun M., Hasan M.R., Banerjee K. Improvised Technique for Analyzing Data and Detecting Terrorist Attack Using Machine Learning Approach Based on Twitter * Data // Journal of Computer and Communications. – 2020. – Vol. 8(7). – P. 50–62. – DOI:10.4236/jcc.2020.87005.
21. Sharif O., Hoque M.M., Kayes A.S.M., Nowrozy R., Sarker I.H. Detecting Suspicious Texts Using Machine Learning Techniques // Applied Sciences. – 2020. – Vol. 10(18). – P. 6527. – DOI:10.3390/app10186527 [Электронный ресурс]: электронная версия. – Режим доступа: https://www.mdpi.com/2076-3417/10/18/6527 (дата обращения: 20.12.2023).
22. Sun C. et al. How to fine-tune BERT for text classification? // China National Conference on Chinese Computational Linguistics. – Springer: Cham, 2019. – P. 194–206.
23. Sureka A., Agarwal S. Learning to Classify Hate and Extremism // 2014 IEEE Joint Intelligence and Security Informatics Conference (JISIC). – IEEE. – P. 320. – DOI: 10.1109/JISIC.2014.65. – [Электронный ресурс]: электронная версия. – Режим доступа: https://ieeexplore.ieee.org/document/6975603/ (дата обращения: 20.12.2023).
24. Wang S. and Koopman R. Semantic embedding for information retrieval // BIR 2017 Workshop on Bibliometric-enhanced Information Retrieval. – 2017. – P. 122–131.
25. Xin Z, Tianbo W, Haiqiang C, Qiang Y, Xiaohai H. Automatic Annotation of Text Classification Data Set in Specific Field Using Named Entity Recognition // 2019 IEEE 19th International Conference on Communication Technology (ICCT). – IEEE, 2019. – P. 1403–1407. – DOI:10.1109/ICCT46805.2019.8947058.
26. Аванесян Н.Л., Соловьев Ф.Н., Тихомирова Е.А., Чеповский А.М. Выявление значимых признаков противоправных текстов // Вопросы кибербезопасности. – 2020. – № 4 (38). – С. 76–84.
27. Ананьева М.И. Автоматическое обнаружение экстремистских текстов в сети. Создание русскоязычного корпуса // Управление информационной безопасностью в современном обществе. – 2017. – С. 7–11.
28. Ананьева М.И., Девяткин Д.А., Кобозева М.В., Смирнов  И.В. Лингвостатистический анализ текстов экстремистской направленности  // Ситуационные центры и информационно-аналитические системы класса 4i для задач мониторинга и безопасности: материалы Международной конференции (SCVRT2015-16). – Пущино: ЦарьГрад, 21 24 ноября 2015-2016 гг. – С. 210–213.
29. Ананьева М.И., Кобозева М.В., Соловьев Ф.Н., Поляков И.В., Чеповский А.М. О проблеме выявления экстремистской направленности в текстах // Вестник Новосибирского государственного университета. Серия: Информационные технологии. – 2016. – Т. 14. № 4. – С. 5–13.
30. Бурлуцкий В.В., Керамов Н.Д., Балуев В.А., Изерт М.И., Якимчук А.В. Разработка мультиагентной интеллектуальной системы для решения задач классификации и ранжирования материалов в сети Интернет // Вестник Югорского государственного университета. – 2020. – № 3 (58). – С. 47–52.
31. Веретенников И.С., Карташев Е.А., Царегородцев А.Л. Оценка качества классификации текстовых материалов с использованием алгоритма машинного обучения «случайный лес» // Известия Алтайского государственного университета. – 2017. – № 4 (96). – С. 78-83.
32. Гончаров А.Б., Рыбаков А.В., Ажмухамедов И.М Автоматизированный анализ текстов экстремистской направленности // Математические методы в технике и технологиях - ММТТ. – 2019. – Т. 8. – С. 91–95.
33. Девяткин Д.А. и др. Выявление лингвистических признаков текстов противоправного содержания на русском языке. // V Международная научно-практическая конференция «Управление информационной безопасностью в современном обществе» (30 мая — 1 июня 2017 г.): сб. науч. тр. – М.: Издательский дом НИУ ВШЭ, 2017. – С. 60–67.
34. Золотарев О.В., Шарнин М.М., Клименко С.В. Семантический подход к анализу террористической активности в сети Интернет на основе методов тематического моделирования // Вестник Российского нового университета. Серия: Сложные системы: модели, анализ и управление. – 2016. – № 3. – С. 64-71.
35. Карпова А.Ю., Савельев А.О., Вильнин А.Д., Чайковский Д.В. Новые технологии выявления ультраправых экстремистских сообществ в социальных медиа // Вестник Томского государственного университета. Философия. Социология. Политология. – 2019. – № 52. – С. 138–146.
36. Колмогорова А.В., Калинин А.А., Маликова А.В. Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент-анализа русскоязычных текстов // Актуальные проблемы филологии и педагогической лингвистики. – 2018. – № 1(29). – С. 139-148.
37. Кузнецов С.А. Сравнение методов оценки семантического сходства на основе doc2vec и TF-IDF // Электронные средства и системы управления. Материалы докладов XVII Международной научно-практической конференции. – Томск: ТУСУР, 2021. – № 1-2. – С. 166–168.
38. Лаврентьев А.М., Смирнов И.В., Соловьев Ф.Н., Суворова М.И., Фокина А.И., Чеповский А.М. Анализ корпусов текстов террористической и антиправовой направленности // Вопросы кибербезопасности. – 2019. – № 4 (32). – С. 54-60.
39. Лаврентьев А.М., Соловьев Ф.Н., Суворова (Ананьева) М.И., Фокина А.И., Чеповский А.М. Новый комплекс инструментов автоматической обработки текста для платформы TXM и его апробация на корпусе для анализа экстремистских текстов // Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация. – 2018. – Т. 16. № 3. – С. 19–31.
40. Лаврентьев А.М., Рябова Д.М., Тихомирова Е.А., Фокина А.И., Чеповский А.М., Шерстинова Т.Ю. Сравнительный анализ специальных корпусов текстов для задач безопасности // Вопросы кибербезопасности. – 2020. – № 3 (37). – С. 58–65.
41. Машечкин И.В., Петровский М.И., Поспелова И.И., Царев  Д.В. Методы автоматического аннотирования и выделения ключевых слов в задачах обнаружения экстремистской информации в сети Интернет // Современные информационные технологии и ИТ-образование. – 2016. – Т. 12. – № 1. – С. 188–198.
42. Машечкин И.В., Петровский М.И., Царев Д.В. Методы машинного обучения для анализа поведения пользователей при работе с текстовыми данными в задачах информационной безопасности // Вестник Московского университета. Серия 15: Вычислительная математика и кибернетика. – 2016. – № 4. – С. 33–39.
43. Машечкин И.В., Петровский М.И., Царев Д.В., Чикунов М.Н. Методы машинного обучения для задачи обнаружения и мониторинга экстремистской информации в сети Интернет // Программирование. – 2019. – № 3. – С. 18–37.
44. Минаев В.А., Бондарь К.М., Симонов А.В., Скрипко П.Б. Мониторинг и выявление деструктивных информационных воздействий в современных социальных медиа // Информационная безопасность: вчера, сегодня, завтра. Сборник статей по материалам V Международной научно-практической конференции. – Москва, 2022. – С. 140–145.
45. Минаев В.А., Поликарпов Е.С., Симонов А.В. Применение глубинных нейронных сетей для выявления деструктивного контента в социальных медиа // Информация и безопасность. – 2021. – Т. 24. № 3. – С. 361–372.
46. Минаев В.А., Симонов А.В. Выявление контента террористического и экстремистского характера в информационных системах с помощью DLP технологий // Информационная безопасность: вчера, сегодня, завтра. Сборник статей по материалам III Международной научно-практической конференции. – М.: РГГУ, 2020. – С. 99–105.
47. Минаев В.А., Симонов А.В. Повышение точности идентификации контента экстремистского характера в социальных медиа // Информационная безопасность: вчера, сегодня, завтра. Сборник статей по материалам V Международной научно-практической конференции. – Москва, 2022. – С. 80-86.
48. Минаев В.А., Симонов А.В., Реброва А.Д. Автоматизированное выявление деструктивного контента в социальных медиа // Информационная безопасность: вчера, сегодня, завтра. Сборник статей по материалам IV Международной научно-практической конференции. – М.: РГГУ, 2021. – С. 124–130.
49. Михайлов А.С., Соколова Т.В., Чеповский А.А., Чеповский А.М. Выявление тематической направленности текстов на естественных языках // Искусственный интеллект и принятие решений. – 2016. – № 1. – С. 9–17.
50. Моделирование в корпусной лингвистике: специализированные корпусы русского языка / Захаров В.П., Азарова И.В., Митрофанова О.А., Попов А.М., Хохлова М.В., Под ред. Захарова В.П. – СПб.: Изд-во СПбГУ, 2019. – 208 с.
51. Остапенко А.Г., Чапурин Е.Ю., Соколова Е.С., Зимницкий А.Г., Боков И.А., Лихобабин С.В., Ткаченко А.О., Дегтярев А.И. Программное обеспечение для мониторинга процессов восприятия и распространения деструктивных контентов в социальных сетях // Информация и безопасность. – 2019. – Т. 22. № 2. – С. 188–205.
52. Поляков И.В., Соколова Т.В., Чеповский А.А., Чеповский А.М. Проблема классификации текстов и дифференцирующие признаки // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. – 2015. – Т. 13, № 2. – С. 55–63.
53. Поляков П.Ю., Калинина М.В., Плешко В.В. Опыт построения системы автоматического определения тональности объектов на основе синтактико-семантического анализатора // Электронные библиотеки. – 2015. – Т. 18, № 3-4. – С. 184–202.
54. Рубцова Ю.В. Построение корпуса текстов для настройки тонового классификатора // Программные продукты и системы. – 2015. – № 1 (109). – С.72–78.
55. Сабинин О.Ю., Шкурина М.В. Обзор и анализ методов автоматического аннотирования текста // Theoretical & Applied Science. – 2018. – № 12 (68). – С. 282–286.
56. Усманов И.М., Силаева Н.А. Противодействие экстремизму в условиях информатизации общества // Вестник Санкт-Петербургского университета МВД России. – 2022. – № 1 (93). – С. 168–175.
57. Фадеев Д.О., Мошкин В.С., Андреев  И.А. Интеллектуальный алгоритм поиска текстов экстремистской направленности // Информационные технологии и нанотехнологии (ИТНТ-2021). Сборник трудов по материалам VII Международной конференции и молодежной школы. – Самара, 2021. – С. 30612. – [Электронный ресурс]: электронная версия. – Режим доступа: http://repo.ssau.ru/bitstream/Informacionnye-tehnologii-i-nanotehnologii/Intellektualnyi-algoritm-poiska-tekstov-ekstremistskoi-napravlennosti-Tekst-elektronnyi-91068/1/54paper030612.pdf (дата обращения: 20.12.2023).
58. Фаткиева Р.Р., Пузако И.А. Метод распознавания информационных угроз с использованием рекуррентной нейронной сети // Информационная безопасность регионов России (ИБРР-2021). Материалы XII Санкт-Петербургской межрегиональной конференции. – СПб.: СПОИСУ, 2021. – С. 374–377.
59. Фаткулин Б. Г. Использование теории множеств в сравнительно-логических методах выделения текстов на исламскую тематику в процессе мониторинга сетевых ресурсов // Вестн. ЮУрГУ. Серия «Лингвистика». – 2016. – Т. 13, № 3. – С. 22–26.
60. Чеповский А.М. Информационные модели в задачах обработки текстов на естественных языках. – 2-е изд., перераб. – М.: Национальный открытый университет «ИНТУИТ», 2015. – 276 с.
61. Шарнин М.М., Ищенко Н.С., Маравин А.А., Хакимова А.Х., Родина И.В. Термины-антагонисты как маркер экстремистской деятельности: определение, свойства и выявление // Международная научная конференция SCVRT2019 «Ситуационные центры и информационно-аналитические системы класса 4i для задач мониторинга и безопасности». Труды Международной научной конференции. – Нижний Новгород: ННГАСУ, 2019. – С. 228–243.
62. Шарнин М.М., Ищенко Н.С., Пахмутова Н.Ю., Маравин А.А. Термины-антагонисты как маркер террористической деятельности // Международная научная конференция Нижегородского государственного архитектурно-строительного университета и Научно-исследовательского центра физико-технической информатики (CPT2019). Труды Международной научной конференции. – Нижний Новгород: ННГАСУ, 2019. – С. 308–318.
63. Шарнин М.М., Хакимова А.Х., Родина И.В., Маравин А.А., Гуров А.С. Единая автоматизированная технология обнаружения и анализа экстремистского контента в Интернете // Международная научная конференция Московского физико-технического института (государственного университета) Института физико-технической информатики (SCVRT2018). Труды Международной научной конференции. – М.: Протвино, 2018. – С. 49–58.
64. Федеральный список экстремистских материалов [Электронный ресурс]: сайт Министерства юстиции Российской Федерации. – Режим доступа: https://minjust.gov.ru/ru/extremist-materials/ (дата обращения: 20.12.2023)
 

*социальная сеть, запрещенная на территории РФ, как продукт организации Meta, признанной экстремистской – прим.ред.