МОДЕЛИРОВАНИЕ РАСПРОСТРАНЕНИЯ ИНФОРМАЦИИ В СОЦИАЛЬНЫХ СЕТЯХ НА ОСНОВЕ ТЕОРИИ ЭПИДЕМИЙ (SIR-МОДЕЛЬ)
Конференция: CCCXXII Студенческая международная научно-практическая конференция «Молодежный научный форум»
Секция: Физико-математические науки

CCCXXII Студенческая международная научно-практическая конференция «Молодежный научный форум»
МОДЕЛИРОВАНИЕ РАСПРОСТРАНЕНИЯ ИНФОРМАЦИИ В СОЦИАЛЬНЫХ СЕТЯХ НА ОСНОВЕ ТЕОРИИ ЭПИДЕМИЙ (SIR-МОДЕЛЬ)
MODELING THE DISSEMINATION OF INFORMATION ON SOCIAL NETWORKS BASED ON EPIDEMIC THEORY (SIR MODEL)
Mialeshka Maksim Anatolyevich
Student, Department of Management, Belarusian State University of Informatics and Radioelectronics, Republic of Belarus, Minsk
Tereshchuk Ivan Yuryevich
Student, Belarusian State University of Informatics and Radioelectronics, Republic of Belarus, Minsk
Fedosyuk Lyudmila Petrovna
Senior lecturer at the Department of Economics Computer Science, Belarusian State University of Informatics and Radioelectronics, Republic of Belarus, Minsk
Аннотация. В работе рассматривается задача моделирования процессов распространения информации в социальных сетях на основе эпидемиологического подхода и методов теории вероятностей. Показано, что динамика информационных потоков обладает стохастической природой, что делает использование классических детерминированных схем недостаточным. В качестве базовой модели применена SIR-структура, позволяющая описывать переходы пользователей между состояниями восприятия, активного распространения и утраты интереса. Приведено математическое обоснование детерминированной и стохастической форм SIR-модели. Особое внимание уделено анализу влияния параметров модели и структуры сети на характер распространения информации. Описаны связи модели с задачами статистической идентификации параметров и возможностями практического применения. Полученные результаты могут использоваться при исследовании поведения пользователей, прогнозировании информационных волн и построении аналитических инструментов для социальных платформ.
Abstract. The article considers the problem of modeling information dissemination processes in social networks based on an epidemiological approach and probability theory methods. It is shown that the dynamics of information flows has a stochastic nature, which makes the use of classical deterministic schemes insufficient. The SIR structure is used as the basic model, allowing the description of user transitions between the states of perception, active dissemination, and loss of interest. A mathematical justification of the deterministic and stochastic forms of the SIR model is provided. Particular attention is paid to analyzing the influence of model parameters and network structure on the nature of information dissemination. The model's connections with the tasks of statistical parameter identification and practical application possibilities are described. The results obtained can be used in researching user behavior, forecasting information waves, and building analytical tools for social platforms.
Ключевые слова: теория вероятностей; математическая статистика; SIR-модель; стохастические процессы; распространение информации; социальные сети; эпидемиологическое моделирование; сетевые структуры.
Keywords: probability theory; mathematical statistics; SIR model; stochastic processes; information dissemination; social networks; epidemiological modeling; network structures.
Процессы распространения информации в современных социальных сетях представляют собой сложные многокомпонентные явления, в которых каждый пользователь играет роль элемента стохастической системы, оказывающей влияние на её динамику. Социальные платформы формируют среду, где информация циркулирует непрерывно, а решения о просмотре, репосте или игнорировании контента принимаются пользователями под воздействием множества факторов. Наличие вероятностной природы этих решений, а также сильная зависимость от структуры сети и характеров связей между её участниками приводит к тому, что моделирование информационного распространения требует применения аппарата теории вероятностей и математической статистики. Одним из наиболее продуктивных направлений такого моделирования является адаптация эпидемиологических моделей, изначально созданных для описания биологических инфекций, к тематике информационных каскадов. Эпидемиологическая парадигма оказывается методологически удобной благодаря тому, что процессы заражения и распространения информации имеют концептуально близкие структуры: они каскадны, вероятностны и опираются на взаимодействие множества агентов.
Использование эпидемиологических подходов стало особенно распространённым после обнаружения того факта, что многие характеристики информационных потоков подчиняются тем же закономерностям, что и биологические эпидемии. Например, информация распространяется локально, через непосредственные связи между пользователями, и не каждая попытка передачи приводит к «заражению» — то есть к тому, что пользователь начинает делиться информацией с другими. Параметры, определяющие успешность передачи, аналогичны коэффициентам заражения в биологии. В этом смысле эпидемиологические модели дают не только математическую основу, но и удобный понятийный аппарат для анализа механизмов возникновения информационных вспышек, их развития, затухания и возможного управления.
Наиболее простой и в то же время фундаментальной моделью эпидемического типа является SIR-модель, разделяющая популяцию на три состояния: восприимчивых, инфицированных и удалённых. В контексте информации эти состояния интерпретируются соответственно как пользователи, которые ещё не видели сообщение, но могут стать его распространителями; пользователи, уже активно делящиеся информацией; и пользователи, утрачивающие интерес или прекращающие участие в распространении по другим причинам. Такое разбиение оказывается удивительно точным, поскольку любая информационная волна действительно имеет фазы роста, насыщения и угасания. Применение кибернетического подхода позволяет изучать эти фазы количественно, прогнозировать их длительность и анализировать влияние параметров модели на структуру распространения.
Однако базовая SIR-модель обладает рядом ограничений. В частности, она предполагает однородность популяции, предполагая одинаковые вероятности передачи для всех пользователей. В реальных социальных сетях различия между пользователями существенны: одни обладают большим числом связей, другие — малым; одни активно делятся информацией, другие почти не проявляют активности; поведение некоторых пользователей может быть детерминировано алгоритмами рекомендаций. Поэтому дальнейшее развитие SIR-подхода связано с необходимостью математически корректного учёта этих особенностей. Тем не менее SIR-модель остаётся удобной отправной точкой для формализации задачи и позволяет строить дальнейшие обобщения на основе строгого вероятностного фундамента.
Математическая формализация SIR-модели рассматривает популяцию как систему, в которой каждый элемент находится в одном из трёх состояний, а переходы между ними описываются вероятностными законами. Пусть общее число пользователей равно N, а в момент времени t количество восприимчивых, инфицированных и удалённых пользователей обозначается как S(t), I(t) и R(t). Тогда выполняется простое тождество S(t) + I(t) + R(t) = N, позволяющее использовать систему дифференциальных или стохастических уравнений для описания динамики. В простейшем случае переход из состояния S в состояние I описывается интенсивностью β, пропорциональной как числу восприимчивых, так и числу инфицированных пользователей. Параметр β интерпретируется как вероятность успешной передачи информации при контакте. Переход из состояния I в состояние R описывается интенсивностью γ, которая определяет скорость «выздоровления», то есть прекращения активности. Эти два параметра составляют основу SIR-модели, и их оценка по данным является одной из центральных задач статистического анализа.
В детерминированной версии модели используется система дифференциальных уравнений, позволяющая получить среднюю траекторию развития процесса. Эта система демонстрирует типичное поведение: начальный экспоненциальный рост числа инфицированных пользователей сменяется достижением максимума, после которого число активных распространителей постепенно уменьшается. Количественные характеристики этого процесса зависят от параметра R₀ = β/γ, называемого базовым репродуктивным числом. В информационном контексте R₀ можно интерпретировать как среднее число пользователей, которых один активный пользователь «заразит» сообщением прежде, чем перестанет проявлять активность. Если R₀ > 1, возможно возникновение крупной волны, тогда как при R₀ < 1 распространение затухает. Это свойство позволяет проводить предварительную оценку общего потенциала информационного сообщения и анализировать факторы, которые могут усилить или ослабить его распространение.
Детерминированная модель удобна для анализа средних характеристик процесса, но она не учитывает случайность реального поведения пользователей. Поэтому стохастическая версия модели играет важную роль в практических исследованиях. В стохастической постановке каждый переход является вероятностным событием, а система описывается непрерывным марковским процессом с зависимыми от времени интенсивностями. Это позволяет анализировать распределение времени до максимума активности, вероятность возникновения крупной волны при заданных параметрах, вариативность траекторий и другие тонкие эффекты. Такие особенности крайне важны в социальных сетях, где контент может не получить распространения из-за ряда случайных обстоятельств. Статистическая природа процесса приводит к тому, что даже при одинаковых параметрах две траектории могут сильно различаться, и это следует учитывать при моделировании.
Реалистичное моделирование распространения информации невозможно без учёта сетевой структуры. Социальные сети представляют собой графы, где вершины — пользователи, а рёбра — их связи. При этом структура графа оказывает прямое влияние на динамику распространения. В отличие от однородной модели, где каждый пользователь имеет одинаковое количество потенциальных контактов, реальный граф содержит «хабы» с огромным числом связей, периферийных пользователей и сложные многоуровневые структуры. В сетевой версии SIR-модели переходы между состояниями определяются локальной структурой графа: вероятность того, что пользователь перейдёт в состояние I, зависит от числа активных соседей. В результате динамика становится сильно неоднородной, и появление нескольких инфицированных пользователей в области графа с высокой связностью может привести к большому скачку распространения. Именно сетевые модели позволяют объяснить, почему некоторые сообщения становятся вирусными, а другие — нет, даже если имеют схожее содержательное значение.
Важным аспектом является влияние спектральных характеристик графа на критические пороговые значения. В сетевой постановке базовое репродуктивное число зависит не только от β и γ, но и от максимального собственного значения матрицы смежности графа. Это значение отражает степень связности сети и влияет на способность информации расползаться по системе. Социальные сети, как правило, обладают безмасштабной структурой, что делает пороговые условия чрезвычайно низкими. Это означает, что даже сообщения с небольшим значением β могут стать вирусными, если распространяются через узлы с высокой степенью связности. Такой феномен объясняет многие наблюдаемые эффекты: неожиданную популярность отдельных постов, возникновение флешмобов и динамику новостных событий.
Отдельного внимания заслуживает вопрос анализа динамики. Качественный анализ SIR-модели позволяет выделить несколько характерных режимов: отсутствие распространения, умеренное распространение и крупная волна. Исследование устойчивости стационарных точек, анализ пика активности, скорость снижения после пика, а также зависимость этих характеристик от параметров модели позволяют не только понять природу конкретного информационного процесса, но и выработать методы управления. Например, изменение параметра β может быть связано с модерацией контента или снижением охвата, а изменение γ — с усилением конкурирующей информации или общим снижением интереса аудитории.
Статистическая интерпретация параметров SIR-модели делает возможной их оценку по реальным данным. Это особенно важно, поскольку социальные платформы предоставляют разнообразные метрики: количество перепостов, частоту просмотров, скорость комментариев, динамику роста охвата. Методы максимального правдоподобия, байесовские методы, бутстрэп-подходы и марковские цепи Монте-Карло используются для получения оценок параметров и определения доверительных интервалов. Это позволяет переходить от теоретической модели к реальному прогнозированию и анализу поведения пользователей. Задача параметрической идентификации одновременно сложна и важна: данные социальных сетей обладают высокой вариативностью, неполнотой и зачастую не подчиняются идеальным статистическим предпосылкам. Тем не менее использование вероятностных подходов позволяет получать устойчивые и интерпретируемые результаты, которые затем применяются в маркетинге, управлении информационными потоками, прогнозировании спроса и в других прикладных областях.
Таким образом, SIR-модель и её стохастические модификации представляют собой мощный инструмент для анализа распространения информации в социальных сетях. Их ценность заключается в сочетании математической строгости, статистической интерпретируемости и удивительной универсальности. Несмотря на свою простоту, SIR-подход позволяет получить глубокое понимание природы информационных волн, определить факторы, управляющие их развитием, и сформировать количественные методы прогнозирования. В условиях растущего объёма цифровых данных и ускоряющейся циркуляции информации такие модели приобретают не только академическое, но и практическое значение, создавая основу для аналитики в цифровой экономике и исследования поведения пользователей в динамически изменяющейся информационной среде.





