ДЕТЕКТИРОВАНИЕ РУССКОЯЗЫЧНЫХ НОВОСТНЫХ ТЕКСТОВ, СГЕНЕРИРОВАННЫХ МОДЕЛЬЮ YANDEXGPT, НА ОСНОВЕ СТИЛИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ ПРИЗНАКОВ
Журнал: Научный журнал «Студенческий форум» выпуск №6(357)
Рубрика: Технические науки

Научный журнал «Студенческий форум» выпуск №6(357)
ДЕТЕКТИРОВАНИЕ РУССКОЯЗЫЧНЫХ НОВОСТНЫХ ТЕКСТОВ, СГЕНЕРИРОВАННЫХ МОДЕЛЬЮ YANDEXGPT, НА ОСНОВЕ СТИЛИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ ПРИЗНАКОВ
Аннотация. В этой статье рассматривается задача автоматического распознавания новостных текстов на русском языке, созданных генеративной языковой моделью YandexGPT. Актуальность исследования обусловлена активным внедрением отечественных нейросетевых моделей в медиасреду и отсутствием специализированных методов верификации контента для русского языка. В работе представлен оригинальный датасет объемом 2000 документов, включающий реальные новости и их аналоги, сгенерированные YandexGPT. Предложен подход к класиффикации на основе 20 стилистических и статистических признаков с использованием градиентного бустинга (CatBoost). Экспериментально показано, что предложенная модель достигает F1-меры 0,989, незначительно опережая fine-tuning архитектуры ruBERT. С помощью анализа важности признаков выявлены ключевые маркеры, отличащие синтетические тексты от человеческих: сниженное лексическое ращнообразие, повышенная длина предложения и избыточная доля прилагательных.
Ключевые слова: Ключевые слова: YandexGPT, детектирование синтетических текстов, новостные тексты, стилистический анализ, машинное обучение, CatBoost, русский язык.
За последние годы генеративные модели стали серьёзной проблемой для новостной среды – ими всё чаще пользуются для создания фейков. Существующие методы детектирования заточены под английский язык и модели GPT, а на русском работают плохо. При этом отечественные модели вроде YandexGPT активно используются, а инструментов проверки нет.
Цель работы – разработать метод определения русскоязычных новостей, сгенерированных YandexGPT, на основе лингвистических признаков. Нужно собрать датасет, выделить значимые характеристики, обучить модели и понять, что именно выдает генерацию.
Готового датасета не было, собирал сам. Человеческие тексты взял с сайтов ТАСС, РИА Новости и Коммерсанта – отобрал 1100 новостей объёмом 150-700 слов. Синтетические генерировал через Yandex Cloud API: в промпт кидал начало реальных новостей, температура 0.7, получил 1000 текстов после чистки. Итоговая выборка сбалансирована – по 1000 текстов каждого класса.
Выделил 20 признаков: статистические (длина текста, предложений, знаки препинания), лексические (TTR, гапаксы, тональность) и морфологические (части речи). Для тональности использовал rubert-tiny2-sentiment, для морфологии – pymorphy2.
Обучал три модели: CatBoost (глубина 6, learning rate 0.05), логистическую регрессию и ruBERT (дообучал 3 эпохи). Оценка на тестовой выборке 200 текстов.
CatBoost показал лучший результат – F1=0.989, AUC-ROC=0.999. ruBERT чуть отстал (F1=0.984), логистическая регрессия дала 0.92. CatBoost незначительно обошёл нейросетку, видимо, из-за небольшого объёма данных.
Самое интересное – какие признаки оказались важными. На первом месте лексическое разнообразие TTR (21.4%) – у YandexGPT оно ниже (0.47 против 0.59 у человека). Дальше идут средняя длина предложения (15.8%) – у модели предложения длиннее (19.3 против 14.7 слов) и доля прилагательных (12.2%) – у синтетики их 8.9% против 6.2%. Различия статистически значимы. Тональность не важна – новости в среднем нейтральные.
YandexGPT действительно имеет устойчивый "почерк" – более длинные предложения, бедный словарь, много прилагательных. Это похоже на поведение западных моделей, но у нашей признаки выражены ярче, возможно из-за меньшего объёма обучения.
Понятны и ограничения: метод заточен под конкретную версию YandexGPT и новостной жанр, не проверял устойчивость к перефразированию. Есть и этический момент – детектор может ошибаться на людях с бедной речью.
Разработал метод детектирования текстов YandexGPT, собрал датасет из 2000 новостей, выделил ключевые признаки. CatBoost дал точность почти 99% и при этом позволяет понять, на основе чего принимается решение. Главные маркеры генерации – низкое лексическое разнообразие, длинные предложения и много прилагательных. Результаты можно использовать для создания систем проверки контента.

