Статья:

ДЕТЕКТИРОВАНИЕ РУССКОЯЗЫЧНЫХ НОВОСТНЫХ ТЕКСТОВ, СГЕНЕРИРОВАННЫХ МОДЕЛЬЮ YANDEXGPT, НА ОСНОВЕ СТИЛИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ ПРИЗНАКОВ

Журнал: Научный журнал «Студенческий форум» выпуск №6(357)

Рубрика: Технические науки

Выходные данные
Дроботов С.В. ДЕТЕКТИРОВАНИЕ РУССКОЯЗЫЧНЫХ НОВОСТНЫХ ТЕКСТОВ, СГЕНЕРИРОВАННЫХ МОДЕЛЬЮ YANDEXGPT, НА ОСНОВЕ СТИЛИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ ПРИЗНАКОВ // Студенческий форум: электрон. научн. журн. 2026. № 6(357). URL: https://nauchforum.ru/journal/stud/357/183106 (дата обращения: 18.03.2026).
Журнал опубликован
Мне нравится
на печатьскачать .pdfподелиться

ДЕТЕКТИРОВАНИЕ РУССКОЯЗЫЧНЫХ НОВОСТНЫХ ТЕКСТОВ, СГЕНЕРИРОВАННЫХ МОДЕЛЬЮ YANDEXGPT, НА ОСНОВЕ СТИЛИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ ПРИЗНАКОВ

Дроботов Сергей Вячеславович
студент, Донской Государственный Технический Университет, РФ, г. Ростов-на-Дону

 

Аннотация. В этой статье рассматривается задача автоматического распознавания новостных текстов на русском языке, созданных генеративной языковой моделью YandexGPT. Актуальность исследования обусловлена активным внедрением отечественных нейросетевых моделей в медиасреду и отсутствием специализированных методов верификации контента для русского языка. В работе представлен оригинальный датасет объемом 2000 документов, включающий реальные новости и их аналоги, сгенерированные YandexGPT. Предложен подход к класиффикации на основе 20 стилистических и статистических признаков с использованием градиентного бустинга (CatBoost). Экспериментально показано, что предложенная модель достигает F1-меры 0,989, незначительно опережая fine-tuning архитектуры ruBERT. С помощью анализа важности признаков выявлены ключевые маркеры, отличащие синтетические тексты от человеческих: сниженное лексическое ращнообразие, повышенная длина предложения и избыточная доля прилагательных.

 

Ключевые слова: Ключевые слова: YandexGPT, детектирование синтетических текстов, новостные тексты, стилистический анализ, машинное обучение, CatBoost, русский язык.

 

За последние годы генеративные модели стали серьёзной проблемой для новостной среды – ими всё чаще пользуются для создания фейков. Существующие методы детектирования заточены под английский язык и модели GPT, а на русском работают плохо. При этом отечественные модели вроде YandexGPT активно используются, а инструментов проверки нет.

Цель работы – разработать метод определения русскоязычных новостей, сгенерированных YandexGPT, на основе лингвистических признаков. Нужно собрать датасет, выделить значимые характеристики, обучить модели и понять, что именно выдает генерацию.

Готового датасета не было, собирал сам. Человеческие тексты взял с сайтов ТАСС, РИА Новости и Коммерсанта – отобрал 1100 новостей объёмом 150-700 слов. Синтетические генерировал через Yandex Cloud API: в промпт кидал начало реальных новостей, температура 0.7, получил 1000 текстов после чистки. Итоговая выборка сбалансирована – по 1000 текстов каждого класса.

Выделил 20 признаков: статистические (длина текста, предложений, знаки препинания), лексические (TTR, гапаксы, тональность) и морфологические (части речи). Для тональности использовал rubert-tiny2-sentiment, для морфологии – pymorphy2.

Обучал три модели: CatBoost (глубина 6, learning rate 0.05), логистическую регрессию и ruBERT (дообучал 3 эпохи). Оценка на тестовой выборке 200 текстов.

CatBoost показал лучший результат – F1=0.989, AUC-ROC=0.999. ruBERT чуть отстал (F1=0.984), логистическая регрессия дала 0.92. CatBoost незначительно обошёл нейросетку, видимо, из-за небольшого объёма данных.

Самое интересное – какие признаки оказались важными. На первом месте лексическое разнообразие TTR (21.4%) – у YandexGPT оно ниже (0.47 против 0.59 у человека). Дальше идут средняя длина предложения (15.8%) – у модели предложения длиннее (19.3 против 14.7 слов) и доля прилагательных (12.2%) – у синтетики их 8.9% против 6.2%. Различия статистически значимы. Тональность не важна – новости в среднем нейтральные.

YandexGPT действительно имеет устойчивый "почерк" – более длинные предложения, бедный словарь, много прилагательных. Это похоже на поведение западных моделей, но у нашей признаки выражены ярче, возможно из-за меньшего объёма обучения.

Понятны и ограничения: метод заточен под конкретную версию YandexGPT и новостной жанр, не проверял устойчивость к перефразированию. Есть и этический момент – детектор может ошибаться на людях с бедной речью.

Разработал метод детектирования текстов YandexGPT, собрал датасет из 2000 новостей, выделил ключевые признаки. CatBoost дал точность почти 99% и при этом позволяет понять, на основе чего принимается решение. Главные маркеры генерации – низкое лексическое разнообразие, длинные предложения и много прилагательных. Результаты можно использовать для создания систем проверки контента.

 

Список литературы:
1. Яндекс Облако. Документация YandexGPT API [Электронный ресурс]. – Режим доступа: https://yandex.cloud/ru/docs (дата обращения: 15.01.2026).
2. Gehrmann S., Strobelt H., Rush A.M. GLTR: Statistical detection and visualization of generated text // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. – 2019. – P. 111–116.
3. Fedotova A.M., Romanov A.S. Technique for Identifying Texts Generated by Large Language Models // Informatics and Automation. – 2025. – Vol. 24, No. 5. – P. 1444–1470. DOI: 10.15622/ia.24.5.7.