Статья:

МЕТОДЫ И АЛГОРИТМЫ ГЕНЕРАЦИИ СИНТЕТИЧЕСКИХ ДАННЫХ

Журнал: Научный журнал «Студенческий форум» выпуск №17(368)

Рубрика: Технические науки

Выходные данные
Дронов А.Ю. МЕТОДЫ И АЛГОРИТМЫ ГЕНЕРАЦИИ СИНТЕТИЧЕСКИХ ДАННЫХ // Студенческий форум: электрон. научн. журн. 2026. № 17(368). URL: https://nauchforum.ru/journal/stud/368/185765 (дата обращения: 18.05.2026).
Журнал опубликован
Мне нравится
на печатьскачать .pdfподелиться

МЕТОДЫ И АЛГОРИТМЫ ГЕНЕРАЦИИ СИНТЕТИЧЕСКИХ ДАННЫХ

Дронов Александр Юрьевич
студент, Сибирский государственный индустриальный университет, РФ, г. Новокузнецк
Кораблина Татьяна Валентиновна
научный руководитель, канд. техн. наук, доц., Сибирский государственный индустриальный университет, РФ, г. Новокузнецк

 

Аннотация. Представлен обзор методов генерации синтетических данных для в условиях ограниченного доступа к реальным данным. Рассмотрены ключевые подходы, включая генераторы псевдослучайных чисел, генеративные состязательные сети, вариационные автоэнкодеры.

 

Ключевые слова: синтетические данные, генеративно-состязательные сети, генераторы псевдослучайных чисел, вариационные автоэнкодеры.

 

Синтетические данные представляют собой искусственно сформированные записи, воспроизводящие статистические и структурные свойства реальных данных, но не содержащие фактической информации о конкретных людях, событиях или объектах [1]. Такие данные создаются с использованием специальных алгоритмов и моделей таким образом, чтобы они сохраняли характерные закономерности исходного набора данных – распределения признаков, корреляции между переменными и другие статистические свойства [2]. Существует множество методов генерации синтетических данных, [3] различающихся по используемым математическим моделям, степени сложности и объёму информации, извлекаемой из исходных данных. В общем виде такие методы можно разделить на две группы: 1) простые алгоритмы, основанные на генерации случайных чисел и статистических распределений, 2) методы машинного обучения, способные моделировать сложные зависимости между признаками. В рамках данной статьи будут рассмотрены три ключевых подхода: использование генераторов псевдослучайных чисел, применение генеративно-состязательных сетей и использование вариационных автоэнкодеров. Каждый из этих методов обладает собственными особенностями, преимуществами и ограничениями.

Генераторы псевдослучайных чисел просты в реализации, обладают высокой скоростью генерации и хорошо подходят для создания больших массивов числовых данных с заранее заданным распределением. Их основное преимущество заключается в детерминированности и возможности точного контроля статистических характеристик создаваемых последовательностей. Однако у таких методов есть существенные ограничения: они не способны моделировать сложные зависимости между признаками, учитывать корреляции и нелинейные взаимодействия, характерные для реальных данных, что делает их малоэффективными для сложных многомерных наборов. Генеративно-состязательные сети, [4] напротив, способны воспроизводить сложные многомерные распределения и моделировать нелинейные зависимости между признаками. Их основное преимущество – возможность создавать синтетические данные высокой реалистичности, близкие по свойствам к исходным данным. К недостаткам относятся высокая вычислительная сложность, нестабильность обучения и риск частичного запоминания реальных данных, что может снижать уровень конфиденциальности. Вариационные автоэнкодеры представляют собой вероятностные модели, обучающиеся кодировать данные в компактное латентное пространство и восстанавливать их обратно. Преимущество метода заключается в устойчивости обучения и способности генерировать новые объекты, сохраняя статистические закономерности исходного набора. Они обеспечивают прозрачное и управляемое латентное представление данных, что упрощает генерацию условных примеров и интерпретацию модели. Для целей проводимых исследований по созданию физико-информированных генеративных моделей машинного обучения более предпочтительным является метод генерации синтетических данных с использованием вариационного автоэнкодера. Основной причиной такого выбора является природа имеющегося набора данных: он состоит из числовых значений, отражающих технологические параметры работы вагранки, включая характеристики дутья, состав и свойства шихты, геометрические параметры шахты и показатели производительности. Эти данные имеют сложные взаимосвязи и непрерывные распределения, которые необходимо сохранить при генерации новых примеров. Данный метод позволяет эффективно кодировать многомерные числовые данные в компактное латентное пространство, изучая их внутренние зависимости, и затем воспроизводить новые реалистичные записи, которые сохраняют статистические закономерности исходного набора. Кроме того, этот метод обеспечивает стабильность обучения и управляемость генерации, что критично при работе с относительно небольшими выборками. Использование вариационных автоэнкодеров создавать синтетические наборы, пригодные для построения моделей технологических процессов и тестирования алгоритмов прогнозирования производительности вагранки.

 

Список литературы:
1. Головин А.С., Генерация синтетических данных в обучении искусственных нейронных сетей, Информационные технологии и безопасность, 2024, №2 С. 7-13.
2. Суворов И.С., Синтетические данные: проблемы и пути их решения, Математические структуры и моделирование 2025. № 3 (75). С. 116-121.
3. Рабчевский, А. Н., Обзор методов и систем генерации синтетических обучающих данных, Прикладная математика и вопросы управления. – 2023. – № 4. – С. 6–45. 
4. Малышев И.О., Смирнов А.А., Обзор современных генеративных нейросетей: отечественная и зарубежная практика, Международный журнал гуманитарных и естественных наук., 2024. № 1–2. С. 168–171.