МЕТОДЫ И АЛГОРИТМЫ ГЕНЕРАЦИИ СИНТЕТИЧЕСКИХ ДАННЫХ
Журнал: Научный журнал «Студенческий форум» выпуск №17(368)
Рубрика: Технические науки

Научный журнал «Студенческий форум» выпуск №17(368)
МЕТОДЫ И АЛГОРИТМЫ ГЕНЕРАЦИИ СИНТЕТИЧЕСКИХ ДАННЫХ
Аннотация. Представлен обзор методов генерации синтетических данных для в условиях ограниченного доступа к реальным данным. Рассмотрены ключевые подходы, включая генераторы псевдослучайных чисел, генеративные состязательные сети, вариационные автоэнкодеры.
Ключевые слова: синтетические данные, генеративно-состязательные сети, генераторы псевдослучайных чисел, вариационные автоэнкодеры.
Синтетические данные представляют собой искусственно сформированные записи, воспроизводящие статистические и структурные свойства реальных данных, но не содержащие фактической информации о конкретных людях, событиях или объектах [1]. Такие данные создаются с использованием специальных алгоритмов и моделей таким образом, чтобы они сохраняли характерные закономерности исходного набора данных – распределения признаков, корреляции между переменными и другие статистические свойства [2]. Существует множество методов генерации синтетических данных, [3] различающихся по используемым математическим моделям, степени сложности и объёму информации, извлекаемой из исходных данных. В общем виде такие методы можно разделить на две группы: 1) простые алгоритмы, основанные на генерации случайных чисел и статистических распределений, 2) методы машинного обучения, способные моделировать сложные зависимости между признаками. В рамках данной статьи будут рассмотрены три ключевых подхода: использование генераторов псевдослучайных чисел, применение генеративно-состязательных сетей и использование вариационных автоэнкодеров. Каждый из этих методов обладает собственными особенностями, преимуществами и ограничениями.
Генераторы псевдослучайных чисел просты в реализации, обладают высокой скоростью генерации и хорошо подходят для создания больших массивов числовых данных с заранее заданным распределением. Их основное преимущество заключается в детерминированности и возможности точного контроля статистических характеристик создаваемых последовательностей. Однако у таких методов есть существенные ограничения: они не способны моделировать сложные зависимости между признаками, учитывать корреляции и нелинейные взаимодействия, характерные для реальных данных, что делает их малоэффективными для сложных многомерных наборов. Генеративно-состязательные сети, [4] напротив, способны воспроизводить сложные многомерные распределения и моделировать нелинейные зависимости между признаками. Их основное преимущество – возможность создавать синтетические данные высокой реалистичности, близкие по свойствам к исходным данным. К недостаткам относятся высокая вычислительная сложность, нестабильность обучения и риск частичного запоминания реальных данных, что может снижать уровень конфиденциальности. Вариационные автоэнкодеры представляют собой вероятностные модели, обучающиеся кодировать данные в компактное латентное пространство и восстанавливать их обратно. Преимущество метода заключается в устойчивости обучения и способности генерировать новые объекты, сохраняя статистические закономерности исходного набора. Они обеспечивают прозрачное и управляемое латентное представление данных, что упрощает генерацию условных примеров и интерпретацию модели. Для целей проводимых исследований по созданию физико-информированных генеративных моделей машинного обучения более предпочтительным является метод генерации синтетических данных с использованием вариационного автоэнкодера. Основной причиной такого выбора является природа имеющегося набора данных: он состоит из числовых значений, отражающих технологические параметры работы вагранки, включая характеристики дутья, состав и свойства шихты, геометрические параметры шахты и показатели производительности. Эти данные имеют сложные взаимосвязи и непрерывные распределения, которые необходимо сохранить при генерации новых примеров. Данный метод позволяет эффективно кодировать многомерные числовые данные в компактное латентное пространство, изучая их внутренние зависимости, и затем воспроизводить новые реалистичные записи, которые сохраняют статистические закономерности исходного набора. Кроме того, этот метод обеспечивает стабильность обучения и управляемость генерации, что критично при работе с относительно небольшими выборками. Использование вариационных автоэнкодеров создавать синтетические наборы, пригодные для построения моделей технологических процессов и тестирования алгоритмов прогнозирования производительности вагранки.

