Синтетические данные в цифровом обществе
Конференция: LXI Студенческая международная научно-практическая конференция «Молодежный научный форум»
Секция: Технические науки
LXI Студенческая международная научно-практическая конференция «Молодежный научный форум»
Синтетические данные в цифровом обществе
Синтетические данные – это информация, которая искусственно создается, а не генерируется событиями реального мира (т. е. производится компьютером). Они создаются алгоритмически и используются для обучения моделей машинного обучения, проверки наборов данных и математических моделей. Данные анонимизируются и формируются на основе пользовательских параметров, с целью максимального приближения к свойствам данных из реальных сценариев (например, обобщённые анонимизированные данные о пользователях сервиса) [1,2].
Создание синтетических данных:
- удаление идентифицирующих аспектов из реальных данных, таких как имена, электронные письма, номера социального страхования и адреса, тем самым делая их анонимными;
- генеративная модель, способная извлекать уроки из реальных данных, также может создавать наборы данных, очень похожих на свойства аутентичных данных.
По мере совершенствования технологий разрыв между синтетическими данными и реальными данными уменьшается.
Польза синтетических данных:
- Ученый-исследователь может использовать синтетический материал для проведения экспериментов с низкими рисками.
- Ученые-аналитики могут использовать синтетические данные для минимизации времени, затрат и риска.
- В некоторых случаях недостаточно большого набора данных для эффективной подготовки алгоритма машинного обучения для каждого возможного сценария, поэтому создание набора данных может обеспечить комплексное обучение.
- Иногда реальные данные не могут использоваться для тестирования, обучения или обеспечения качества из-за проблем с конфиденциальностью (данные конфиденциальны или предназначены для строго регулируемой отрасли) [2].
Большие наборы данных – это то, что приводит в действие машины глубокого обучения и алгоритмы искусственного интеллекта, которые, как ожидается, помогут решать очень сложные проблемы.
Сбор данных довольное трудоёмкий процесс, когда речь идет о машинном обучении, чем больше имеется информации, тем лучше станет ваша модель машинного обучения. Такие компании, как Google, Amazon, Facebook и другие крупные технологические компании могут собирать данные более эффективно и в большем объёме, благодаря их обильным ресурсам и мощной инфраструктуре. Они имеют конкурентное преимущество из-за количества данных, создаваемых ими ежедневно в рамках своего бизнеса [1,2].
Преимущества синтетических данных
- Синтетические данные позволяют организациям любого размера и уровня ресурсов извлекать выгоду из обучения, основанного на глубоких наборах данных, которые в конечном итоге могут демократизировать машинное обучение.
- Создание синтетических данных во многих случаях более эффективно и рентабельно, чем сбор реальных данных.
- Они могут быть созданы по требованию на основе спецификаций, не ожидая сбора реальных данных.
- Синтетические данные могут дополнять данные реального мира, тем самым тестирование может проводиться для каждой мыслимой переменной, даже если в реальном наборе данных нет хорошего примера.
- Они позволяют организациям ускорить тестирование производительности системы и обучения новых систем.
- Уменьшаются ограничения на использование реальных данных для обучения и тестирования.
- Недавние исследования показывают, что с помощью синтетических данных можно получить те же результаты, что и с аутентичными наборами данных.
Недостатки синтетических данных
- Сложность создания высококачественных синтетических данных.
- Генерирующая модель, создающая синтетические данные, должна превосходно работать, в противном случае может быть нанесён вред данным.
- Синтетические данные должны быть идентичны реальному набору данных, иначе это может поставить под угрозу качество принятия решений на их основе.
- Несмотря на плюсы синтетических данных, они все равно являются копией определенных свойств реального набора данных. Модель ищет повторяющиеся тенденции, поэтому некоторые случайные варианты поведения могут быть упущены.
Применение синтетических данных
Синтетические данные используются в различных областях в качестве фильтра для информации, которая в противном случае может поставить под угрозу конфиденциальность определенных аспектов данных (например, в сфере финансов и здравоохранения) или, когда для обучения алгоритмов машинного обучения требуется огромный набор данных [2,3].
Рассмотрим несколько примеров их применения:
- Синтетические данные используются в процессе интеллектуального анализа данных.
- Учёные, проводящие клинические испытания и прочие исследования, могут генерировать синтетические данные, с целью создания базы для будущих исследований и испытаний, сохраняя при этом конфиденциальность пациента.
- Системы обнаружения мошеннических действий могут быть протестированы и обучены без раскрытия личных финансовых данных.
- DevOps команды используют синтетические данные для тестирования программного обеспечения и обеспечения качества.
- Алгоритмы машинного обучения часто обучаются на синтетических данных.
- Обучение автомобилей с самостоятельным вождением (в частности, с использованием реалистичных компьютерных игр). Так Waymo проверил свои автономные транспортные средства, проехав 8 миллионов миль по реальным дорогам и еще 5 миллиардов по моделируемым дорогам.
Подводя итог, хочется отметить, что, несмотря на ненадёжность синтетических данных, они являются важным инструментом для расширения алгоритмов машинного обучения, особенно в случаях, когда реальные данные слишком дороги для сбора, недоступны из-за проблем с конфиденциальностью или являются неполными.
Некоторые учёные отмечают, что синтетические данные могут стать серьёзным толчком в развитии искусственного интеллекта.