НЕЙРОСЕТЬ DALL-E КАК РАБОТАЕТ И ИЗМЕНИТ ЛИ СОВРЕМЕННОЕ ИСКУССТВО?
Журнал: Научный журнал «Студенческий форум» выпуск №5(228)
Рубрика: Технические науки
Научный журнал «Студенческий форум» выпуск №5(228)
НЕЙРОСЕТЬ DALL-E КАК РАБОТАЕТ И ИЗМЕНИТ ЛИ СОВРЕМЕННОЕ ИСКУССТВО?
Как бы быстро не развивалось классическое искусство, нейронные сети развиваются быстрее. Как ни странно, нейросети учатся быстрее, чем человек. Раньше люди не могли и представить, что машины смогут заменить человека в примитивных, а сейчас уже в более ответственных задачах. К счастью, будущее уже наступило. Разберем, что такое диффузная модель, какие недостатки присущи нейронным сетям, и каких успехов они смогли достичь.
В данной статье рассмотрим, как учится и из чего состоит нейросеть DALL-E 2, проиллюстрируем примеры работ данной AI (artificial intelligence) и разберемся, почему бастуют профессиональные художники.
DALL-E 2, первая из нейронных сетей создала обложку для популярного журнала “Cosmopolitan”. Как видно из названия, она является второй версией нейронной сети, первая была не такой эффективной. DALL-E 2 один из многих проектов компании OpenAI, чей слоган звучит так - “Наша миссия обеспечить, чтобы искусственный общий интеллект приносил пользу всему человечеству”, что дает нам понять, что цель компании упростить, оптимизировать рутинную работу человека, тем самым позволяя людям занятся и уделить время более важным и глубоким вещам.
Картина, созданная нейросетью Midjourney заняла первое место на государственном конкурсе изящных искусств в Колорадо. Президент компании настольных игр “Incarnate Games” Джейсон Аллен создал картину с помощью нейросети, которая победила в категории цифрового искусства. Её название «Пространственный театр оперы». Это событие породило резонанс в социальных сетях, одни, были горды тем, что человечество добилось таких успехов в написании алгоритмов для ИИ, другие, напротив, считали, что художники обречены из-за появления таких машин.
Рисунок 1. Картина созданная нейронной сетью «Пространственный театр оперы»
Но как работает DALL-E? Вы удивитесь, но за результат работы DALL-E отвечают сразу 3 нейронных сети. Первая из них - CLIP. Ее суть, по картинке дать текстовое описание. Для обучения, нейронной сети подавали на вход пары значений, состоящих из картинок и текстовых описаний этих картинок. Когда нам говорят какое-то слово, наш мозг сразу визуализирует образ, с которым связано это слово, здесь также. Далее все образы инвертируются на математический язык и отправляются на хранение в “латентное пространство”. Это такая область, в которой все значения группируются по схожести, то есть земля и земляной червь будут находится в этом пространстве рядом, так как имеют общее значение “земля”. Самое интересное в том, что никто, кроме самой CLIP, не знает как распределены все значения.
Следующую работу выполняет нейронная сеть GLIDE. Она уже имеет готовые значения, расположенные по схожести. GLIDE преобразует текст в картинку, по тем значениям, которые ей предоставила CLIP. Далее, GLIDE работает по принципу диффузной модели, суть которой состоит в создании квадрата размером 64x64 пикселей с “белым шумом”, изменяя пиксели один за другим как бы “спрашивает” у CLIP, похожа ли картинка, которую я сделал, на нужную?
В итоге мы имеем картинку 64x64 пикселей, но это слишком маленький размер. Для этого и существует третья нейронная сеть, она дорисовывает пиксели, которые подходят по смыслу, в финале выдает картинку 1024x1024 пикселей.
Чтобы человек мог получить требующуюся картинку, он должен сделать “запрос”, также называемый как Prompt («Prompt» (от англ. подсказка, запрос) — это команда, которую мы отправляем нейросети. С помощью набора тегов мы говорим ей: «Хочу вот это!».)
Таким образом, складывая усилия каждой, мы получаем довольно самостоятельную нейронную сеть DALL-E 2, работы которой, в качестве примера, представлены ниже.
Рисунок 2. Результат работы DALL-E 2 по запросу “Человек гладит собаку минимализм цифровое искусство”.
Рисунок 3. Результат работы DALL-E 2 по запросу “Ульяновский государственный технический университет в космосе на фоне звезд”
DALL-E 2 не единственная в своем роде нейронная сеть для рисования и творчества, существует ряд других эффективных и популярных нейросетей:
- Midjourney
- Imagen от Google*
- StabilityAI’s Stable Diffusion
Применения у подобного рода инструментов полно, рассмотрим несколько из них
- Искусство/творчество. Для создания гениальных работ и воплощение в жизнь высокодетализированных работ.
- Маркетинг. Создание баннеров, логотипов, аватарок, обложек.
- Архитектура/недвижимость/дизайн. Поможет разработать концепт какого-либо проекта.
- Исследования. Визуализация каких-либо научных концепций с целью подробного изучения.
- Видеоигры. Применяется для создания артов для визуальных новелл, текстур для 2D игр.
Появление такого инструмента выступает альтернативой некоторым функциям таких приложений как Photoshop или Gimp, так как DALL-E 2 может также удалять фон, обрезать что-либо на картинке и заменять предметы.
Проблемы таких нейронных сетей довольно просты, не всегда DALL-E 2 удается создать картинку, которая будет удовлетворять запросы пользователя, порой человеку приходиться часами подбирать правильный запрос, который будет полностью соответствовать описанию и требованиям пользователя. Нейронные сети постоянно учатся, на запросах пользователя, обучение никогда не прекращается.
Ученые из Техасского университета в своей статье на тему нейронных сетей заметили необычную особенность, DALL-E выработала индивидуальный диалект для надписей, она не умеет выводить осознанные слова и тем более предложения. Но, она мысли некими образами, у которых есть свое словесное обозначение, придуманное ею самой. Вследствие чего, появляются люди, которые крайне озабочены этим вопросом, они изучают мышление нейронных сетей, это не может не удивлять. Все это очень необычно и кажется нам чем-то впечатляющим, то, о чем мы раньше не могли подумать, теперь находится в открытом доступе, технологии развиваются и человеку становится всё сложнее поспевать за этим.
Перед каждым человеком уже совсем скоро встанет вопрос - обвинять технологии в отъеме рабочих мест или же изучать их, порождая новые профессии, например, специалиста по набору “Пропов” для нейросетей, таких как DALL-E 2.
*(По требованию Роскомнадзора информируем, что иностранное лицо, владеющее информационными ресурсами Google является нарушителем законодательства Российской Федерации – прим. ред)