Генерация изображений бабочек искусственным интеллектом на Creative city

Идея проекта

Проект посвящён исследованию возможностей нейросетей в обучении и дальнейшей в генерации изображений. Основная идея проекта заключается не только в копировании природных форм, но, еще и в создании художественной интерпретации, где нейросеть выступает как инструмент генеративного творчества. Таким образом, проект находится на пересечении технологий и природы.

Концепция проекта

Концепция проекта строится вокруг трансформации природного объекта в художественный образ, сохраняя его узнаваемые черты. Бабочка выбрана не случайно — она символизирует собой симметрию, хрупкость и разнообразие форм и цветов. Нейросеть, обученная на реальных изображениях, воспроизводит эти качества, но в процессе генерации добавляет вариативность и стилистические отклонения, что делает каждое изображение уникальным.

Исходные изображения

Ниже Вы увидите, на каких исходных изображениях обучалась нейросеть.

Итоговая серия изображений

Исходный размер 1024x1024

Описание итоговых изображений

Итоговая серия изображений представляет собой сгенерированных изображений, объединенных, в большинстве своём, общей визуальной логикой. Несмотря на вариативность, в них прослеживаются устойчивые признаки:

Симметричная структура крыльев
Характерные узоры и орнаменты
Плавные органические формы
Ярко выраженные цветовые контрасты

Анализ визуальных характеристик

В ходе генерации нейросеть выделила и воспроизвела ключевые признаки:

Цвет Модель активно использует различные цветовые паттерны, что говорит о том, что нейросеть успешно усвоила цветовую сложность исходных данных
Текстура и узоры Особое внимание уделено пятнам и линиям. Иногда узоры становятся абстрактными, что добавляет художественную ценность

Стилистические особенности

В результате обучения проявились такие элементы стиля, как склонность к симметрии, декоративность, частичная абстракция формы, усиление контрастов по сравнению с реальностью. В некоторых изображениях бабочка начинает восприниматься не как биологический объект, а как графический элемент

Соответствие результата исходной идее

Результат соответствует первоначальной идее проекта: Сохранена узнаваемость бабочек Переданы ключевые визуальные характеристики Добавлена генеративная новизна Получен художественный, а не просто реалистичный результат

При этом наблюдаются отклонения от реализма, что не является недостатком, а скорее подтверждает творческий потенциал нейросети

Были использованы фотографий бабочек, которые модель BLIP автоматически описала текстом, а затем добавлен стилевой префикс, чтобы связать изображения с нужной художественной манерой.
Для обучения выбрана мощную модель SDXL, но вместо её полного переобучения применён метод LoRA.
Дополнительно применены технические улучшения: VAE fp16 fix для детализации, SNR gamma для лучшего обучения на сложных участках, 8-bit Adam и gradient checkpointing для экономии видеопамяти, а также смешанную точность fp16 для ускорения.
В итоге при генерации модель превращает случайный шум в изображение, которое одновременно соответствует текстовому описанию и воспроизводит уникальный стиль исходных фотографий.

Вывод

Проект показывает, что нейросети способны не только воспроизводить визуальные образы, но и интерпретировать их, создавая новые художественные формы. Использование ограниченной темы (в этом случае, бабочки) позволило глубже проанализировать, какие именно признаки усваиваются моделью и как они трансформируются в процессе генерации.

В качестве исходного датасета изображений был выбран архив с сайта kaggke.com Лицензия CC0 1.0 Universal позволяет копировать, изменять, распространять и использовать данное произведение без получения разрешения.

Ссылка на программный файл и описание процесса обучения: https://disk.yandex.ru/d/VXBX4l0IyZqVxg