Абстракция нейросетью на Creative city

Концепция

Меня всегда притягивали люди, которые видят мир через собственную призму — и способны делать вещи, непонятные большинству. Абстракция в искусстве для меня именно об этом. Поэтому мне особенно интересно, как нейросеть справится с этим направлением — ведь здесь, по сути, не нужно повторять силуэты и конкретные формы.

Серия работ для обучения

Я отбирала работы, которые похожи друг на друга по настроению и которые мне самой близки — важно было, чтобы датасет действительно мог научить нейросеть тому, что я от неё хочу. Все изображения приведены к формату 512×512 пикселей.

Изображения для обучения нейросети

Итоговые генерации

Промты были нарочито странными — «sad pink flower in the bright sky», «orange monkey with blue flower» и т. д. Задача состояла в том, чтобы проверить, как модель интерпретирует образы, которые в буквальном смысле не поддаются изображению.

Во всех случаях она уходила от конкретики в сторону цвета и настроения — именно туда, куда и должна была прийти.

Результаты генераций Промпт: «rising of the blue sun on the moon with a pink sky», «sad pink flower in the bright sky».

Результаты генераций Промпт: «sad pink flower», «orange monkey with blue flower».

Несмотря на единство палитры, изображения заметно отличаются друг от друга по композиции и степени абстракции. Одни тяготеют к органическим, почти растительным формам; другие — к более хаотичным цветовым пятнам.

Особенно показательна работа с промтом «обезьянка с цветочком»: модель не изобразила фигуру животного, а растворила её в цветочных формах — обезьянка буквально стала цветком.

Это не ошибка, а точное следствие обучения на абстракции: сеть разучилась мыслить силуэтами.

Результаты геренаций Промпт: «abstract orange, pink, green», «orange monkey with blue flower».

Результаты генераций Промпт: «pink eyes with blue flowers».

Результат генераций Промпт: «sad pink flower, in blue water», «abstract orange, pink, green».

Модель уверенно усвоила ключевые черты датасета: мягкие, размытые границы форм, насыщенную цветовую палитру с акцентом на розовый, оранжевый и голубой, а также общее настроение — лиричное, почти сновидческое.

Изображения не копируют обучающую выборку напрямую, но все они узнаваемо принадлежат одному визуальному языку.

Процесс обучения

В качестве инструмента был выбран Stable Diffusion v1.5 с методом дообучения LoRA. LoRA не переобучает модель полностью — вместо этого добавляется небольшой слой, который запоминает стиль. Это быстрее и требует меньше ресурсов.

Обучение проходило в Google Colab на видеокарте Tesla T4 с использованием скрипта train_text_to_image_lora.py от Hugging Face. Датасет — 36 изображений абстрактной живописи, собранных вручную с платформы Kaggle (лицензия CC0). Параметры обучения: 8 эпох, learning rate 1e-4, batch size 1. Весь процесс занял около 5 часов.

Использование ГенИИ.

При исправлении текстов проекта и комментариев использовался Claude (Anthropic).

Генерация изображений и обучение модели выполнялись самостоятельно.

Для пояснения отдельных моментов в коде и его корректировки — также Claude (Anthropic).

Код