Нейросеть для создания изображений в стиле Клода Моне на Creative city

Описание проекта

Клод Моне — французский художник, один из пионеров импрессионизма. Его цель была передать мимолётные впечатления от света и цвета.

Моне часто писал один и тот же мотив при разном освещении и погоде, исследуя изменчивость природы. Его картины выделяются лёгкой и воздушной манерой письма.

Исходный размер 1200x1951

Цель проекта — научить нейросеть генерировать изображения в стиле Клода Моне. Это даст возможность исследовать то, как искусственный интеллект работает с изображениями в стиле, который основан на чувствах и эмоциях, на ощущении окружающего мира индивидуально каждым творцом.

Исходные изображения

Исходный размер 3198x988

Результирующие изображения

Исходный размер 4970x1535

Блокнот с кодом

Анализ готовых изображений

На представленных сгенерированных изображениях можно видеть природные элементы. На одном из изображений присутствует девушка, сидящая на траве. Моне часто работал на природе, создавая зарисовки того, что видел вокруг, природных ландшафтов. С точки зрения композиции, сгенерированные изображения соответствуют исходным, ракурсы похожи, акценты расставлены также похожим образом.

Исходный размер 1024x1024

Готовые изображения получились вполне в задаваемой стилистике импрессионизма Клода Моне, но с некоторыми неточностями:

— Слишком четкие, слегка уходящие в реализм объекты на изображениях, тонкий контур — Недостаточно хаотичности масляного мазка на отдельных объектах — Цвета не чистые, приглушенные, пастельных оттенков, нет такой контрастности и яркости — Проблема с генерацией конечностей, что характерно для ИИ

Исходный размер 1024x1024

Что касается позитивных аспектов сгенерированных изображений, можно выделить следующие пункты:

— Отсутствие сюжетности, передается атмосфера мгновения, действительно ощущается как моментная зарисовка — Хорошая работа со светом, он мягкий, ненавязчивый и усиливает эффект присутствия в пространстве изображения — На природных объектах и ландшафтах лучше сохраняется текстура и хаотичность расположения мазка

Исходный размер 1024x1024

Дополнительные методы, такие как пост-обработка или другие модели, не использовались.

Описание процесса работы

1. Подготовка

— Установка необходимых библиотек для создания среды обучения нейросети — Загрузка базовой модели Stable Diffusion XL и подготовка под DreamBooth

2. Загрузка и настройка модели SDXL + DreamBooth

— Загрузка предобученной модели Stable Diffusion XL (SDXL) из Hugging Face — Указание специальных токенов — ключевой части DreamBooth, которая связывает конкретный визуальный стиль с текстом — Настройка параметров обучения: пути к папке с изображениями, имя LoRA, параметры scheduler и optimizer и т. п.

3. Обучение с помощью LoRA

— Подключение данных: изображения и их описания — Инициализация обучения с LoRA: добавляются специальные обучаемые слои в UNet (часть генератора)

4. Сохранение и генерация изображений

— Сохранение полученной LoRA-модификации — Загрузка обратно и подключение к SDXL — Тест: по промпту (включающему уникальный токен) генерируются изображения

Дополнительно для объяснения кода и поиска ошибок использовался ChatGPT

https://chatgpt.com/