Original size 774x1024

Обучение генеративной модели под стиль Lola Dupre

Идея проекта

Для изучения стиля художника и применения его в генерации изображений я выбрала свою любимую художницу Lola Dupre. Лола создаёт гигантские фотоколлажи из частичек того же изображения, что в итоге должно получиться. Она собирает разные необычные композиции и формы, а в особенности, она создаёт очень крутых котов, их я и решила использовать для обучения генеративной модели LOLA

Original size 1920x1444

Работа Lola Dupre

Исходные изображения

Original size 2560x512

Фотоколлажи, Lola Dupre

Для обучения я выбрала 30 самых ярких картинок котов, каждую из которых я подогнала под размер 1:1 с разрешением 512×512 пикселей (для оптимизации работы)

Original size 1920x1353

Работа Lola Dupre

Original size 1780x1260

Серия итоговых фотоколлажей в стиле lola style

Изначально моей целью было создать серию домашних животных в стиле Lola Dupre. Я попробовала генерировать не только кошечек, но и собак. В целом, я довольна результатов и тем, как диффьюжен справилась с задачей с учетом того, что она обучалась только на композициях с кошечками. Кстати эти коллажи похожи на те, что делает Lola (она складывает не только котов, но и собак). Хотя, если смотреть на качество передачи эффекта наложения бумажки на бумажку, то тут оно страдает

Мои генерации, пробы на собаках; prompt: «LOLA style, a white dog with cute smile», «LOLA style, a blue dog with blue eyes»

1 — работа Lola Dupre; 2 — моя нейрособака

В итоге я решила сгенерировать серию кошечек. В начале я подстраивала параметры для того, чтобы стиль считывался. Эффект наложения бумажки на бумажку очень тонкий, поэтому приходилось долго менять настройки, отвечающие за детализацию, чтобы было видно, что это фотоколлаж (например, шаг с 25 до 50, checkpoint с 250 на 500 и lora_scale до 1). Также изначально я обучала модель на 20 картинках, что оказалось мало для передачи стиля (картинка с шестью собаками как раз первые попытки, prompt: «photo collage in LOLA style, dog»)

Не получившиеся кошки и собаки (слишком большое сглаживание, которое мешает проявлению текстуры); prompt: «LOLA style, a white cat and gray cat with cute smile and blue eyes»

Вот такая серия разных кошек, разных окрасок и цвет глаз у меня получилась. В процессе работы заметила, что в этом случае, чем проще промт, тем лучше результат

Original size 1024x1024

prompt: «LOLA style, orange cat»

prompt: «LOLA style, cat», «LOLA style, a white cat and gray cat with cute smile and blue eyes»

Также я пробовала промты с запросом двух животных, с чем нейронка справлялась чуть хуже (в силу того, что на исходных изображениях были только одиночные коты)

prompt: «LOLA style, a white dog and orange cat with cute smile and green eyes», «LOLA style, hugs a white dog with orange cat with cute smile and green eyes»

Original size 1024x1024

prompt: «LOLA style, cat»

Original size 1024x1024

prompt: «»

prompt: «LOLA style, a white cat and gray cat with cute smile and blue eyes», «LOLA style, a red-haired cat with blue eyes»

Original size 1024x1024

(вблизи) prompt: «LOLA style, a red-haired cat with blue eyes»

Процесс обучения

Вся работа по обучению генеративной модели была выполнена в Google Colab.

Перед началом работы я загружаю все библиотеки и обучающий скрипт с GitHub.

Шаг первый: установка библиотек

Далее я начинаю работать с датасетом LOLA_DUPRE. Импортирую его, загружаю нужные картинки в формате jpeg необходимого размера 1:1 и 512×512

Шаг второй: датасет

Original size 2630x872

Шаг второй: датасет; превью

Далее с помощью кода я запускаю анализ каждого изображения и создание к нему уникального описания вместе с caption_prefix = «LOLA style, "

Импорт библиотек для создания описаний

Original size 2634x762

Шаг третий: описания

После создания описаний и характеристик картинок я логинюсь на Hugging Face, чтобы потом сохранить там готовую модель

Original size 2630x622

Шаг четвертый: Hugging Face

После всех предыдущих шагов я наконец запускаю обучение модели с ТОК «LOLA style». Для начала это базовые настройки с max_train_steps=500 и checkpointing_steps=250

Original size 2636x1070

Шаг пятый: обучение

Original size 2632x304

Шаг пятый: обучение; проверка, что записалось в модели

Original size 2616x1070

Шаг шестой: связь с Hugging Face

Original size 2632x396

Шаг шестой: связь с Hugging Face; сохраняю модель

Шаг седьмой: первые генерации; меняю шаг с 25 на 50

В процессе генерации я методом проб меняла настройки checkpointing, step и lora_scale, чтобы улучшить узнаваемость стиля и повысить детализированность изображения

Шаг седьмой: первые генерации; корректировка настроек, плохая передача стиля

Вывод

В конце обучения я чувствую, что довольна результатом. Поняла, что иногда излишние уточнения в промтах запутывают нейронку и она выдаёт не то, что ты ожидаешь. Также интересно, как от совсем небольшого сдвига, например, в шаге, меняется передача стиля. Мне кажется, серия котов удалась и диффюжен справилась

Материалы: исходные изображения, код обучения модели

вот такие пироги

Обучение генеративной модели под стиль Lola Dupre

Maria Stirmanova

artificial intelligence

style

photo collage

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...