Original size 1240x1750

Обучение генеративной нейросети Stable Diffusion под стиль Дерека Гореса

4

Описание идеи

Целью моего проекта являлись обучение нейросети Stable Diffusion на основе стиля «юго-восточного короля скрапбукинга» — Дерека Гореса, — а также создание серии изображений в этом стиле.

Мне очень симпатичны коллажные работы Гореса и, кроме того, большинство из них, по удачному совпадению, имеют пропорции квадрата, так что мне даже не пришлось их кадрировать.

Датасет

big
Original size 3172x1253

Я собрала датасет из 104 работ Дерека Гореса, взятых с его сайта. У художника имеются коллажи с повторяющимися мотивами, в которых можно заметить даже идентичные (в плане построения) композиции, различающиеся по цветовой гамме и некоторым второстепенным элементам.

0
Original size 3200x1585

Генерации

Обучение проходило в Kaggle в соответствии с алгоритмом, представленным в курсе: 1. Установка необходимых библиотек; 2. Загрузка скрипта с GitHub для обучения модели; 3. Импорт датасета из 104 изображений; 4. Проверка содержимого датасета; 5. Генерация и сохранение подписей к картинкам при помощи BLIP; 6. Очистка памяти; 7. Подготовка к записи модели на Hugging Face; 8. Загрузка новой библиотеки datasets; 9. Определение параметров в обучении (1000 шагов, чекпоинт 250, размерность изображения 1024); 10. Запуск процесса обучения; 11. Сохранение модели на Hugging Face.

Процесс занял чуть больше пяти часов.

Original size 3000x3000

photo collage in GORES style, a girl, lying in a pool on the water подход № 1

После обучения я попробовала поработать с разными чекпоинтами модели и пришла к выводу, что итоговый — самый оптимальный. В сгенерированных коллажах замечены следующие особенности стиля Дерека Гореса: обращение к «хаосу» коллажа, из которого вырисовываются фигуры и их окружение, активная работа разномасштабной типографики в композициях, использование разнообразных текстур, акценты на границах и стыках кусочков бумаги, общая яркость и пёстрость, внимание к цвету и свету.

А главное, модель натренировалась на создание образа красивой женщины — именно он является преобладающим в творчестве Дерека Гореса.

Original size 3000x3000

photo collage in GORES style, a blonde girl with black glasses and a hat подход № 1

Одну часть изображений я сгенерировала сразу после обучения модели в том же ноутбуке, другую — уже через некоторое время, загрузив модель с Hugging Face. Во второй раз пришлось поменять некоторые вводные генерации для стабильной работы, поэтому эти изображения отличаются по глубине проработки: как мне показалось, результаты при повторном обращении к модели вышли не такими детализированными и более «рисованными».

Original size 3200x1058

photo collage in GORES style, woman at night подход № 2

Original size 3200x1585

photo collage in GORES style, Times Square, New York подход № 1

Original size 3500x3174

несколько ячеек кода обучения модели

Original size 3000x3000

photo collage in GORES style, night club, city nightlife, energetic composition подход № 1

Я пробовала работать с разными типами промптов и просила нейросеть сгенерировать как свойственные автору объекты и фигуры, так и что-то постороннее или редкое в плане частоты появления в исходном датасете (например, пейзажи).

Original size 3200x1585

слева: photo collage in GORES style, lights on the street at night справа: photo collage in GORES style, lanterns on the street at night подход № 1

0

photo collage in GORES style, lights on the street at night подход № 2

Original size 3333x3333

photo collage in GORES style, a night on the streets of New York подход № 2

Original size 3333x3333

photo collage in GORES style, ancient library подход № 2

Некоторые запросы вызывали у нейросети трудности. Если в промптах присутствовали объекты или места, примеров которых не было в подборке работ художника, нейросеть обращалась к повторяющемуся авторскому образу женщины и добавляла некоторые характерные для запрашиваемого слова детали. Например, иллюстрируя Рождество, ИИ успешно определился с красно-зёлёной гаммой и использовал нужные предметы — праздничную ёлку и подарки.

В таких случаях приходилось много раз прибегать к одному и тому же промпту, чтобы получилось 2–3 неплохих результата.

Original size 3200x1585

photo collage in GORES style, Сhristmas подход № 2

Original size 3200x1058

photo collage in GORES style, Moscow, Red Square подход № 2

А вот Красная площадь вышла у нейросети совсем уж неубедительно. Сначала она нарисовала почему-то красную туфлю с Эйфелевой башней (туфли в коллажах Гореса действительно были), а потом вернулась к изображению женщин. Иногда в генерациях появлялись кривые бордовые башни, но они начинали жить вне стиля и имели мало общего с настоящей архитектурой Красной площади. В общем, единственное, что ИИ уловил в данном случае — цвет.

Original size 3200x1585

photo collage in GORES style, black cat with a small ball подход № 2

Original size 3333x3333

photo collage in GORES style, a black butterfly подход № 2

В процессе работы с промптами для меня стало загадкой избегание ИИ процесса генерации образа бабочки. Несмотря на то, что у Дерека Гореса в работах имелся не один коллаж с крупным изображением бабочки в центре композиции, я чего-то похожего добиться не смогла. Просьбы сгенерировать её приводили к картинам, на которых бабочки в лучшем случае порхали вокруг женщин, а в худшем — «распадались» на части (от них оставались крылья и красочные паттерны).

У меня есть предположение, что из-за «коллажности» исходных работ модель не идентифицировала образ бабочки целиком, а разобрала его на составляющие.

Original size 3000x3000

photo collage in GORES style, a black butterfly подход № 1

0

photo collage in GORES style, winter forest, nature, birds подход № 1

Нейросеть старалась даже добавлять подписи автора в правый нижний угол, но чаще всего надпись выходила неточной: в ней задваивались, терялись или менялись буквы, трансформировался «почерк», слово плыло и переставало читаться. Иногда подпись не появлялась вообще. Однако была и пара удачных попыток — например, следующая картинка.

Original size 3000x3000

photo collage in GORES style, winter forest, nature, birds подход № 1

Original size 3200x1585

hoto collage in GORES style, flowers подход № 2

Также могу отметить несколько артефактов, которые появлялись на изображениях: явные нарушения строения человеческого тела, сложности с мелкими лицами на фоне, безосновательная смазанность некоторых фрагментов в композициях (особенно в местах, где нейросеть была «не уверена»).

Original size 3333x3333

hoto collage in GORES style, flowers подход № 2

Original size 3200x1585

photo collage in GORES style, bouquet of flowers подход № 1

Original size 3000x3000

photo collage in GORES style, the statue of David in black подход № 1

Original size 3200x1585

photo collage in GORES style, a cup of coffee подход № 2

Original size 3333x3333

photo collage in GORES style, a cup of coffee подход № 2

Original size 3200x1585

photo collage in GORES style, a bottle of wine подход № 2

Original size 3000x3000

photo collage in GORES style, collage with elements of space objects (planets, stars) and terrestrial landscapes подход № 1

Original size 3200x1585

photo collage in GORES style, city intersection, traffic light, cars подход № 1

Original size 3500x1113

загрузка модели с Hugging Face

Original size 3200x1058

photo collage in GORES style, the village in winter подход № 2

Original size 3000x3000

photo collage in GORES style, snow-capped mountains, landscape подход № 1

На некоторых генерациях я замечала что-то вроде намеренного ухудшения качества отдельных фрагментов, будто нейросеть «составляла коллажи» из фотографий и иллюстраций разного разрешения.

Original size 3333x3333

photo collage in GORES style, a bird with bright plumage подход № 2

Original size 3200x1585

photo collage in GORES style, Paris, Eiffel Tower подход № 2

Original size 3333x3333

photo collage in GORES style, woman at night подход № 2

Original size 3200x1585

photo collage in GORES style, a sensitive woman подход № 2

Original size 3333x3333

photo collage in GORES style, woman at night подход № 2

Итак, я могу сказать, что осталась довольной результатом обучения. Модель переняла важные особенности творчества автора и начала генерировать новые изображения, опираясь на ключевые стилеобразующие точки.

Конечно, генерации получаются удачнее при максимальных настройках, но мне, к сожалению, не хватило мощности и памяти для непрерывной работы с моделью. Не всегда удаётся добиться нужной картинки с первого раза, чаще всего для вывода двух-трёх хороших изображений приходится обращаться к одному и тому же промпту около десяти раз, то есть примерно каждый четвёртый результат оправдывает ожидания.

Описание применения генеративной модели:

GPT-4o, Midjourney, Flux in Telegram Bot (@chatsgpts_bot) — для уточнения деталей кода и исправления ошибок; Программа Topaz Gigapixel AI — для увеличения разрешения полученных изображений.

Обучение генеративной нейросети Stable Diffusion под стиль Дерека Гореса
4
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more