Безумное телешоу / Обучение генеративной нейросети на Creative city

Концепция проекта

Идея: Работы проекта посвящаются теме телевизионных шоу с испытаниями и странными задачами, которые даются участникам. Люди делают то, чего никогда бы не сделали в обычной жизни, в этих мероприятиях происходит невероятное и странное. Смех, слёзы, драки всё это бывает в телешоу, но чего там не бывает?

Цель проекта: Создание изображений в едином стиле на основе моих рисунков при помощи генеративных сетей. Для обучения модели я использовал работы, нарисованные ручкой и карандашом.

Примеры работ (исходные изображения)

Исходный размер 2480x1984

Серия работ

Исходный размер 1024x1024

photo collage in Kurzukov style, A worm with a human face screams and crawls to the finish line while a crowd of laughing men in dresses ride a construction roller behind it.

photo collage in Kurzukov style, Headless women in swimsuits are jumping rope in a game of hopscotch. // photo collage in Kurzukov style, Men in underwear are sitting on chairs, eating their legs and

Исходный размер 1024x1024

photo collage in Kurzukov style, A large water slide that leads to a giant meat grinder, where laughing children are sliding down.

Исходный размер 1024x1024

photo collage in Kurzukov style, A dance of five people with blindfolds and blades instead of hands, a disco ball in the center, and people lying on the floor.

Исходный размер 1024x1024

photo collage in Kurzukov style, A presenter in a fairy costume is speaking into a microphone while hovering above a black hole in the floor of the room, surrounded by many smiling spectators.

Исходный размер 1024x1024

photo collage in Kurzukov style, people made of minced meat are talking and arguing, and nearby there hangs a highly realistic suit resembling human skin.

Исходный размер 1024x1024

photo collage in Kurzukov style, A person with a stone is chasing a person with scissors; in the middle of the room lies a person buried in paper, and there’s a large TV standing instead of a wall.

Выводы

Конечный результат проекта показал, что для более точного воссоздания моего стиля нейросетью требуется большее количество исходных материалов. Это можно объяснить тем, что хоть все работы были выполнены ручкой и карандашом, тем не менее они до определённой степени отличаются друг от друга, что и запутало ИИ. Также с большой вероятностью сами рисунки, являясь скетчами, не дают обученной модели нужного понимания объёмов и мешают считыванию черт лиц и конечностей людей с исходного материала. Но, несмотря на все выше перечисленные факторы, получившаяся серия работ частично передала атмосферу, заложенную в концепции. «Кривизна» стала своеобразным художественным средством, а также на всех изображениях была верно передана текстура ручки. И, несмотря на то что нейросеть не следовала заданным промтам (часто игнорируя подробности, указанные в них), нельзя сказать, что проект не удался: по удивительному стечению обстоятельств его минусы стали плюсами.

Техническая реализация

Подключаю GPU для большей мощности. Убеждаюсь в подключении и работе видеокарты.
Ставлю библиотеку bitsandbytes для обучения Stable Diffusion XL.
Устанавливаю новейшую версию библиотеки diffusers с GitHub.
Загружаю train_dreambooth_lora скрипт с GitHub для обучения модели.
Загружаю свои 20 файлов.
Проверяю загрузились ли картинки.

Для поиска подписей к изображениям ставим Blip.
Функция def caption images отвечает за генерацию нужных пользователю подписей.
Создаем запрос для генерации промпта «photo collage in Kurzukov style». При помощи Json делаю файл с подписями.
Убираем Blip, для оптимизации работы Stable Diffusion (нужно много памяти).
Скрипт accelerate используем для обучения модели, позволяющей взаимодействовать с моделью на HuggingFace.

Вхожу в аккаунт (к моменту выполнения задания уже был зарегестрирован) на Hugging Face для получения токена. Называю токен, даю разрешение. Делюсь ключом от токена в Colab.
Загружаю необходимые библиотеки. Включаю процесс обучения.
Указываю собственный путь. Добавляю код для сохранения модели в huggingface_Hub.
Сохраняю файлы, получившейся обученной модели, на сайте Hugging Face.
Загружаю исходную модель Stable Diffusion XL. Присоединяю к модели lora_weights и указываю repo_id.
Создаю промпты с префиксом «photo collage in Kurzukov style».

Код

Использованные нейросети: LoRA https://huggingface.co/papers/2106.09685 Dreambooth https://huggingface.co/papers/2208.12242 Blip https://huggingface.co/Salesforce/blip-image-captioning-base Stable Diffusion XL https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0