Обучение генеративной модели на изображениях Домовёнка Кузи на Creative city

Идея проекта

Идея проекта — обучить генеративную нейросеть Stable Diffusion создавать изображения домового Кузи в стиле советских мультфильмов. Для этого была использована модель, дообученная на наборе изображений домового, характерных для советского кино. Используется конкретный образ персонажа, отличающийся стилистикой, с которой знакомы многие из нас. Именно такой лохматый, чумазый и пыльный домовой, который любит лазать в дымоходе и подвале.

Задача заключалась в том, чтобы модель не просто копировала изображения, а научилась воспроизводить основные визуальные признаки героя и его окружения, и создавать новые сюжеты на их основе.

Описание датасета

Для обучения модели был собран датасет, состоящий из изображений выбранного персонажа — домовёнка Кузи. Все изображения были отобраны таким образом, чтобы они соответствовали единому визуальному стилю и представлению персонажа именно как в советском пространстве. Всего в датасет вошло 32 изображения. При отборе особое внимание уделялось качеству изображений и целостности стиля, чтобы модель могла корректно выделить и усвоить ключевые визуальные признаки.

Исходный размер 2480x500

Результат

В результате обучения была получена серия изображений домовёнка Кузи, сгенерированных с помощью обученной модели. Все изображения были созданы на основе промтов, отражающих различные вариации сюжетов, происходящих с персонажем. Модель продемонстрировала способность воспроизводить ключевые характеристики исходного датасета, такие как пропорции, цвет, текстура, освещение и окружение. При этом каждое изображение является уникальной вариацией, а не копией исходных данных.

Изображения отображают повседневные занятия персонажа, с которыми он мог бы столкнуться и в своей вселенной советской мультипликации.

Ссылка на ноутбук с кодом

Для дообучения Stable Diffusion XL под образ Кузи использован метод DreamBooth с LoRA — это позволило адаптировать модель на 32 личных фотографиях персонажа при ограниченной видеопамяти T4 GPU. Каждое изображение было обрезано до квадрата 512×512, а в подписях присутствует обязательный префикс «kuzya, » для связывания персонажа с новым токеном. Таким образом генерация изображения Кузи в любых сценах возможна по промпту «kuzya, [действие]».

Заключительный анализ

Модель успешно усвоила ключевые визуальные характеристики исходного датасета. В большинстве результатов сохраняется тот образ домового, к которому мы привыкли, довольно точно удаётся и сопутствующая атмосфера, каждая генерация выглядит как возможный кадр из мультфильма, что и являлось целью проекта. Отдельного внимания заслуживает вариативность результатов: в зависимости от промпта модель способна адаптировать героя, изменяя освещение, композицию и контекст.