Исходный размер 1637x2340

Дообучение Stable Diffusion в стиле советских ковров

Цель проекта — дообучение генеративной нейросети Stable Diffusion XL создавать изображения в стиле советских ковров, сохраняя стиль, но видоизменяя их с применением метода LoRA (Low-Rank Adaptation). Итогом обучения должна стать модель, способная генерировать изображения по текстовому описанию в узнаваемом стиле советских ковров.

Подготовка модели

big
Исходный размер 2856x1156

Установка зависимостей

big
Исходный размер 2856x992

Создание папки для датасета и копирование изображений

big
Исходный размер 2856x4036

Генерация кастомных подписей к картинкам

Исходный размер 2856x2956

Устанавливаем главные настройки для тренировки модели

Подготовка датасета

Фотографии ковров были обрезаны до квадратной формы, в некоторых исправлен наклон или перспектива, изображения кадрированы с сохранением симметричного паттерна.

Конструктивно идея в том, чтобы оставить узнаваемые узорчатые геометрические границы ковра и добавить в середину изображения людей, животных или предметов.

Для обучения модели использовались изображения в формате 1:1, максимальное количество шагов тренировки — 500 с чекпоинтом в 250 шагов. Разрешение — 512×512 пикселей.

Исходный размер 3500x1981

Исходный датасет изображений

Изначально изображений было 100, включая ковры с абстрактными и предметными узорами, гобелены с животными (олени, павлины) и сюжетные ковры, в том числе с портретами.

В результате первой попытки обучения результат получился не очень похожим на исходные изображения и не был виден узнаваемый стиль, пример — изображение совы ниже с базовыми настройками.

Исходный размер 2050x2048

A photo in KOVER style, an owl

После этого были убраны гобелены из датасета и ковры, которые немного отличались по стилю и могли влиять на итоговый результат, делать его менее консистентным.

Исходный размер 3884x1075

Часть итогового датасета изображений

Стиль изображений

Характерные черты ковров в датасете — осевая симметрия, геометрические и растительные орнаменты, рамки по краям, повторяющееся паттерны, яркие цвета, чаще всего встречается и обычно является фоном красный. Эти черты важно было передать в генерациях, чтобы стиль был узнаваемым.

Исходный размер 3500x1724

An art in KOVER style, an owl / a cat

Применение генеративной модели

Блокнот с кодом в Kaggle

Модель на HuggingFace

Для улучшения качества изображений применялся Upscayl

Дообучение Stable Diffusion в стиле советских ковров
Проект создан 08.04.2025
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше