Цель проекта — дообучение генеративной нейросети Stable Diffusion XL создавать изображения в стиле советских ковров, сохраняя стиль, но видоизменяя их с применением метода LoRA (Low-Rank Adaptation). Итогом обучения должна стать модель, способная генерировать изображения по текстовому описанию в узнаваемом стиле советских ковров.
Подготовка модели

Установка зависимостей

Создание папки для датасета и копирование изображений

Генерация кастомных подписей к картинкам
Устанавливаем главные настройки для тренировки модели
Подготовка датасета
Фотографии ковров были обрезаны до квадратной формы, в некоторых исправлен наклон или перспектива, изображения кадрированы с сохранением симметричного паттерна.
Конструктивно идея в том, чтобы оставить узнаваемые узорчатые геометрические границы ковра и добавить в середину изображения людей, животных или предметов.
Для обучения модели использовались изображения в формате 1:1, максимальное количество шагов тренировки — 500 с чекпоинтом в 250 шагов. Разрешение — 512×512 пикселей.
Исходный датасет изображений
Изначально изображений было 100, включая ковры с абстрактными и предметными узорами, гобелены с животными (олени, павлины) и сюжетные ковры, в том числе с портретами.
В результате первой попытки обучения результат получился не очень похожим на исходные изображения и не был виден узнаваемый стиль, пример — изображение совы ниже с базовыми настройками.
A photo in KOVER style, an owl
После этого были убраны гобелены из датасета и ковры, которые немного отличались по стилю и могли влиять на итоговый результат, делать его менее консистентным.
Часть итогового датасета изображений
Стиль изображений
Характерные черты ковров в датасете — осевая симметрия, геометрические и растительные орнаменты, рамки по краям, повторяющееся паттерны, яркие цвета, чаще всего встречается и обычно является фоном красный. Эти черты важно было передать в генерациях, чтобы стиль был узнаваемым.
An art in KOVER style, an owl / a cat
Применение генеративной модели
Для улучшения качества изображений применялся Upscayl




