Одно из требований для генерации изображений хорошего качества — достаточного объема датасет. Чьих фотографий у меня больше всего? Конечно, моей кошки Ники. Ей и посвящен проект.

Исходные изображения
В основе проекта лежит идея исследования того, как генеративная модель может интерпретировать конкретного персонажа, мою кошку Нику, в разных художественных стилях. Например, японская живопись, ар-нуво, барокко.

Процесс
Для обучения был собран датасет из 44 изображений квадратного формата. Изображения включали разные ракурсы, освещение и позы. Датасет состоял из фотографий. Отсутствие стилизации позволило модели сфокусироваться на изучении внешности кошки, чтобы сохранить ключевые черты в последующих генерациях.
Использовался подход DreamBooth с LoRA на базе Stable Diffusion XL.
Модель обучалась на уникальном токене «NIKATOK cat». Это позволило встроить нового персонажа в модель без полного переобучения.
После обучения модель хорошо запомнила форму головы, глаза и пропорции кошки. Ожидаемо, но генерации были фотореалистичными, без стилизации, не все подходило.

Изображение 1
Промпт к изображению 1: «NIKATOK cat painted as a renaissance portrait, soft sfumato, muted earth colors, detailed painted fur, old master painting, museum artwork».
Решение и итоги
- Ослабление LoRA (lora_scale ок. 0.65–0.7), чтобы уменьшить влияние реализма;
- Переписывание промптов с добавлением художественных описаний;
- Добавление характеристик внешности (dark brown cat, yellow-green eyes и др.);
- Использование негативных промптов для подавления фотореализма;
- Увеличение шагов генерации и guidance_scale.
Изображение 2
Фрагмент кода к изображению 2
В финальной серии сохранены ключевые черты персонажа (окрас, глаза, форма тела), а также представлены разные художественные стили.
Стили варьируются от реалистичных до абстрактных. Например, ар-нуво, барокко, классицизм, японская живопись и другие. При этом в более экстремальных стилях узнаваемость отчасти теряется. Например, нейросеть может исказить особенности окраса.
Изображение 3
Промпт к изображению 3: «an oil painting of NIKATOK cat, baroque portrait, dramatic chiaroscuro, dark background, rich brown and gold palette, visible brushstrokes, textured canvas».
Изображение 4
Промпт к изображению 4: «NIKATOK cat in ukiyo-e style, japanese woodblock print, flat colors, decorative linework, patterned background, stylized shapes».
Изображение 5
Промпт к изображению 5: «NIKATOK cat in surrealist style, dreamlike space, strange symbolism, unexpected colors, painterly composition, uncanny atmosphere».
Изображение 6
Промпт к изображению 6: «NIKATOK cat in art nouveau poster style, flowing lines, ornamental frame, elegant decorative composition, stylized fur, muted vintage colors».


Изображения 7-8
Промпт к изображениям 7-8: «„NIKATOK cat in expressionist painting style, distorted form, emotional color, rough brushwork, intense contrast, bold painted texture“.
Изображения 9-10
Промпт к изображениям 9-10: «NIKATOK cat painted as a renaissance portrait, soft sfumato, muted earth colors, detailed painted fur, old master painting, museum artwork».
В рамках работы использовалась модель ChatGPT (OpenAI, GPT-5.3) для помощи с кодингом и работой с промтами.
Согласие кошки на использование материалов: «кеапнгрошщш76754444444444444кенпротьлллллыдвраоыаввввввввввв. 544444444енПХХХХХХХХЫВ».




