Идея
Целью проекта стало исследование того, как генеративная модель адаптируется к заданному визуальному языку и насколько эффективно она может усвоить принципы минималистичного изображения персонажей.
Фокус был смещён не на копирование конкретного стиля, а на анализ поведения нейросети в условиях ограниченного и однородного датасета. Проект рассматривает генеративную модель как инструмент: каким образом она «понимает» форму, упрощение и визуальные акценты.
Для обучения использовался набор из 10 изображений, выполненных в минималистичной стилистике с акцентом на персонажей.
Изображения были отобраны по следующим принципам:
- центрированная композиция;
- упрощённые формы;
- акцент на силуэте и читаемости;
- минимальное количество второстепенных деталей.
Такой подход позволил нейросети быстрее зафиксировать ключевые визуальные признаки: пропорции, ритм форм и характер упрощения.

Процесс обучения
На первом этапе был подготовлен датасет изображений в стилистике персонажей и загружен в обучающую среду.
Для каждого изображения с помощью модели BLIP были автоматически сгенерированы текстовые описания, которые задали базовую структуру промптов — их уровень детализации и способ описания визуальных характеристик.

Далее ChatGPT использовался для воспроизведения этой структуры: на основе BLIP-подписей были сгенерированы дополнительные промпты, стилистически согласованные с исходными. Это позволило сформировать единый текстовый слой и повысить уровень взаимодействия модели с данными.
Обучение проводилось с использованием подхода DreamBooth с LoRA-адаптацией на базе модели Stable Diffusion XL (SDXL).
Запуск обучения осуществлялся через accelerate launch с использованием скрипта train_dreambooth_lora_sdxl.py.
Использование малого разрешения и оптимизированных параметров (fp16, 8-bit Adam, gradient checkpointing) позволило снизить вычислительную нагрузку и ускорить обучение без существенной потери качества.
В ходе обучения модель зафиксировала ключевые визуальные паттерны минималистичного стиля — упрощённые формы, силуэтность и композиционную ясность — и начала стабильно воспроизводить их в новых генерациях.
Финальные генерации


TAYYES_LoRA a blonde woman with glasses and a red sweater
TAYYES_LoRA a curly haired boy wearing a colorful crown
TAYYES_LoRA a girl with blonde hair glasses and a blue hoodie
TAYYES_LoRA a girl with long brown hair and a green jacket
TAYYES_LoRA a man with short hair glasses and light stubble


TAYYES_LoRA a sad bearded man with messy black hair
TAYYES_LoRA a smiling boy with freckles and a black shirt


TAYYES_LoRA a woman with long dark hair and a striped shirt
TAYYES_LoRA a woman with short pink hair tips and glasses
Использование генеративной модели
Stable Diffusion XL: базовая генеративная модель для синтеза изображений и обучения пользовательского стиля https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
LoRA: метод параметрически эффективной тонкой настройки нейросети https://arxiv.org/abs/2106.09685
DreamBooth: подход к персонализации генеративных моделей на пользовательских данных https://arxiv.org/abs/2208.12242
BLIP: модель для автоматической генерации описаний изображений https://huggingface.co/Salesforce/blip-image-captioning-base
ChatGPT: инструмент генерации и стандартизации текстовых промптов https://chat.openai.com
Hugging Face: библиотека для оптимизации и запуска обучения моделей https://huggingface.co/docs/accelerate/index




