TAYYES_LoRA — обучение ИИ и генерация изображений на Creative city

Идея

Целью проекта стало исследование того, как генеративная модель адаптируется к заданному визуальному языку и насколько эффективно она может усвоить принципы минималистичного изображения персонажей.

Фокус был смещён не на копирование конкретного стиля, а на анализ поведения нейросети в условиях ограниченного и однородного датасета. Проект рассматривает генеративную модель как инструмент: каким образом она «понимает» форму, упрощение и визуальные акценты.

База данных

Для обучения использовался набор из 10 изображений, выполненных в минималистичной стилистике с акцентом на персонажей.

Изображения были отобраны по следующим принципам:

центрированная композиция;
упрощённые формы;
акцент на силуэте и читаемости;
минимальное количество второстепенных деталей.

Такой подход позволил нейросети быстрее зафиксировать ключевые визуальные признаки: пропорции, ритм форм и характер упрощения.

Исходный размер 1580x629

Процесс обучения

На первом этапе был подготовлен датасет изображений в стилистике персонажей и загружен в обучающую среду.

Для каждого изображения с помощью модели BLIP были автоматически сгенерированы текстовые описания, которые задали базовую структуру промптов — их уровень детализации и способ описания визуальных характеристик.

Исходный размер 1500x575

Далее ChatGPT использовался для воспроизведения этой структуры: на основе BLIP-подписей были сгенерированы дополнительные промпты, стилистически согласованные с исходными. Это позволило сформировать единый текстовый слой и повысить уровень взаимодействия модели с данными.

Обучение проводилось с использованием подхода DreamBooth с LoRA-адаптацией на базе модели Stable Diffusion XL (SDXL).

Запуск обучения осуществлялся через accelerate launch с использованием скрипта train_dreambooth_lora_sdxl.py.

Исходный размер 948x614

Исходный размер 1036x1005

Использование малого разрешения и оптимизированных параметров (fp16, 8-bit Adam, gradient checkpointing) позволило снизить вычислительную нагрузку и ускорить обучение без существенной потери качества.

В ходе обучения модель зафиксировала ключевые визуальные паттерны минималистичного стиля — упрощённые формы, силуэтность и композиционную ясность — и начала стабильно воспроизводить их в новых генерациях.

Исходный размер 1466x1476

Блокнот

Финальные генерации

TAYYES_LoRA a blonde woman with glasses and a red sweater

TAYYES_LoRA a curly haired boy wearing a colorful crown

TAYYES_LoRA a girl with blonde hair glasses and a blue hoodie

TAYYES_LoRA a girl with long brown hair and a green jacket

TAYYES_LoRA a man with short hair glasses and light stubble

TAYYES_LoRA a sad bearded man with messy black hair

TAYYES_LoRA a smiling boy with freckles and a black shirt

TAYYES_LoRA a woman with long dark hair and a striped shirt

TAYYES_LoRA a woman with short pink hair tips and glasses

Использование генеративной модели

Stable Diffusion XL: базовая генеративная модель для синтеза изображений и обучения пользовательского стиля https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
LoRA: метод параметрически эффективной тонкой настройки нейросети https://arxiv.org/abs/2106.09685
DreamBooth: подход к персонализации генеративных моделей на пользовательских данных https://arxiv.org/abs/2208.12242
BLIP: модель для автоматической генерации описаний изображений https://huggingface.co/Salesforce/blip-image-captioning-base
ChatGPT: инструмент генерации и стандартизации текстовых промптов https://chat.openai.com
Hugging Face: библиотека для оптимизации и запуска обучения моделей https://huggingface.co/docs/accelerate/index