Обучение генеративной нейросети Stable Diffusion под аниме-стиль на Creative city

Идея проекта

Этот проект — эксперимент по созданию персональной генеративной модели, которая умеет рисовать в моем собственном аниме-стиле. На основе моих рисунков (в основном персонажи в костюмах на однотонном фоне) я обучила Stable Diffusion XL с помощью DreamBooth и LoRA. В результате нейросеть научилась генерировать новых персонажей, сохраняя характерные черты моего стиля, и теперь может служить инструментом для быстрого создания иллюстраций и концепт-артов.

Ссылка на мои рисунки для нейронки

Мои рисунки персонажей

Список использованных в проекте инструментов:

— Stable Diffusion — обучение генеративной нейросети под свой стиль; — Google Colab — выполнение кода и генераций; — Hugging Face — получение токена для обучения нейросети, загрузка полученной модели на сайт; — Adobe Photoshop — для коллажирования готовых работ.

Концепция и датасет

Ключевое отличие моего проекта — датасет целиком состоит из моих собственных рисунков. Это позволило модели изучить именно мою аниме-эстетику, а не копировать существующие стили.

Для обучения я отобрала 27 квадратных иллюстраций (1:1), на каждой из которых изображен персонаж в костюме или платье на однотонном фоне. Такой подход решает несколько задач:

Мои рисунки персонажей

Модель фокусируется на деталях одежды и чертах лица, не отвлекаясь на сложный фон.

Однотонный фон упрощает задачу усвоения стиля и улучшает консистентность результатов.

Все 25 изображений выполнены в единой аниме-манере, что задает вектор обучения.

Изображения были обработаны моделью BLIP для генерации текстовых описаний, которые затем использовались при обучении. Это позволило добавить к каждому рисунку индивидуальный промпт, усиливающий понимание модели.

Технический процесс

Обучение проводилось в Google Colab на GPU Tesla T4. Я использовал связку Stable Diffusion XL (SDXL) с техникой DreamBooth + LoRA, что позволило дообучить модель на моих изображениях без полного переобучения всей сети.

Исходный размер 1093x732

Код

Исходный размер 1058x528

Код

Основные параметры:

Базовая модель: stabilityai/stable-diffusion-xl-base-1.0

VAE: madebyollin/sdxl-vae-fp16-fix

Разрешение: 1024×1024

Шагов обучения: 300

Train batch size: 1, gradient accumulation: 4

Оптимизатор: 8-bit Adam, gradient checkpointing, смешанная точность fp16

Исходный размер 916x654

Для генерации итоговой серии я использовал обученные LoRA-веса, слитые с базовой моделью (lora_scale=0.7), что обеспечило оптимальный баланс между сохранением моего стиля и возможностями SDXL.

Результаты и анализ

После обучения я сгенерировала серию из 9 изображений. Главный вывод: модель усвоила визуальную стилистику моих рисунков, но не запомнила конкретных персонажей — каждый раз генерируются новые, уникальные образы.

ИИ рисунок и мой рисунок в азиатской эстетике

Что удалось передать:

Стилистическое единство. Все сгенерированные изображения объединены общей эстетикой: манера прорисовки лиц, характерная для моих рисунков, цветовая гамма, качество линий. Модель стабильно воспроизводит тот визуальный язык, который был заложен в датасете.

Работа с фоном. Модель точно следует заданию — фон остается чистым, однотонным, не отвлекает внимание от персонажа. Это было одним из ключевых условий обучения.

Разнообразие персонажей. Модель не копирует конкретных героев из датасета, а создает новых, уникальных персонажей, варьируя пол, возраст, прическу, черты лица, тип костюмов. При этом все они остаются в рамках усвоенной стилистики.

Вариативность поз и настроений. В серии представлены как статичные портреты, так и динамичные сцены с пафосными позами, жестами, развевающимися плащами. Модель передает разные характеры: от спокойных и элегантных до героических и таинственных.

ИИ изображение и мой рисунок

Визуальный анализ

Сгенерированную серию можно разделить на две группы:

Статичные портреты — персонажи в разных костюмах на нейтральных и цветных фонах. Здесь модель демонстрирует чистоту стиля и внимание к деталям одежды.

Динамичные сцены — герои в действии: уверенные позы, развевающиеся плащи, драматичные повороты. В этих кадрах модель добавляет движение и эмоцию.

ИИ и мой рисунок

Промпты

1 anime style, character in elegant suit, MYSTYLE style, solid color background — нейтральный 2 anime style, character in formal dress, MYSTYLE style, solid color background — пастельный 3 anime style, character in black suit, MYSTYLE style, solid red background — красный 4 anime style, character in modern suit, MYSTYLE style, solid blue background — синий 5 anime style, character in Victorian attire, MYSTYLE style, solid purple background — фиолетовый 6 anime style, character in business suit, MYSTYLE style, solid green background — зеленый 7 anime style, character in trendy outfit, MYSTYLE style, solid yellow background — желтый 8 anime style, character in ornate suit, MYSTYLE style, solid gold background — золотой 9 anime style, character in stylish clothes, MYSTYLE style, solid pink background — розовый

Исходный размер 1560x1582

Блокнот с проектом