Генеративная реинтерпретация авторской ру-манги на Creative city

Рубрикатор

Описание идеи проекта
Исходные изображения для обучения
Первые попытки генерации изображений
Результирующая серия изображений
Комментарий
Ноутбук с кодом и описание процесса обучения
Использование ГенИИ в проекте

1. Описание идеи проекта

Проект посвящён обучению генеративной нейросети Stable Diffusion авторскому стилю ру-манги «Anthropomorphic Desert, or Where the Dog Wanders» («Антропоморфная пустыня, или Где бродит Пёс») с последующей трансформацией в двуцветную пиксельную эстетику.

Исходный материал — 40 кадров из личной манги, характеризующихся контрастной штриховкой, динамичными позами и выразительной мимикой.

Основная идея — не просто скопировать стиль, но создать гибридную визуальную систему, где традиционная манга-графика встречается с эстетикой ранней цифровой пиксельной графики (8-bit, дизеринг, ограниченная палитра). Такой подход позволяет расширить границы исходного стиля, сохранив его узнаваемость, но добавив новую фактурность и визуальную идентичность.

2. Исходные изображения для обучения

Страницы оригинальной ру-манги

3. Первые попытки генерации изображений

Первая и вторая попытки без нужной корректировки также представлены в ноутбуке

Первая попытка была «пробой пера» без учета нужды в направлении нейросети, неверно толковавшей причудливый узор оригинала.

Вторая попытка удовлетворяла некоторые запросы по стилю, но ввиду нехватки памяти изображения с таким разрешением превращались в кашу.

4. Результирующая серия изображений

Получившийся код запускался несколько раз, чтобы получить как можно больше результатов и выбрать наиболее выразительные

5. Комментарий

Серия включает 15 изображений, сгенерированных с использованием обученной LoRA. Визуальный ряд состоит из портретов, поясных кадров и динамичных сцен, объединённых общей стилистикой — сочетанием авторской манга-штриховки и двуцветной пиксельной обработки.

Исходный размер 512x512

Изображение невошедшее в серию

Первоначальная идея заключалась в сохранении идентичности авторского стиля при его обогащении цифровой эстетикой. В результатах это проявилось через:

— сохранение характерной линии (толщина, динамика, угловатость);

— переход от чистого чёрно-белого к двуцветной палитре (чёрный + акцентный оттенок), что имитирует ограниченные возможности ранних дисплеев;

— внедрение пиксельной зернистости и дизеринга, добавляющих фактуру и «цифровой шарм».

Детали генерации и методы улучшения:

После базового обучения LoRA на 40 изображениях (10 эпох, batch size 2, learning rate 1e-4) использовалась донастройка промптов. В промпты были добавлены ключевые слова pixel art, dithering, 2-tone, duotone, high contrast, чтобы направить модель к желаемой пиксельно-двуцветной эстетике. Также был отключён safety checker для предотвращения ложных срабатываний NSFW-фильтра, характерных для манга-стилистики.

6. Ноутбук с кодом и описание процесса обучения

Ноутбук с кодом

Описание процесса обучения:

Обучение проводилось в Google Colab с использованием T4 GPU. В качестве базовой модели выбрана Stable Diffusion v1.5 (runwayml/stable-diffusion-v1-5).

Применена техника LoRA (Low-Rank Adaptation) с параметрами: r=8, alpha=32, target_modules=[«to_q», «to_v», «to_k», «to_out.0»], lora_dropout=0.1.

Датасет — 40 изображений, приведённых к квадрату 512×512.

Обучение длилось 10 эпох с batch size 2, learning rate 1e-4, оптимизатором AdamW и линейным планировщиком скорости. Loss финальных эпох колебался в пределах 0.01–0.22, что свидетельствует о стабильной сходимости.

7. Использование ГенИИ в проекте

Помимо обученной нейросети Stable Diffusion, в проекте использовался ChatGPT (OpenAI) для:

— написания экспликации и развёрнутых комментариев;

— структурирования описания проекта;

— формулировки технических деталей.

Сама генерация изображений выполнена исключительно обученной моделью (Stable Diffusion + LoRA) без дополнительных инструментов постобработки.