Концепция
Работы Кацусики Хокусая
Кацусика Хокусай — японский художник эпохи Эдо, один из главных мастеров укиё-э. Его графика узнаваема мгновенно: чёткие контурные линии, плоские цветовые заливки, динамичные природные стихии. «Большая волна у Канагавы» стала одним из самых тиражируемых изображений в истории искусства.
Идея проекта — переосмыслить язык Хокусая через призму современной уличной культуры. Нейросеть обучалась на гравюрах художника, а генерация велась с промптами в духе стрит-арта и муралов: что если бы Хокусай расписывал стены?
Для обучения использовалась технология DreamBooth + LoRA на базе Stable Diffusion XL.
Работы Кацусики Хокусая
Для обучения был собран датасет из 114 работ Хокусая — гравюры из серий «Тридцать шесть видов горы Фудзи», «Манга» и отдельные листы. Все изображения приведены к квадратному формату 1:1. Картины отбирались по принципу разнообразия: пейзажи, фигуры людей, морские сцены, изображения животных — чтобы нейросеть усвоила стиль в широком диапазоне, а не одну конкретную композицию.
Итоговые изображения
Генерация велась по двум направлениям. Вертикальные изображения создавались по запросам типа mural — они ближе к монументальной живописи. Квадратные — по запросам street art / graffiti, передающие энергию уличного искусства. Оба направления объединяет одно: визуальный язык Хокусая, перенесённый в городское пространство.
Оценка процесса
Нейросеть уверенно воспроизводит характерную для Хокусая графическую линию — чёткие контуры, деление пространства на цветовые плоскости, условность перспективы. В изображениях с водой заметна стилизация волн, близкая к «Большой волне у Канагавы». Цветовая палитра тяготеет к синим, бирюзовым и охристым тонам.
Промпты с ключевыми словами street art, graffiti, mural направляли модель в сторону более объёмных, контрастных решений — ближе к тому, как выглядели бы работы Хокусая в реальном городском пространстве. Результаты варьируются от почти буквального перевода гравюры на стену до более свободных интерпретаций с граффити-текстурой.
Изображения заметно отличаются друг от друга: часть ближе к традиционной гравюре, часть — к цифровой иллюстрации.
Детальные многофигурные композиции теряют чёткость. Специфические элементы — иероглифы, печати художника — нейросеть не воспроизводит. Генерация изначально квадратная, поэтому вертикальные муральные форматы получались при дополнительной обработке с апскейлингом.
Первый шаг — убедиться, что GPU доступен и правильно работает командой.
Далее были установлены библиотеки, которые помогут обучить нейросеть (bitsandbytes, transformers, accelerate, peft — инструменты для работы с ИИ; diffusers — для генерации изображений; train_dreambooth_lora_sdxl.py, — обучение модели).
Далее картины Хокусая загружались в папку для изображений (doroga). Перед загрузкой все изображения были обрезаны до квадратного формата 1:1.
Перед обучением датасет визуально проверяется — выводится сетка из первых пяти изображений. Это помогает убедиться, что все файлы загрузились корректно и формат единый.
Каждое изображение датасета автоматически получает текстовую подпись с помощью модели BLIP, которая описывает содержимое картинки, а к описанию спереди добавляется кастомный префикс — «in the style of HOKUSAI».
После запускается процесс обучения DreamBooth с LoRA, используя предобученную модель stable-diffusion-xl-base-1.0. Задаются параметры: размер 512×512, скорость обучения, количество шагов — оно было увеличено по сравнению с базовыми настройками для лучшей передачи визуального языка Хокусая. Нейросеть обучается рисовать в стиле художника.
В завершение загружается обученная модель, вводится описание изображения, например «in the style of HOKUSAI, street art mural, waves crashing on city wall», и нейросеть создаёт новую картинку.
Описание применения генеративной модели