Кацусико Хокусай вне эпохи на Creative city

концепция проекта

Кацусика Хокусай — один из самых узнаваемых художников японской гравюры, чьи образы прочно связаны с культурным и историческим контекстом своего времени. Его визуальный язык формировался в эпоху Эдо и отражает представления о природе, человеке и пространстве той эпохи.

Исходный размер 2880x444

В рамках проекта я исследую, как этот художественный язык может существовать вне своего исторического контекста. Что произойдёт, если перенести стиль Хокусая в современность?

Проект ставит вопрос о том, может ли стиль существовать независимо от времени, в котором он был создан.

Исходные изображения

Исходный размер 2880x1137

В качестве датасета были использованы изображения работ Кацусика Хокусай, отобранные с учётом стилистической однородности. В выборку вошли гравюры с характерной линейной графикой, плоскостной композицией и ограниченной цветовой палитрой. Все изображения были приведены к квадратному формату (512×512), что обеспечило корректную работу модели при обучении.

Исходный размер 2880x899

Изображения для обучения были взяты из онлайн-коллекции музея Rijksmuseum, где представлены работы Кацусика Хокусай. Значительная часть материалов доступна в открытом доступе и распространяется с пометкой Public Domain или лицензией Creative Commons Zero (CC0), что позволяет свободно использовать изображения без ограничений и дополнительных разрешений.

Исходный размер 2880x899

Исходный размер 2880x782

процесс обучения модели

Сначала я настроила рабочую среду в Google Colab и подключила GPU, после чего установила все необходимые библиотеки для работы с моделью Stable Diffusion XL и обучения LoRA.

Далее я загрузила изображения с работами Кацусика Хокусай в отдельную директорию. Все изображения были приведены к единому формату и использовались как обучающий датасет.

Также был сформирован список изображений для последующей обработки и проверки.

Следующий этап — автоматическое создание текстовых описаний для изображений с помощью модели BLIP.

Каждому изображению было сопоставлено текстовое описание с добавлением специального префикса (hks_style), который обозначает стиль и помогает модели закрепить его в процессе обучения.

Эти подписи сохранялись в файл metadata.jsonl и использовались как связка между изображением и текстом.

Основной этап — обучение модели на базе Stable Diffusion XL с использованием метода DreamBooth LoRA. Модель обучалась распознавать и воспроизводить характерные особенности японской гравюры. После завершения обучения модель была сохранена локально в формате LoRA (.safetensors), а затем выгружена на платформу Hugging Face.

После обучения я загрузила базовую модель Stable Diffusion XL, подключила VAE и применяла обученные LoRA-веса.

Модель была перенесена на GPU, что позволило генерировать изображения уже с учётом выученного стиля.

блокнот с кодом

результаты генераций

В результате генерации была сформирована серия изображений, разделённая на несколько тематических блоков, каждый из которых по-разному интерпретирует современную реальность через визуальный язык японской гравюры.

Первый блок посвящён городской среде. В нём представлены сцены с людьми и без, дневные и ночные городские пейзажи, а также типичные для современной жизни пространства — такие как кафе и метро.

Исходный размер 2880x1455

Исходный размер 2880x899

Исходный размер 2880x1455

Исходный размер 2880x920

Исходный размер 2880x684

Второй блок представляет собой несколько серий открыток, построенных по принципу натюрморта — как отсылка к композициям художника: — транспорт — предметы, связанные с женской повседневностью — современные технологии и бытовые объекты — природные пейзажи, которые остаются актуальными вне времени

Исходный размер 2880x1418

Исходный размер 2880x1577

Исходный размер 2880x693

Исходный размер 2880x1574

Исходный размер 2880x899

Каждый из этих блоков демонстрирует, как разные категории объектов по-разному адаптируются под стиль, и позволяет проследить, где визуальный язык сохраняется наиболее чисто, а где начинает трансформироваться под влиянием современного контекста.

Исходный размер 2880x1757

Исходный размер 1800x1080

комментарий результатов

В результате была получена LoRA-модель, способная воспроизводить основные визуальные характеристики гравюр Кацусика Хокусай. Модель успешно перенимает: — плоскостную композицию — характер линий — ограниченную цветовую палитру

При этом в процессе генерации проявилась особенность: модель склонна воспроизводить наиболее характерные элементы исходного датасета, иногда упрощая или искажая сложные сцены (например, изображения с людьми).

Наиболее устойчиво модель работает с простыми композициями и отдельными объектами, что позволило использовать это ограничение как часть художественного решения проекта.

Сгенерированные изображения демонстрируют перенос исторического визуального языка в современный контекст, что подтверждает основную гипотезу проекта.

описание применения генеративной модели

В проекте использовалась генеративная модель Stable Diffusion XL (SDXL) для обучения и последующей генерации изображений.

На основе собранного датасета была обучена LoRA-модель, позволяющая воспроизводить характерные особенности визуального стиля художника и применять их к новым сюжетам.

Дополнительно в процессе работы использовались вспомогательные модели и инструменты: — модель BLIP (Salesforce/blip-image-captioning-base) для автоматической генерации текстовых описаний изображений — платформа Google Colab для запуска и обучения модели — Hugging Face для хранения и загрузки обученной модели

Также была использована языковая модель ChatGPT для: — генерации промптов

Исходный размер 2880x444