концепция проекта
Кацусика Хокусай — один из самых узнаваемых художников японской гравюры, чьи образы прочно связаны с культурным и историческим контекстом своего времени. Его визуальный язык формировался в эпоху Эдо и отражает представления о природе, человеке и пространстве той эпохи.

В рамках проекта я исследую, как этот художественный язык может существовать вне своего исторического контекста. Что произойдёт, если перенести стиль Хокусая в современность?
Проект ставит вопрос о том, может ли стиль существовать независимо от времени, в котором он был создан.
Исходные изображения

В качестве датасета были использованы изображения работ Кацусика Хокусай, отобранные с учётом стилистической однородности. В выборку вошли гравюры с характерной линейной графикой, плоскостной композицией и ограниченной цветовой палитрой. Все изображения были приведены к квадратному формату (512×512), что обеспечило корректную работу модели при обучении.

Изображения для обучения были взяты из онлайн-коллекции музея Rijksmuseum, где представлены работы Кацусика Хокусай. Значительная часть материалов доступна в открытом доступе и распространяется с пометкой Public Domain или лицензией Creative Commons Zero (CC0), что позволяет свободно использовать изображения без ограничений и дополнительных разрешений.
процесс обучения модели
Сначала я настроила рабочую среду в Google Colab и подключила GPU, после чего установила все необходимые библиотеки для работы с моделью Stable Diffusion XL и обучения LoRA.
Далее я загрузила изображения с работами Кацусика Хокусай в отдельную директорию. Все изображения были приведены к единому формату и использовались как обучающий датасет.
Также был сформирован список изображений для последующей обработки и проверки.
Следующий этап — автоматическое создание текстовых описаний для изображений с помощью модели BLIP.
Каждому изображению было сопоставлено текстовое описание с добавлением специального префикса (hks_style), который обозначает стиль и помогает модели закрепить его в процессе обучения.
Эти подписи сохранялись в файл metadata.jsonl и использовались как связка между изображением и текстом.
Основной этап — обучение модели на базе Stable Diffusion XL с использованием метода DreamBooth LoRA. Модель обучалась распознавать и воспроизводить характерные особенности японской гравюры. После завершения обучения модель была сохранена локально в формате LoRA (.safetensors), а затем выгружена на платформу Hugging Face.
После обучения я загрузила базовую модель Stable Diffusion XL, подключила VAE и применяла обученные LoRA-веса.
Модель была перенесена на GPU, что позволило генерировать изображения уже с учётом выученного стиля.
результаты генераций
В результате генерации была сформирована серия изображений, разделённая на несколько тематических блоков, каждый из которых по-разному интерпретирует современную реальность через визуальный язык японской гравюры.
Первый блок посвящён городской среде. В нём представлены сцены с людьми и без, дневные и ночные городские пейзажи, а также типичные для современной жизни пространства — такие как кафе и метро.
Второй блок представляет собой несколько серий открыток, построенных по принципу натюрморта — как отсылка к композициям художника: — транспорт — предметы, связанные с женской повседневностью — современные технологии и бытовые объекты — природные пейзажи, которые остаются актуальными вне времени
Каждый из этих блоков демонстрирует, как разные категории объектов по-разному адаптируются под стиль, и позволяет проследить, где визуальный язык сохраняется наиболее чисто, а где начинает трансформироваться под влиянием современного контекста.
комментарий результатов
В результате была получена LoRA-модель, способная воспроизводить основные визуальные характеристики гравюр Кацусика Хокусай. Модель успешно перенимает: — плоскостную композицию — характер линий — ограниченную цветовую палитру
При этом в процессе генерации проявилась особенность: модель склонна воспроизводить наиболее характерные элементы исходного датасета, иногда упрощая или искажая сложные сцены (например, изображения с людьми).
Наиболее устойчиво модель работает с простыми композициями и отдельными объектами, что позволило использовать это ограничение как часть художественного решения проекта.
Сгенерированные изображения демонстрируют перенос исторического визуального языка в современный контекст, что подтверждает основную гипотезу проекта.
описание применения генеративной модели
В проекте использовалась генеративная модель Stable Diffusion XL (SDXL) для обучения и последующей генерации изображений.
На основе собранного датасета была обучена LoRA-модель, позволяющая воспроизводить характерные особенности визуального стиля художника и применять их к новым сюжетам.
Дополнительно в процессе работы использовались вспомогательные модели и инструменты: — модель BLIP (Salesforce/blip-image-captioning-base) для автоматической генерации текстовых описаний изображений — платформа Google Colab для запуска и обучения модели — Hugging Face для хранения и загрузки обученной модели
Также была использована языковая модель ChatGPT для: — генерации промптов
















