Исходный размер 1140x1600

Обучение генеративной нейросети под стиль Германа Гессе

Проект принимает участие в конкурсе

Концепция

big
Исходный размер 623x572

Герман Гессе. Красный дом, 1922

Акварельные работы Герман Гессе — это продолжение его литературного мира, перенесённое в цвет и форму. Его пейзажи и воображаемые пространства строятся на прозрачных слоях, мягких переходах и внутреннем ритме, где важнее состояние, чем точность или детализация.

1. Герман Гессе. Горы за деревьями, 1926 2. Герман Гессе. Деревушка, 1927

В проекте эта логика переносится в цифровую среду: модель обучалась на пейзажных сценах, заданных через систему промптов: долины, леса, водоёмы, горные и прибрежные ландшафты. Эти описания формируют разнообразное визуальное поле.

Выбор такой цели напрямую связан с природой живописи Гессе: она не стремится к академической точности и функционирует как медитативная практика — способ фиксировать состояние и настроение. Поэтому основной концепт проекта — не воспроизведение конкретных ландшафтов, а попытка перенести этот принцип в генерацию: текучесть формы, многослойность цвета и атмосферность изображения. В этом смысле модель работает как среда для проявления визуального состояния.

Работы Германа Гессе. 20 век

Итоговая серия

Итоговые изображения

Исходный размер 2480x786

Итоговые изображения

В процессе обучения использовалась серия пейзажных промптов, описывающих природные сцены с разной атмосферой и светом. Важным было не только разнообразие сюжетов, но и акцент на состояниях среды — туман, мягкий свет, закат, рассвет, ветер, влажность воздуха.

Примеры промптов: serene river flowing through meadows; foggy moorland with solitary tree; peaceful rice terraces at sunrise; dramatic sky over prairie.

Исходный размер 2048x2048

Итоговое изображение

Итоговые изображения

В результате генерации удалось добиться изображений, которые не воспроизводят пейзажи буквально, а интерпретируют их через акварельную эстетику. На представленных изображениях видно, что формы упрощаются и обобщаются, контуры становятся мягкими и слегка размытыми, а цвет работает слоями. Пространство часто теряет линейную перспективу и становится более плоскостным и декоративным.

При этом сохраняется разнообразие состояний: от холодных туманных сцен с минималистичной композицией до насыщенных орнаментальных ландшафтов с яркими цветовыми акцентами. В некоторых изображениях проявляется абстрактная структура, где пейзаж считывается скорее через цветовые поля и ритм, чем через детали.

Итоговые изображения

Исходный размер 2480x786

Итоговые изображения

Получившиеся изображения демонстрируют вариативность внутри единого акварельного языка: при общей стилистике они различаются степенью абстракции, цветом и построением пространства. Заметен диапазон от приглушённых, туманных сцен с холодной палитрой до насыщенных, контрастных изображений, где цвет становится главным выразительным средством. В одних случаях пространство выстраивается через глубину и перспективу, в других — схлопывается в плоскость, превращаясь в ритм полос и цветовых масс.

Итоговые изображения

Процесс создания генеративной модели

Для обучения нейросетевой модели я сформировала датасет, включающий 61 акварельную работу Герман Гессе. Изображения подбирались вручную с акцентом на устойчивые визуальные характеристики: мягкие природные ландшафты, архитектурные мотивы и медитативную композицию. Важным критерием была не сюжетная уникальность, а повторяемость художественных принципов — прозрачность акварельных слоёв, плавные цветовые переходы и ощущение «воздуха».

Итоговые изображения

Сначала проверяется GPU и настраивается среда, после чего устанавливаются необходимые библиотеки и загружается скрипт DreamBooth LoRA для обучения модели без полного переобучения.

Далее создаётся директория и загружается датасет, приведённый к единому формату. После этого проводится визуальная проверка: изображения собираются в сетку, чтобы убедиться в их стилистической согласованности и отсутствии выбросов.

0

Изображения загружаются из директории, после чего выбирается несколько примеров и объединяется в сетку с помощью функции image_grid.

Исходный размер 2480x828

Затем я перешла к этапу автоматической разметки изображений. Для этого использовалась модель BLIP, которая преобразует изображения в текстовые описания. Для каждого изображения генерируется подпись, к которой добавляется стилевой префикс «in the style of HERMANN_HESSE». Это позволяет модели в процессе обучения связать текстовый токен с визуальным стилем.

0

После этого настраивается accelerate, который отвечает за оптимизацию обучения и управление вычислительными ресурсами. Далее выполняется авторизация в Hugging Face и устанавливается библиотека datasets для работы с данными.

Исходный размер 2480x592

Итоговые изображения

Основной этап — обучение модели. В качестве базовой архитектуры используется Stable Diffusion XL, а LoRA применяется для внедрения стилевых особенностей без полного переобучения модели. Параметры обучения подбираются так, чтобы обеспечить баланс между скоростью и качеством результата.

Исходный размер 2480x812

После завершения обучения создаётся репозиторий на Hugging Face, куда загружаются веса модели и описание (model card). Затем собирается inference-пайплайн: к базовой модели подключается VAE и обученные LoRA-веса.

0

На финальном этапе генерируется серия изображений. Используется набор различных природных сцен, к которым добавляется стилевой префикс, что позволяет проверить, насколько стабильно модель переносит стиль на разные сюжеты.

Итоговые изображения

Использование нейросетей

В процессе работы я использовала ChatGPT как инструмент для решения технических задач и оптимизации кода. Он помогал разбирать ошибки и находить причины сбоев. Кроме того, применялся на концептуальном уровне — для формулирования идей и структурирования подхода к работе со стилем и датасетом.

Upscayl использовался для улучшения качества сгенерированных картинок.

Исходный размер 2048x2048

Итоговое изображение

Обучение генеративной нейросети под стиль Германа Гессе
Проект создан 23.03.2026
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше