Небесный свет Тьеполо: нейросеть учится писать фрески на Creative city

Идея проекта

Проект посвящён исследованию того, как генеративная нейросеть может воспроизводить и интерпретировать стиль конкретного художника — Джованни Баттиста Тьеполо (1696–1770), последнего великого мастера венецианского рококо. Его потолочные фрески, наполненные светом, воздухом и парящими фигурами, стали вершиной монументальной живописи XVIII века. Цель проекта — научить модель визуальному языку Тьеполо: его палитре, композициям, пластике фигур — и генерировать новые сцены, которых мастер никогда не писал.

Исходные изображения — работы Джованни Баттиста Тьеполо

В качестве основы был выбран стиль Тьеполо, поскольку он обладает набором ярко выраженных визуальных признаков, идеальных для теста генеративной модели: — пастельная палитра: небесно-голубой, золотистый, розовый, тёплый белый — специфическая постановка фигур с ракурсом снизу вверх (di sotto in sù) — обилие драпировок, облаков и путти — театральность поз и жестов

При этом сюжеты Тьеполо весьма разнообразны мифология, религия, аллегория, античная история. Это позволяет проверить, усвоила ли модель стиль в целом, а не отдельные образы.

Исходные изображения — фрагменты фресок и картин Тьеполо

Исходные изображения (датасет)

Для обучения модели был собран датасет из кропов работ Тьеполо, находящихся в общественном достоянии (произведения XVIII века).

Изображения были получены из открытых музейных коллекций. При подготовке учитывались следующие параметры: — визуальное соответствие характерной стилистике мастера — достаточное качество и разрешение — разнообразие сюжетов и композиций

Каждому изображению автоматически присвоена подпись с помощью модели BLIP с префиксом «in Tiepolo style» для привязки визуальных особенностей к текстовому идентификатору.

Исходные изображения

Процесс обучения

Обучение проводилось на базе модели Stable Diffusion XL методом DreamBooth + LoRA в Google Colab на GPU T4. DreamBooth позволяет привить модели новый визуальный концепт через набор примеров. LoRA — метод, обучающий компактную «надстройку» вместо всех параметров модели, что делает процесс возможным на GPU с ограниченной памятью.

Ключевые параметры: — базовая модель: SDXL 1.0 — разрешение: 1024 × 1024 — количество шагов: 500 — скорость обучения: 1e-4 — точность: mixed precision (fp16) — оптимизатор: 8-bit Adam — градиентное накопление: 3 шага

Обучение заняло около 30–40 минут.

Концепция серии

Результирующие изображения

Серия из 15 изображений — это воображаемый каталог работ Тьеполо. Каждый промпт описывает сюжет, характерный для его творчества, но результат не является копией конкретной картины. Это новые композиции, в которых сохраняются характерные признаки:

— пастельная палитра с доминированием голубого и золотого — парящие фигуры в облаках — классическая архитектура и драпировки — театральные позы и жесты — ощущение света, исходящего изнутри сцены

Промпты охватывают весь спектр сюжетов Тьеполо: от религиозных вознесений до античных триумфов и мифологических сцен.

Результирующие изображения

Анализ итоговой серии

Итоговая серия демонстрирует, как нейросеть интерпретирует стиль Тьеполо и создаёт новые визуальные решения.

Что удалось передать: — палитра: модель уверенно воспроизводит характерные небесно-голубые, золотистые и розоватые тона — свет: передано ощущение «свечения изнутри», когда свет исходит от самих фигур и облаков — композиция: многоуровневое построение с фигурами на нескольких ярусах, ракурс снизу вверх — архитектура: достоверные колонны, портики и арки в мягких тонах — обрамления: модель самостоятельно генерирует декоративные овальные рамы и потолочные молдинги, запомнив контекст фресок в интерьерах дворцов

Результирующие изображения

Вариативность изображений

Несмотря на единый стиль, изображения отличаются: — сюжетом: от камерных сцен до масштабных потолочных композиций — типом пространства: открытое небо, дворцовый интерьер, пейзаж — числом фигур и степенью их детализации — наличием или отсутствием архитектурного обрамления Все 15 изображений безошибочно читаются как «стиль Тьеполо», что подтверждает, что модель не копирует, а варьирует стиль.

Результирующие изображения

Особенности генерации

— модель иногда усиливает «туманность» — вероятно, из-за обучения на фотографиях фресок, снятых через слои воздуха — анатомия фигур порой условна: размытые лица, деформированные кисти рук — типичная проблема диффузионных моделей — в сложных многофигурных сценах перспектива может «схлопываться» — результат чувствителен к формулировке промпта: чем точнее описан сюжет в духе Тьеполо, тем убедительнее результат Таким образом, генеративная модель выступает не только как инструмент воспроизведения, но и как соавтор, создающий вариации в рамках усвоенного стиля.

Результирующие изображения

Ноутбук содержит полный процесс обучения модели: — загрузка и подготовка датасета — автоматическая генерация подписей с помощью BLIP — настройка параметров обучения (DreamBooth + LoRA) — запуск процесса обучения на SDXL — загрузка весов на Hugging Face Hub — генерация 15 изображений с уникальными промптами Ноутбук демонстрирует практическое применение генеративных моделей для переноса художественного стиля.

Ноутбук

ГенИИ

В проекте использовались следующие генеративные модели:

Stable Diffusion XL (stabilityai/stable-diffusion-xl-base-1.0) — основная модель проекта. Дообучена методом DreamBooth + LoRA для генерации изображений в стиле Тьеполо. Все 15 результирующих изображений созданы с её помощью. Ссылка: huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

BLIP (Salesforce/blip-image-captioning-base) — модель для автоматической генерации текстовых подписей к обучающим изображениям. Ссылка: huggingface.co/Salesforce/blip-image-captioning-base

Claude (Anthropic) — использовался для помощи в написании текстов экспликации Ссылка: claude.ai