Обучение генеративной нейросети под стиль винтажных иллюстраций на Creative city

Концепция

Для своего проекта я выбрала эстетику старинных гравюр и иллюстраций из учебников биологии XIX века. Этот стиль отличается тонкой штриховкой, имитацией оттиска на состаренной бумаге и высокой детализацией, в связи с чем предо мной стояла цель проверить, сможет ли современная модель SDXL уловить нюансы ручной графики и перенести их на современные фантастические сюжеты.

Исходные изображения

Лицензия Creative Commons Zero (CC0) и Public Domain

Для обучения модели LoRA использовались изображения, отобранные через поисковую систему Public Work. Это гарантирует соблюдение авторских прав и этичность использования данных, поскольку исходные изображения были получены из открытых цифровых архивов (The MET, New York Public Library и др.). Эти институции официально передали оцифрованные копии своих коллекций в общественное достояние, что означает, что авторское право на них истекло или не распространяется, и их можно свободно использовать для любых целей, включая обучение нейросетей.

Примеры исходных изображений для обучения модели

Для обучения модели по технологии LoRA мной был подготовлен датасет из 20 изображений в стиле VINTAGE_ENGRAVING. Каждое изображение прошло предварительную обработку: приведение к единому разрешению и очистку от лишних шумов. В качестве базовой модели использовалась Stable Diffusion XL.

Серия изображений

Итоговая серия представляет собой коллекцию сюрреалистичных научных иллюстраций. Несмотря на разнообразие объектов (от глубоководных медуз до космических китов), серия выглядит цельной.

Биологическое направление — медуза, скелет дракона — здесь нейросеть сфокусировалась на анатомической точности линий.

Техно-сюрреализм — механическое сердце — LoRA успешно совместила жесткие геометрические формы шестеренок с мягкой графикой гравюры.

Космическая тематика — кит — сложный пример, где модель объединила макро-объекты и живое существо в единой графической манере.

Анализ результатов

Модель успешно переняла характерные черты гравюры: использование только черного и белого цветов, специфическую перекрестную штриховку для создания теней и эффект зернистости бумаги.

Нейросеть смогла применить винтажный стиль к объектам, которых не было в обучающей выборке, например, к изображению кита в космосе или механического сердца. Это доказывает, что модель усвоила именно художественную манеру, а не просто запомнила объекты.

Работа со штрихом и линией

В оригиналах: очень тонкая, сухая штриховка, тени созданы за счет плотности линий.

В генерациях: нейросеть удачно скопировала этот прием, вместо мягких теней (градиентов) она использует именно графические линии.

Эстетика «старой бумаги»

В оригиналах: характерный желтовато-кремовый фон и легкая «грязца» (шум), как на бумаге XIX века.

В генерациях: этот эффект сохранился во всех 6 картинках. Нейросеть не стала делать их «чистыми» и современными, а оставила текстуру старинного учебника.

Новые образы в старом стиле

Нейросеть не просто скопировала картинки, а научилась «думать» как гравер. Например, она взяла структуру кита и наложила на него технику штриховки с референса с жуками, добавив элементы астрономии. То есть, модель обладает высокой обобщающей способностью.

Ноутбук с кодом

Исходный размер 2635x576

Обучение проводилось в среде Google Colab с использованием видеокарты NVIDIA T4. Для реализации была выбрана библиотека Diffusers от Hugging Face.

Исходный размер 2638x1061

Исходный размер 2644x795

Исходный размер 2648x919

Исходный размер 2660x1143

Описание процесса обучения

Базовая модель: Stable Diffusion XL (SDXL) 1.0 — выбрана за высокую детализацию и глубокое понимание сложных художественных стилей.

Исходный размер 1349x192

Метод: LoRA (Low-Rank Adaptation). Этот метод позволил эффективно «дообучить» нейросеть новому стилю, не перезаписывая все веса огромной модели, а добавляя небольшие корректирующие слои.

Исходный размер 1076x191

Оптимизация: для работы в условиях ограниченной памяти GPU использовались методы 8-bit Adam (сжатие оптимизатора) и Gradient Checkpointing, что позволило избежать ошибок нехватки памяти при высоком разрешении (512-1024px).

Исходный размер 1111x252

Конфигурация: обучение длилось 500 шагов (steps) с интенсивностью обучения (learning rate) 1e-4, что обеспечило баланс между узнаваемостью стиля и гибкостью генерации новых объектов.

Исходный размер 841x332

В процессе работы возникли технические сложности с настройкой зависимостей библиотек (конфликты версий Torch и Diffusers) и нехваткой памяти GPU в бесплатной версии Colab. Проблема была решена путем оптимизации параметров обучения (использование 8-bit Adam и Gradient Checkpointing).

Описание применения генеративной модели

Помимо обучения основной нейросети (SDXL LoRA), в работе над проектом мной использовался мультимодальный ассистент Gemini. Применение ГенИИ было разделено на два ключевых направления:

Техническая отладка и объяснение ошибок: Gemini использовался для интерпретации ошибок компиляции в Google Colab (например, устранение конфликтов версий torch и diffusers). ИИ помог оперативно адаптировать код обучения под ограничения бесплатного GPU-ускорителя (T4), предложив внедрить методы оптимизации памяти (8-bit Adam, Gradient Checkpointing).

Креативный соавтор (Prompt Engineering): для создания итоговой серии изображений Gemini помог сгенерировать промпты на английском языке на основе запроса, написанного на русском.