Современный мир глазами Ван Гога на Creative city

Идея проекта

Я решил обучить генеративную модель Stable Diffusion под стиль Винсента Ван Гога и посмотреть, сможет ли нейросеть переносить этот стиль на современные сцены.

Идея заключалась в том, чтобы взять визуальный язык художника (мазки, цвет, освещение) и применить его к объектам, которых у него никогда не было — например, метро, смартфоны или современные города

Файл блокнота

Папка с датасетом

Была собрана папка из квадратных изображений, представляющих собой картины Ван Гога, находящиеся в открытом доступе. Все изображения объединены одним художественным стилем — постимпрессионизм, с характерными мазками, насыщенной цветовой палитрой и выраженной текстурой

Исходные изображения

Для обучения модели был выбран стиль Винсента Ван Гога. Его работы легко узнаются за счет характерной живописной техники и цветовых решений

При отборе изображений обращалось внимание на единый визуальный язык, в том числе: — Выраженные, направленные мазки кисти — Контрастную и насыщенную цветовую палитру (особенно сочетания желтого и синего) — Эффект «движения» в изображении за счет линий и форм — Текстурность и ощущение объема через мазки, а не через реализм — Общую атмосферу — немного искаженную, эмоциональную, с акцентом на восприятие, а не на точность

Все изображения были приведены к единому формату и использовались как база для обучения модели, чтобы она могла уловить именно эти характерные особенности стиля

Процесс обучения

Сначала потребовалось настроить рабочую среду в Google Colab. Для этого были установлены все необходимые библиотеки и скачан репозиторий с инструментами для обучения LoRA (sd-scripts). Также была включена видеокарта (GPU), так как обучение модели без нее занимает слишком много времени

Исходный размер 2116x1140

Далее изображения были загружены в Google Drive и подключены к Colab. После этого была проверена структура папок и количество изображений, чтобы убедиться, что датасет корректно подготовлен

Затем изображения были автоматически обработаны: приведены к квадратному формату 512×512 и для каждого изображения был создан текстовый файл с описанием, который используется моделью во время обучения

Исходный размер 2092x1168

После подготовки датасета была запущена процедура обучения LoRA на базе модели Stable Diffusion 1.5. В процессе обучения модель проходила несколько эпох, постепенно подстраиваясь под стиль изображений из датасета

Исходный размер 2118x1150

После завершения обучения была получена LoRA-модель, которую затем использовали для генерации новых изображений с помощью текстовых запросов

Исходный размер 2108x1164

Промпты для генерации изображений

Для тестирования обученной модели использовались текстовые запросы, описывающие современные сцены с указанием стиля Ван Гога. Это позволило проверить, насколько хорошо нейросеть переносит стиль на новые объекты и ситуации

Промпт: a countryside landscape with fields and trees, van gogh style, post-impressionist oil painting, expressive brush strokes, vibrant yellow and blue colors, textured painting

Исходный размер 768x768

Промпт: a forest with twisted trees, van gogh style, oil painting, dramatic shapes, expressive brush strokes, high contrast colors, textured painting

Исходный размер 768x768

Промпт: a person using a smartphone in a cafe, oil painting, warm light, textured brush strokes

Исходный размер 768x768

Промпт: a street scene with people walking under umbrellas, van gogh style, oil painting, warm lighting, expressive brush strokes, textured painting, vibrant colors

Исходный размер 768x768

Промпт: a modern bedroom interior, oil painting, cozy light, thick impasto brush strokes

Исходный размер 768x768

Промпт: a city skyline at sunset, oil painting, glowing sky, dramatic swirls

Подведение итогов

В ходе проекта удалось обучить модель Stable Diffusion с использованием LoRA под стиль Винсента Ван Гога и применить его к новым, современным сценам

Результаты показали, что нейросеть способна достаточно точно улавливать характерные особенности художественного стиля — такие как мазки, цветовая палитра и общее визуальное настроение — и переносить их на изображения, которых не было в исходном датасете

При этом были замечены и ограничения: в некоторых случаях модель искажала детали или упрощала сложные объекты, особенно если сцена сильно отличалась от исходных изображений

Тем не менее, в целом стиль остается узнаваемым, а изображения выглядят цельно и соответствуют поставленной задаче

Таким образом, можно сделать вывод, что дообучение через LoRA является эффективным способом адаптации генеративных моделей под конкретный визуальный стиль и позволяет получать интересные художественные результаты даже на небольшом датасете