Идея проекта
Я решил обучить генеративную модель Stable Diffusion под стиль Винсента Ван Гога и посмотреть, сможет ли нейросеть переносить этот стиль на современные сцены.
Идея заключалась в том, чтобы взять визуальный язык художника (мазки, цвет, освещение) и применить его к объектам, которых у него никогда не было — например, метро, смартфоны или современные города
Была собрана папка из квадратных изображений, представляющих собой картины Ван Гога, находящиеся в открытом доступе. Все изображения объединены одним художественным стилем — постимпрессионизм, с характерными мазками, насыщенной цветовой палитрой и выраженной текстурой
Исходные изображения
Для обучения модели был выбран стиль Винсента Ван Гога. Его работы легко узнаются за счет характерной живописной техники и цветовых решений
При отборе изображений обращалось внимание на единый визуальный язык, в том числе: — Выраженные, направленные мазки кисти — Контрастную и насыщенную цветовую палитру (особенно сочетания желтого и синего) — Эффект «движения» в изображении за счет линий и форм — Текстурность и ощущение объема через мазки, а не через реализм — Общую атмосферу — немного искаженную, эмоциональную, с акцентом на восприятие, а не на точность
Все изображения были приведены к единому формату и использовались как база для обучения модели, чтобы она могла уловить именно эти характерные особенности стиля
Процесс обучения
Сначала потребовалось настроить рабочую среду в Google Colab. Для этого были установлены все необходимые библиотеки и скачан репозиторий с инструментами для обучения LoRA (sd-scripts). Также была включена видеокарта (GPU), так как обучение модели без нее занимает слишком много времени
Далее изображения были загружены в Google Drive и подключены к Colab. После этого была проверена структура папок и количество изображений, чтобы убедиться, что датасет корректно подготовлен
Затем изображения были автоматически обработаны: приведены к квадратному формату 512×512 и для каждого изображения был создан текстовый файл с описанием, который используется моделью во время обучения
После подготовки датасета была запущена процедура обучения LoRA на базе модели Stable Diffusion 1.5. В процессе обучения модель проходила несколько эпох, постепенно подстраиваясь под стиль изображений из датасета
После завершения обучения была получена LoRA-модель, которую затем использовали для генерации новых изображений с помощью текстовых запросов
Промпты для генерации изображений
Для тестирования обученной модели использовались текстовые запросы, описывающие современные сцены с указанием стиля Ван Гога. Это позволило проверить, насколько хорошо нейросеть переносит стиль на новые объекты и ситуации
- Промпт: a countryside landscape with fields and trees, van gogh style, post-impressionist oil painting, expressive brush strokes, vibrant yellow and blue colors, textured painting
Промпт: a forest with twisted trees, van gogh style, oil painting, dramatic shapes, expressive brush strokes, high contrast colors, textured painting
Промпт: a person using a smartphone in a cafe, oil painting, warm light, textured brush strokes
Промпт: a street scene with people walking under umbrellas, van gogh style, oil painting, warm lighting, expressive brush strokes, textured painting, vibrant colors
Промпт: a modern bedroom interior, oil painting, cozy light, thick impasto brush strokes
Промпт: a city skyline at sunset, oil painting, glowing sky, dramatic swirls
Подведение итогов
В ходе проекта удалось обучить модель Stable Diffusion с использованием LoRA под стиль Винсента Ван Гога и применить его к новым, современным сценам
Результаты показали, что нейросеть способна достаточно точно улавливать характерные особенности художественного стиля — такие как мазки, цветовая палитра и общее визуальное настроение — и переносить их на изображения, которых не было в исходном датасете
При этом были замечены и ограничения: в некоторых случаях модель искажала детали или упрощала сложные объекты, особенно если сцена сильно отличалась от исходных изображений
Тем не менее, в целом стиль остается узнаваемым, а изображения выглядят цельно и соответствуют поставленной задаче
Таким образом, можно сделать вывод, что дообучение через LoRA является эффективным способом адаптации генеративных моделей под конкретный визуальный стиль и позволяет получать интересные художественные результаты даже на небольшом датасете














