Идея проекта
Целью проекта было исследовать, насколько генеративная модель может воспроизводить характерные особенности художественного языка Амедео Модильяни.
В рамках проекта была обучена LoRA-адаптация модели Stable Diffusion XL на датасете из изображений его работ. Основное внимание уделялось особенностям стиля художника — вытянутые лица, удлиненные шеи, упрощенные черты, приглушенная цветовая гамма и портретная композиция.
Отдельной задачей для меня стало проверить, насколько модель способна выходить за пределы портретов и корректно генерировать фигуру и руки, сохраняя стилистическое единство.
Датасет
*Все изображения были взяты из источников, находящихся в общественном достоянии.
*Все изображения были взяты из источников, находящихся в общественном достоянии.
Для обучения был собран датасет из 72 изображений работ Амедео Модильяни.
Изображения были приведены к квадратному формату (1:1), чтобы соответствовать требованиям модели. В датасет включены как классические портреты, так и изображения с частично или полностью видимой фигурой, включая руки, что позволило расширить диапазон возможных генераций.
Процесс обучения
Обучение проводилось с использованием LoRA-адаптации модели Stable Diffusion XL.
Датасет был загружен в Google Colab, где изображения были автоматически обработаны и приведены к единой структуре. Для обучения использовался единый текстовый дескриптор, описывающий ключевые признаки стиля (портретность, вытянутые пропорции, живописная манера).
Обучение проходило в течение ~600 шагов, что позволило модели усвоить основные визуальные характеристики без переобучения.
Итоговая серия изображений
Анализ
В результате обучения модель успешно воспроизводит ключевые особенности стилистики Модильяни. Наиболее стабильно передаются вытянутые пропорции лица, удлиненные шеи, упрощенные черты и общая живописная атмосфера.
Модель демонстрирует высокую консистентность в передаче портретной композиции. Во многих изображениях сохраняется характерная фронтальность, спокойная поза и обобщенная форма лица.
Также хорошо воспроизводится цветовая палитра — приглушенные, мягкие тона, близкие к оригинальным работам художника.
При генерации полнофигурных изображений модель демонстрирует менее стабильный результат. В некоторых случаях фигура обрезается или композиция смещается в сторону портретного кадра.
Однако отдельные генерации показывают, что модель способна воспроизводить тело и руки, если это явно указано в текстовом запросе. Это подтверждает, что соответствующие признаки были частично усвоены, но требуют более точного контроля.
Изображения различаются по композиции, цвету и степени детализации. Несмотря на единый стиль, модель создает разнообразные вариации.
Наблюдаются типичные ограничения генеративных моделей: искажения анатомии, нестабильность при генерации рук и зависимость от формулировки промпта.
Использование GenAI
В проекте дополнительно использовались генеративные инструменты (в частности, ChatGPT) для помощи в написании кода, структурировании текста и описании результатов. Генерации изображений осуществлялись с помощью обученной модели Stable Diffusion XL.