Обучение нейросети. Цветовые сочетания на Creative city

концепция проекта

Цель проекта — оценить способность генеративной нейросети к гармоничному сочетанию цветов. Обучение модели проводится на иллюстрациях, отличающихся насыщенной палитрой и сложными колористическими решениями. В качестве обучающей выборки используются работы автора Agnali, распространяемые на платформе Pixabay по открытой лицензии, что обеспечивает легальность и свободу эксперимента с визуальным материалом

папка с датасетом фотографий

На иллюстрациях мы видим: — контрастные, насыщенные цветовые сочетания: яркие красные, глубокие синие, изумрудно-зелёные и тёплые охристые оттенки — плотную живописную фактуру, напоминающую масляную живопись с выразительными мазками — акцент на фигурах персонажей, выделенных на фоне упрощённого или абстрактного пространства — выразительные детали (одежда, аксессуары, жесты рук), усиливающие характер и настроение сцен

процесс работы с кодом и обучения нейросети

Исходный размер 991x1044

загрузка датасета исходных изображений

Исходный размер 1280x683

предпросмотр загруженного датасета

Исходный размер 1280x502

добавление идентификатора токена концепции в виде префикса к записям из датасета

тренировка модели на загруженном датасете

Исходный размер 1280x451

сохранение модели в хабе на Hugging Face

Исходный размер 1280x597

генерация изображения на основе промпта

серия изображений после обучения нейросети

Исходный размер 1024x1024

Промт: image in Agnali style, two men in hats playing violin

Исходный размер 1024x1024

промт: image in Agnali style, woman sitting on chair with book in her hand

Исходный размер 1024x1024

промт: image in Agnali style, man drinking coffee sitting near another woman with big earrings in her ears

Исходный размер 1024x1024

промт: image in Agnali style, lion sitting near the big a building with walls of different colors

Исходный размер 1024x1024

промт: image in Agnali style, woman in dress sitting on the field in big amount of flower

подытожим

Чему нейросеть обучилась? — ограниченная, но согласованная цветовая палитра (преобладание тёплых коричневых и приглушённых оттенков) — имитация живописного стиля — передача композиции с акцентом на центральных персонажах и сюжетности сцен — воспроизведение разных сюжетов (музыканты, чтение, общение, животные, прогулка), сохраняя единый визуальный язык — частичное добавление ярких акцентов (например, более насыщенные цвета в изображении льва и сцены с цветами)

Что ещё выяснилось? — нейросеть склонна «усреднять» цвета, даже если в обучении присутствуют яркие сочетания — насыщенность часто теряется — яркие и контрастные палитры воспроизводятся нестабильно: в одних случаях (лев, поле цветов) — удачно, в других — уходят в монохром — гармония цветов достигается за счёт ограничения диапазона, а не за счёт сложных цветовых сочетаний — нейросеть лучше справляется с единым настроением через палитру (например, ретро/ностальгия), чем с разнообразием цветовых решений — сочетание ярких оттенков получается более уверенно, когда они привязаны к конкретным объектам (цветы, шерсть), а не ко всей сцене целиком

про техническую реализацию

В основе экспериментов лежит базовая архитектура Stable Diffusion XL 1.0. Адаптация модели выполнена с помощью Dreambooth в комбинации с LoRA, что позволило точечно донастроить веса без полного переобучения. Датасет состоял из 25 изображений, приведённых к разрешению 1024×1024 пикселя.

дополнительно использованные нейросети

https://chatgpt.com/ — для написания текста

https://deepseek.com/en/ — для написания текста

ссылка на код и датасет