концепция проекта
Цель проекта — оценить способность генеративной нейросети к гармоничному сочетанию цветов. Обучение модели проводится на иллюстрациях, отличающихся насыщенной палитрой и сложными колористическими решениями. В качестве обучающей выборки используются работы автора Agnali, распространяемые на платформе Pixabay по открытой лицензии, что обеспечивает легальность и свободу эксперимента с визуальным материалом
На иллюстрациях мы видим: — контрастные, насыщенные цветовые сочетания: яркие красные, глубокие синие, изумрудно-зелёные и тёплые охристые оттенки — плотную живописную фактуру, напоминающую масляную живопись с выразительными мазками — акцент на фигурах персонажей, выделенных на фоне упрощённого или абстрактного пространства — выразительные детали (одежда, аксессуары, жесты рук), усиливающие характер и настроение сцен
процесс работы с кодом и обучения нейросети
загрузка датасета исходных изображений
предпросмотр загруженного датасета
добавление идентификатора токена концепции в виде префикса к записям из датасета
тренировка модели на загруженном датасете
сохранение модели в хабе на Hugging Face
генерация изображения на основе промпта
серия изображений после обучения нейросети
Промт: image in Agnali style, two men in hats playing violin
промт: image in Agnali style, woman sitting on chair with book in her hand
промт: image in Agnali style, man drinking coffee sitting near another woman with big earrings in her ears
промт: image in Agnali style, lion sitting near the big a building with walls of different colors
промт: image in Agnali style, woman in dress sitting on the field in big amount of flower
подытожим
Чему нейросеть обучилась? — ограниченная, но согласованная цветовая палитра (преобладание тёплых коричневых и приглушённых оттенков) — имитация живописного стиля — передача композиции с акцентом на центральных персонажах и сюжетности сцен — воспроизведение разных сюжетов (музыканты, чтение, общение, животные, прогулка), сохраняя единый визуальный язык — частичное добавление ярких акцентов (например, более насыщенные цвета в изображении льва и сцены с цветами)
Что ещё выяснилось? — нейросеть склонна «усреднять» цвета, даже если в обучении присутствуют яркие сочетания — насыщенность часто теряется — яркие и контрастные палитры воспроизводятся нестабильно: в одних случаях (лев, поле цветов) — удачно, в других — уходят в монохром — гармония цветов достигается за счёт ограничения диапазона, а не за счёт сложных цветовых сочетаний — нейросеть лучше справляется с единым настроением через палитру (например, ретро/ностальгия), чем с разнообразием цветовых решений — сочетание ярких оттенков получается более уверенно, когда они привязаны к конкретным объектам (цветы, шерсть), а не ко всей сцене целиком
про техническую реализацию
В основе экспериментов лежит базовая архитектура Stable Diffusion XL 1.0. Адаптация модели выполнена с помощью Dreambooth в комбинации с LoRA, что позволило точечно донастроить веса без полного переобучения. Датасет состоял из 25 изображений, приведённых к разрешению 1024×1024 пикселя.
дополнительно использованные нейросети
https://chatgpt.com/ — для написания текста
https://deepseek.com/en/ — для написания текста




