Обучение генеративной нейросети под стиль Мэри Блэр на Creative city

Современные генеративные нейросети, такие как Stable Diffusion, открывают новые горизонты в визуальном творчестве, позволяя создавать изображения в заданном стиле или с конкретными визуальными характеристиками. В рамках данного проекта была поставлена цель — обучить нейросеть воспроизводить визуальный стиль, вдохновлённый работами Мэри Блэр — знаменитой художницы и иллюстратора, чьи яркие, сказочные образы стали неотъемлемой частью классических анимационных фильмов студии Disney.

Созданный визуальный мир находится на грани сна и реальности: он наполнен уютной атмосферой, причудливыми архитектурными формами и волшебными существами. Основной задачей стало не только воссоздание эстетики конкретного художественного стиля, но и разработка уникальной визуальной концепции, которая бы объединила элементы сказки, детской наивности и креативной свободы.

В результате обучения нейросети был получен набор изображений, иллюстрирующих путешествие маленькой героини по фантастическому городу. Проект также включает разбор процесса обучения модели, описание собранного датасета, а также визуальный анализ финальных изображений.

Выбранный иллюстратор: Мэри Блэр (Mary Blair)

Почему она? Мэри Блэр — известная иллюстраторка и концепт-художница, работавшая над визуальным стилем классических мультфильмов Disney (например, Alice in Wonderland, Peter Pan, Cinderella). Её стиль легко узнаваем: он яркий, сказочный, с упрощёнными формами, нестандартной перспективой и богатой цветовой палитрой. Это отличный кандидат для генеративной нейросети: визуальный стиль чёткий, но достаточно разнообразный, чтобы его можно было воспроизвести.

Объект генерации: Серия изображений, изображающих архитектуру и персонажей волшебного города:

Домики, напоминающие грибочки и чайники

Волшебные существа (гибриды животных и предметов)

Необычные деревья и фонари

Героиня — маленькая девочка в шляпе, путешествующая по этому миру

Референсы датасета

Работы Мэри Блэр

Для датасэта были собраны 23 работы Мэри Блэр для формирования понимания стилистических решений.

Promt — A whimsical fairy-tale town in the style of Mary Blair, pastel colors, dreamy lighting, surreal architecture, magical creatures, childlike wonder

Работа с нейросетью показала, что, несмотря на впечатляющие возможности генеративных моделей, точная передача тонких художественных нюансов остаётся непростой задачей. Модель старалась сохранить ключевые стилистические особенности — яркую цветовую палитру, обобщённые формы, сказочную атмосферу, характерную для работ Мэри Блэр. Однако в некоторых случаях нейросеть не до конца улавливала нюансы композиции, пропорций и особый баланс наивности и изящества, присущий оригинальным иллюстрациям.

Тем не менее, результат можно считать успешным: модель уверенно воспроизводит общее визуальное настроение и атмосферу, а отдельные элементы, такие как персонажи и архитектурные формы, действительно напоминают оригинальный стиль. Это наглядно демонстрирует потенциал нейросетей в художественной генерации, при этом подчёркивая важность тщательной подготовки датасета и необходимости ручной доработки для достижения наилучшего результата.

Вывод Данные, полученные в процессе генерации, сыграли ключевую роль в оценке успешности обучения нейросети и реализации художественной концепции проекта. Сгенерированные изображения позволили визуально проанализировать, насколько точно модель смогла перенять стиль Мэри Блэр и передать атмосферу вымышленного сказочного мира.

Работа с кодом

Исходный размер 1280x589

качаются все зависимости с которыми будем работать, Установка диффузера, и установка скрипта тренировки модели

Исходный размер 1280x510

Создаем папку fotos, загружаем в память фотки и затем выводим их, чтобы посмотреть загрузились они в память или нет

Исходный размер 1280x630

подгружаем BLIP, чтобы он автоматически описал наши картины

Исходный размер 877x442

запускаем натренированную модель

блокнот https://colab.research.google.com/drive/1udMowRcJRYLzlIRGwYaiqOUaW-qIw3nA?usp=sharing

модель использованная для обучения: https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

энкодер модели: https://huggingface.co/madebyollin/sdxl-vae-fp16-fix

помощь при составлении промптов: https://chatgpt.com