Современные генеративные нейросети, такие как Stable Diffusion, открывают новые горизонты в визуальном творчестве, позволяя создавать изображения в заданном стиле или с конкретными визуальными характеристиками. В рамках данного проекта была поставлена цель — обучить нейросеть воспроизводить визуальный стиль, вдохновлённый работами Мэри Блэр — знаменитой художницы и иллюстратора, чьи яркие, сказочные образы стали неотъемлемой частью классических анимационных фильмов студии Disney.
Созданный визуальный мир находится на грани сна и реальности: он наполнен уютной атмосферой, причудливыми архитектурными формами и волшебными существами. Основной задачей стало не только воссоздание эстетики конкретного художественного стиля, но и разработка уникальной визуальной концепции, которая бы объединила элементы сказки, детской наивности и креативной свободы.
В результате обучения нейросети был получен набор изображений, иллюстрирующих путешествие маленькой героини по фантастическому городу. Проект также включает разбор процесса обучения модели, описание собранного датасета, а также визуальный анализ финальных изображений.
Выбранный иллюстратор: Мэри Блэр (Mary Blair)
Почему она? Мэри Блэр — известная иллюстраторка и концепт-художница, работавшая над визуальным стилем классических мультфильмов Disney (например, Alice in Wonderland, Peter Pan, Cinderella). Её стиль легко узнаваем: он яркий, сказочный, с упрощёнными формами, нестандартной перспективой и богатой цветовой палитрой. Это отличный кандидат для генеративной нейросети: визуальный стиль чёткий, но достаточно разнообразный, чтобы его можно было воспроизвести.
Объект генерации: Серия изображений, изображающих архитектуру и персонажей волшебного города:
Домики, напоминающие грибочки и чайники
Волшебные существа (гибриды животных и предметов)
Необычные деревья и фонари
Героиня — маленькая девочка в шляпе, путешествующая по этому миру
Референсы датасета
Работы Мэри Блэр
Работы Мэри Блэр
Работы Мэри Блэр
Для датасэта были собраны 23 работы Мэри Блэр для формирования понимания стилистических решений.
Promt — A whimsical fairy-tale town in the style of Mary Blair, pastel colors, dreamy lighting, surreal architecture, magical creatures, childlike wonder
Promt — A whimsical fairy-tale town in the style of Mary Blair, pastel colors, dreamy lighting, surreal architecture, magical creatures, childlike wonder
Promt — A whimsical fairy-tale town in the style of Mary Blair, pastel colors, dreamy lighting, surreal architecture, magical creatures, childlike wonder
Promt — A whimsical fairy-tale town in the style of Mary Blair, pastel colors, dreamy lighting, surreal architecture, magical creatures, childlike wonder
Promt — A whimsical fairy-tale town in the style of Mary Blair, pastel colors, dreamy lighting, surreal architecture, magical creatures, childlike wonder
Работа с нейросетью показала, что, несмотря на впечатляющие возможности генеративных моделей, точная передача тонких художественных нюансов остаётся непростой задачей. Модель старалась сохранить ключевые стилистические особенности — яркую цветовую палитру, обобщённые формы, сказочную атмосферу, характерную для работ Мэри Блэр. Однако в некоторых случаях нейросеть не до конца улавливала нюансы композиции, пропорций и особый баланс наивности и изящества, присущий оригинальным иллюстрациям.
Тем не менее, результат можно считать успешным: модель уверенно воспроизводит общее визуальное настроение и атмосферу, а отдельные элементы, такие как персонажи и архитектурные формы, действительно напоминают оригинальный стиль. Это наглядно демонстрирует потенциал нейросетей в художественной генерации, при этом подчёркивая важность тщательной подготовки датасета и необходимости ручной доработки для достижения наилучшего результата.
Вывод Данные, полученные в процессе генерации, сыграли ключевую роль в оценке успешности обучения нейросети и реализации художественной концепции проекта. Сгенерированные изображения позволили визуально проанализировать, насколько точно модель смогла перенять стиль Мэри Блэр и передать атмосферу вымышленного сказочного мира.
Работа с кодом
качаются все зависимости с которыми будем работать, Установка диффузера, и установка скрипта тренировки модели
Создаем папку fotos, загружаем в память фотки и затем выводим их, чтобы посмотреть загрузились они в память или нет
подгружаем BLIP, чтобы он автоматически описал наши картины
запускаем натренированную модель
модель использованная для обучения: https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
энкодер модели: https://huggingface.co/madebyollin/sdxl-vae-fp16-fix
помощь при составлении промптов: https://chatgpt.com




