
описание идеи всего проекта
Основной идеей проекта является обучить генеративную нейронную сеть для генерации изображений в стиле художника Михаила Александровича Врубеля, и посмотреть как бы нейросеть изобразила на его картинах котов/кошек, в разных условиях и при разных обстоятельствах.

исходные изображения для обучения
результирующая серия изображений
Для описания картинок был использован чат GPT
Визуальный анализ. В итоговой серии изображений представлены коты и кошки, с людьми, или без них, в разном окружении, и с разными дополнительными элементами. Главной идеей проекта было узнать, как нейросеть изобразит котов (в стиле картин Врубеля), если давать только описание окружения, или людей которые бы присутствовали на картине с котами. На первом изображении представлена юная девочка, с двумя котятами в руках, изображение похоже по стилю на работы Врубеля крупными мазками, и палитрой цветов. Изначальный промт подразумевал одного кота, который сидел бы у ребенка на руках, возраст кота не уточнялся, как и пол ребенка. На втором изображении мы видим юношу, держащего кота в руках, на фоне роз. Нейросеть сгенерировала изображение по промту практически так как надо было, за исключением того что розы должны были быть не на фоне, вместо них должна была быть одна роза в зубах у юноши. Третье изображение — мужчина средних лет с котом, лежащим у него на голове. Мужчина с котом есть, но кот скорее развалился у него на плечах, а не на голове. В остальном, получилось похоже.
(фотоколлаж в стиле Михаила Врубеля, кошка в окружении густого леса на фоне бабочек и мыльных пузырей) В целом соответствует задумке: кот в лесу, с бабочками и мыльными пузырями. Окружение получилось плотным, детализация на уровне.
(фотоколлаж в стиле Михаила Врубеля, пожилая женщина с котом, сидящим у неё на плече и держащим в зубах мышь) Бабушка с котом получилась, но кот не сидит у неё на плече и не держит мышь. Вместо этого он у неё на руках, сцена более классическая.
(фотоколлаж в стиле Михаила Врубеля, кошка сидит на камне и грустно смотрит вдаль) Кот на скале есть, но его эмоции не так явно переданы. Тем не менее композиция схожа с описанной.
(фотоколлаж в стиле Михаила Врубеля, котёнок и кошка сидят рядом) Здесь получилось два котёнка, без взрослого кота. Но в целом сцена соответствует оригиналу.
(фотоколлаж в стиле Михаила Врубеля, «Котёнок спит на окне маленького домика тёмной туманной ночью») Котёнок у окна есть, но окружение менее детализировано. Туман и атмосферность переданы хорошо.
(фотоколлаж в стиле Михаила Врубеля, кошка стоит в удивлении перед зеркалом, старик стоит позади кошки) Кот и зеркало есть, старик тоже, но эмоции кота не такие яркие, как в промте. Получилось скорее задумчиво, чем удивлённо
(фотоколлаж в стиле Михаила Врубеля, кошка смотрит на своё отражение в озере (в окружении природы)) Полностью соответствует замыслу — кот у воды, с отражением, природа вокруг. Нейросеть хорошо справилась.
(фотоколлаж в стиле Михаила Врубеля, кошка, играющая с мячом, лежит на полу, вокруг перья и нитки) Кот лежит, есть перья и элементы вокруг, но сам мячик мог получиться не таким заметным. Общая сцена похожа.
Ход работы.
Изначально на гугл диск был загружен архив содержащий наш датасет. Датасет состоит из 34х работ Врубеля. Практически весь код выполнен на основе материалов лекции. При обучении использовались параметры, примененные в лекции, с незначительными изменениями (в промпте и рабочей директории). Обучение проводилось в течение 500 шагов с сохранением контрольной точки каждые 250 шагов. После завершения обучения полученные веса модели были интегрированы в пайплайн для генерации серии изображений. Работа велась с встроенным в Google Collab GPU
EXISTING_LINK_0_1761369334844_z47gxr3×9
Заключение
Цель проекта состояла в том, чтобы посмотреть, как нейросеть изобразит котов в стиле М. А. Врубеля, если в промтах описывать только окружение или людей рядом с ними. В результате нейросеть в большинстве случаев действительно сохранила характерный стиль Врубеля — с его текстурами, цветовой палитрой и атмосферой. Однако она не всегда интерпретировала задумку буквально: иногда добавляла котов в неожиданных позах, изменяла их количество или убирала детали, которые могли выбиваться из выбранного художественного стиля.
Особенно интересно, что даже без явного описания котов они в каждом случае органично вписываются в сцену. Это показывает, что нейросеть использует не только текст, но и контекст, создавая гармоничные композиции. Итоговые работы выглядят так, будто их написал сам Врубель, но с элементами случайности, присущими генератору.