Иллюстрированные миры: генерация образов котов в эстетике книжной графики
О проекте
Идея проекта в исследовании возможностей генеративных нейросетей в воспроизведении художественного стиля книжной иллюстрации через образ кота.
В качестве основы используется набор иллюстраций с котами, выполненных в стилистике классических книжных иллюстраций. Эти изображения формируют визуальный язык проекта: мягкие линии, акварельные текстуры, выразительная мимика.
С помощью обучения модели Stable Diffusion создаётся генеративная система, способная не просто воспроизводить отдельные изображения, а интерпретировать стиль и применять его к новым сценам, сохраняя целостность художественного подхода.
Цель
Создать модель, которая генерирует изображения котов в едином художественном стиле, характерном для книжных иллюстраций, передавая: • атмосферу (уют, сказочность, лёгкая меланхолия или юмор) • визуальные особенности (линии, цвет, композиция)
Ожидаемый результат
Серия изображений, объединённых: • единым стилем • общим персонажем (кот) • ощущением «иллюстраций к книге, которой не существует»
Каждое изображение показывает сцену.
Исходный датасет


Процесс обучения
Я взяла предоставленный исходный код и первым делом все настроила — для этого загрузила необходимые библиотеки, а затем датасет из 11 иллюстраций с котами.
код загрузки изображений
Далее я создала ключ на Hugging Face и приступила к обучению нейросети.
В итоге обучение получилось только с 3 попытки и каждая попытка занимала около часа.
код обучения
Что получилось
Для первого изображения я написала простой и короткий заапрос, чтобы протестировать как нейросеть запомнила референсные изображения.
Промт: «A picture of a cute cat»
Как видим нейросеть хорошо поняла датасет и смогла выдержать стиль, подобный книжным иллюстрациям.
Также она использует в генерациях окраски характерные темные полосочки на морде кота. Благодаря этому на всех генерациях получается единый «персонаж».
Кот в динамичной, игровой позе, создаёт ощущение сцены из иллюстрированной книги, а не статичного изображения. Нейросеть смогла передать характерную для книжной графики мягкую цветовую палитру и текстурность, избегая фотореализма.
Промт: «A picture of a cat stretching in a sunny meadow»
Кот в одежде, похожий на малеького мальчика из советских картинок усиливает ощущение персонажа из книжной иллюстрации. Нейросеть успешно передала винтажную эстетику: мягкие цвета, аккуратную штриховку и текстуру бумаги.
Промт: «A picture of a kitten wearing a cap and pants with suspenders»
Кошка представлена в более детализированном образе с акцентом на декоративные элементы, что усиливает ощущение персонажа из старинной иллюстрированной книги.
Промт: «A picture of a beautiful cat in a lace pink dress with a bow»
В данной серии изображений кот представлен в разных композициях — от более общей сцены до крупного портрета, что создаёт ощущение вариативности внутри единого визуального языка. Нейросеть стабильно передаёт характерную текстуру штриховки, приглушённую палитру, а добавление элементов (бабочки, растительность) усиливает сюжетность и «живость» сцен. При этом изображения отличаются степенью детализации и ракурсом, что демонстрирует способность модели адаптировать один и тот же стиль под разные типы визуальных решений, сохраняя целостность серии.
Промт: «A picture of a cat admiring butterflies and looking at them attentively»


Кот напоминает персонажа из классической иллюстрированной книги или гравюры. Такой результат показывает способность не только воспроизводить стиль, но и переносить его на более сложные и стилизованные образы персонажей.
Промт: «A picture of a serious cat in a blue suit, shirt, bow tie, and hat»
Кот в спокойной, бытовой сцене трогает цветы лапкой, что усиливает ощущение иллюстрации из книги с тихим, наблюдательным настроением. Такой результат подчёркивает способность модели создавать не только персонажей, но и атмосферные сцены.
Промт: «A picture of a cat playing with white flowers in a vase»
Итоги
Результаты работы искусственного интеллекта не идеальны, но у нее получилось довольно близко приблизиться к заданной стилистике.
К примеру, нейросеть смогла сохранить окраску кота на всех изображениях без упоминания в промптах, а это отличный результат для обучения на небольшом датасете.
Готовый код
Папка с генерациями
В проекте были использованы Stable Diffusion для генерации изображений.




