Нейросети и Бублик на Creative city

Идея проекта

Исходный размер 3500x2108

Д. Грибкова, «Бублик в дикой природе», акрил, 2025 // фотографии Бублика, включённые в датасет

Всё детство я мечтала о коте, но по разным причинам моя семья не могла завести питомца. Однако этому желанию было суждено сбыться, и вот уже почти 5 лет я живу бок о бок с лучшим котом на свете — Бубликом! Он является важной частью моей жизни и часто вдохновляет, поэтому мной было принято решение сделать его ключевой фигурой проекта по обучению генеративной нейросети.

Так, мой проект — это исследование возможностей генеративной нейросети в области воссоздания черт конкретного животного в разных сюжетах.

Исходный размер 3500x1206

Фотографии Бублика, включённые в датасет

Процесс обучения

Путь к созданию желаемого стиля (в моём случае, запоминания нейросетью внешности Бублика) можно разделить на большие блоки:

Формирование и подготовка набора изображений;
Создание текстового датасета (подписей) на основе визуальной базы;
Непосредственное обучение с использованием заранее настроенных библиотек;
Генерация результатов нейросетью на основе усвоенных инструкций.

В рамках проекта использовались следующие программные решения:

Stable Diffusion (обучение генеративной модели);
Google Colab (среда выполнения);
Hugging Face (получение токена и последующая загрузка обученной модели);
ChatGPT (создание сложных фрагментов кода, проверка и консультации, помощь с промптом для генерации финальных изображений);
Adobe Photoshop (минимальная постобработка результатов, коллажирование, графическая обработка скриншотов кода);
Picsart (улучшение качества изображения для обложки).

(1). Формирование и подготовка набора изображений

Датасет состоит из 46 фотографий Бублика или фрагментов его тела. Все изображения были взяты из моей фотогалерии и отформатированы до пропорций идеального квадрата вручную для уверенности в том, что будут сохранены самые важные части (однако изменение разрешения до 512×512 было произведено именно при помощи кода).

Подготовка среды обучения, датасета, генерация метаданных для LoRA, превью датасета

(2). Создание текстового датасета (подписей) на основе визуальной базы (3). Непосредственное обучение с использованием заранее настроенных библиотек

На данном этапе используется модель BLIP, которая автоматически генерирует текстовые описания для каждого изображения. Затем к этим описаниям добавляется общий стилевой компонент. Полученные данные сохраняются в файл metadata.jsonl, благодаря чему каждому изображению соответствует собственный обучающий промпт.

Генерация подписей, загрузка BLIP-модели, собрание промптов описания в JSONL-файл

После генерации подписей модель BLIP выгружается из GPU-памяти, чтобы освободить VRAM для последующего обучения LoRA.

Команда «accelerate config default» формирует стандартную конфигурацию библиотеки Accelerate, которая отвечает за организацию процесса обучения. Авторизация в Hugging Face необходима для работы во внешней среде: она позволяет загружать модель и публиковать её в собственном репозитории, обеспечивая доступ к ней другим пользователям.

После завершения обучения я убедилась, что все веса LoRA корректно сохранились, и создала репозиторий на Hugging Face. Туда добавилась model card с описанием процесса обучения. Затем я загрузила все файлы модели (за исключением временных чекпоинтов) и получила ссылку на готовый репозиторий.

На следующем этапе я подключила VAE для корректного декодирования изображений и интегрировала обученную LoRA в пайплайн Stable Diffusion XL, подготовив систему к тестовой генерации.

Непосредственное обучение генеративной нейросети

Теперь нейросеть знает, как выглядит Бублик, и готова создавать изображения с ним в качестве главного героя!

(4). Генерация результатов нейросетью на основе усвоенных инструкций

Исходный размер 3500x1221

Бублик в библиотеке и на улице в разные сезоны

Промпты охватывают несколько тематических направлений. В первую очередь были созданы сцены, связанные с известными городами мира, где Бублик изображается в различных локациях — от оживлённых улиц мегаполисов до исторических достопримечательностей. Также были разработаны сюжеты с сельскими пейзажами: полями, садами и деревенской атмосферой, что позволило протестировать генерацию более спокойных и природных сцен.

Исходный размер 3500x1221

Бублик в Париже, Риме и Нью-Йорке

Исходный размер 3500x1898

Бублик в сельской местности

Отдельное внимание было уделено креативным и нестандартным сценариям, включая фантастические и сюрреалистические сцены, где Бублик взаимодействует с необычными объектами и окружением. Кроме того, были созданы промпты, вдохновлённые известными произведениями искусства, что позволило объединить стилистику классической живописи с особенностями обученной модели.

Таким образом, разнообразие тем позволило комплексно оценить возможности генеративной модели: от реалистичных сцен до художественных и экспериментальных изображений.

Исходный размер 3500x1221

Бублик и фантастика

Бублик на картинах известных художников

Исходный размер 3500x1221

Бублик на картинах известных художников

Заключение

В результате проведённых экспериментов можно сделать вывод, что модель в целом успешно справляется с задачей генерации изображений с Бубликом.

В частности, нейросеть хорошо понимает общее строение кота: в большинстве случаев изображения получаются с корректной анатомией, соблюдением пропорций и минимальным количеством артефактов. Это свидетельствует о том, что обучение модели прошло эффективно на уровне общей формы и структуры объекта.

Однако при этом была выявлена важная проблема: мордочка Бублика в сгенерированных изображениях практически не получается узнаваемой. Несмотря на сохранение общей «кошачьей» формы, индивидуальные особенности внешности теряются, что указывает на недостаточную точность передачи уникальных признаков. Вероятно, с увеличением датасета степень неточностей была бы ниже.

Также в ходе работы было замечено, что нейросеть стабильно генерирует кота при использовании в промптах фразы «cute cat». По этой причине я использовала данную формулировку во всех запросах, что позволило добиться более предсказуемых и стабильных результатов генерации.

Таким образом, модель демонстрирует хорошие результаты в генерации изображений с корректной анатомией и композицией, однако требует доработки для более точной передачи индивидуальных черт конкретного объекта.

Исходный размер 3500x1898

Удачная передача фрагментов тела и шёрстки

Ссылка на блокнот с кодом в Google Colab

Ссылка на модель на Hugging Face