Идея проекта

Д. Грибкова, «Бублик в дикой природе», акрил, 2025 // фотографии Бублика, включённые в датасет
Всё детство я мечтала о коте, но по разным причинам моя семья не могла завести питомца. Однако этому желанию было суждено сбыться, и вот уже почти 5 лет я живу бок о бок с лучшим котом на свете — Бубликом! Он является важной частью моей жизни и часто вдохновляет, поэтому мной было принято решение сделать его ключевой фигурой проекта по обучению генеративной нейросети.
Так, мой проект — это исследование возможностей генеративной нейросети в области воссоздания черт конкретного животного в разных сюжетах.

Фотографии Бублика, включённые в датасет
Процесс обучения
Путь к созданию желаемого стиля (в моём случае, запоминания нейросетью внешности Бублика) можно разделить на большие блоки:
- Формирование и подготовка набора изображений;
- Создание текстового датасета (подписей) на основе визуальной базы;
- Непосредственное обучение с использованием заранее настроенных библиотек;
- Генерация результатов нейросетью на основе усвоенных инструкций.
В рамках проекта использовались следующие программные решения:
- Stable Diffusion (обучение генеративной модели);
- Google Colab (среда выполнения);
- Hugging Face (получение токена и последующая загрузка обученной модели);
- ChatGPT (создание сложных фрагментов кода, проверка и консультации, помощь с промптом для генерации финальных изображений);
- Adobe Photoshop (минимальная постобработка результатов, коллажирование, графическая обработка скриншотов кода);
- Picsart (улучшение качества изображения для обложки).
(1). Формирование и подготовка набора изображений
Датасет состоит из 46 фотографий Бублика или фрагментов его тела. Все изображения были взяты из моей фотогалерии и отформатированы до пропорций идеального квадрата вручную для уверенности в том, что будут сохранены самые важные части (однако изменение разрешения до 512×512 было произведено именно при помощи кода).
Подготовка среды обучения, датасета, генерация метаданных для LoRA, превью датасета
(2). Создание текстового датасета (подписей) на основе визуальной базы (3). Непосредственное обучение с использованием заранее настроенных библиотек
На данном этапе используется модель BLIP, которая автоматически генерирует текстовые описания для каждого изображения. Затем к этим описаниям добавляется общий стилевой компонент. Полученные данные сохраняются в файл metadata.jsonl, благодаря чему каждому изображению соответствует собственный обучающий промпт.
Генерация подписей, загрузка BLIP-модели, собрание промптов описания в JSONL-файл
После генерации подписей модель BLIP выгружается из GPU-памяти, чтобы освободить VRAM для последующего обучения LoRA.
Команда «accelerate config default» формирует стандартную конфигурацию библиотеки Accelerate, которая отвечает за организацию процесса обучения. Авторизация в Hugging Face необходима для работы во внешней среде: она позволяет загружать модель и публиковать её в собственном репозитории, обеспечивая доступ к ней другим пользователям.
После завершения обучения я убедилась, что все веса LoRA корректно сохранились, и создала репозиторий на Hugging Face. Туда добавилась model card с описанием процесса обучения. Затем я загрузила все файлы модели (за исключением временных чекпоинтов) и получила ссылку на готовый репозиторий.
На следующем этапе я подключила VAE для корректного декодирования изображений и интегрировала обученную LoRA в пайплайн Stable Diffusion XL, подготовив систему к тестовой генерации.
Непосредственное обучение генеративной нейросети
Теперь нейросеть знает, как выглядит Бублик, и готова создавать изображения с ним в качестве главного героя!
(4). Генерация результатов нейросетью на основе усвоенных инструкций
Бублик в библиотеке и на улице в разные сезоны
Промпты охватывают несколько тематических направлений. В первую очередь были созданы сцены, связанные с известными городами мира, где Бублик изображается в различных локациях — от оживлённых улиц мегаполисов до исторических достопримечательностей. Также были разработаны сюжеты с сельскими пейзажами: полями, садами и деревенской атмосферой, что позволило протестировать генерацию более спокойных и природных сцен.
Бублик в Париже, Риме и Нью-Йорке
Бублик в сельской местности
Отдельное внимание было уделено креативным и нестандартным сценариям, включая фантастические и сюрреалистические сцены, где Бублик взаимодействует с необычными объектами и окружением. Кроме того, были созданы промпты, вдохновлённые известными произведениями искусства, что позволило объединить стилистику классической живописи с особенностями обученной модели.
Таким образом, разнообразие тем позволило комплексно оценить возможности генеративной модели: от реалистичных сцен до художественных и экспериментальных изображений.
Бублик и фантастика
Бублик на картинах известных художников
Бублик на картинах известных художников
Заключение
В результате проведённых экспериментов можно сделать вывод, что модель в целом успешно справляется с задачей генерации изображений с Бубликом.
В частности, нейросеть хорошо понимает общее строение кота: в большинстве случаев изображения получаются с корректной анатомией, соблюдением пропорций и минимальным количеством артефактов. Это свидетельствует о том, что обучение модели прошло эффективно на уровне общей формы и структуры объекта.
Однако при этом была выявлена важная проблема: мордочка Бублика в сгенерированных изображениях практически не получается узнаваемой. Несмотря на сохранение общей «кошачьей» формы, индивидуальные особенности внешности теряются, что указывает на недостаточную точность передачи уникальных признаков. Вероятно, с увеличением датасета степень неточностей была бы ниже.
Также в ходе работы было замечено, что нейросеть стабильно генерирует кота при использовании в промптах фразы «cute cat». По этой причине я использовала данную формулировку во всех запросах, что позволило добиться более предсказуемых и стабильных результатов генерации.
Таким образом, модель демонстрирует хорошие результаты в генерации изображений с корректной анатомией и композицией, однако требует доработки для более точной передачи индивидуальных черт конкретного объекта.
Удачная передача фрагментов тела и шёрстки




