Обучение генеративной модели под кастомную скейт-доску на Creative city

Идея проекта

В этом проекте я исследую, насколько генеративную модель можно адаптировать под конкретный предмет — авторскую кастомную скейт-доску. Цель работы заключалась не в создании абстрактных изображений скейтборда, а в обучении модели на одном узнаваемом объекте, чтобы затем получить серию новых изображений, в которых сохраняются его форма, пропорции и графические особенности.

Проект рассматривает object-LoRA как инструмент персонализации генеративной модели. Меня интересовало, насколько хорошо модель сможет удерживать визуальную идентичность предмета при ограниченном количестве обучающих изображений.

В качестве объекта для обучения была выбрана моя кастомная скейт-доска. Этот предмет оказался удобным для object-LoRA по нескольким причинам: он имеет узнаваемую форму, характерные пропорции и собственную графику на поверхности. При этом объект достаточно простой, чтобы модель могла зафиксировать его основные признаки даже на небольшом датасете.

Для обучения был собран датасет из 16 собственных изображений одной и той же кастомной скейт-доски. Все изображения были приведены к квадратному формату 1:1 в соответствии с требованиями задания.

В датасет вошли фотографии объекта под разными углами, с разной дистанцией до предмета и при немного различающемся освещении. Часть кадров показывает доску целиком, часть более крупно, с акцентом на детали поверхности и композицию графики.

Метод обучения

В работе использовалась модель Stable Diffusion XL и метод LoRA (Low-Rank Adaptation), позволяющий дообучить генеративную модель под конкретный объект без полного переобучения всей системы. Обучение проводилось в Google Colab на GPU T4.

Для объекта был введён уникальный токен zxdeck, а базовый обучающий prompt был сформулирован как: «a photo of zxdeck custom skateboard deck». Такой подход позволил закрепить за моделью не абстрактный класс предметов, а именно конкретный объект из датасета.

Ссылка на ноутбук с кодом

Обучение выполнялось на изображениях разрешения 512×512. Всего было сделано 600 шагов обучения. Для оптимизации вычислений использовались mixed precision (fp16), gradient checkpointing и 8-bit Adam.

Генерация итоговой серии

После обучения модели была выполнена серия генераций с использованием сохранённых весов LoRA. Для генерации использовались промпты, ориентированные на предметную, каталожную и detail-shot подачу объекта.

На этом этапе стало видно, что модель достаточно хорошо удерживает узнаваемые черты доски, но при этом сильнее всего работает в близкой к исходному датасету визуальной логике.

Это связано с тем, что обучающий набор был небольшим и визуально однородным: в нём повторялись схожие условия съёмки, фон и тип композиции. Поэтому модель лучше всего воспроизводила объект в форме вариаций предметной фотографии, чем в новых сценах.

Итоговые генерации

В итоговую серию были отобраны генерации, в которых лучше всего считываются основные признаки объекта: форма доски, пропорции, характерная композиция графических элементов и общий минималистичный визуальный образ. В серии представлены несколько типов изображения: более нейтральная предметная подача, более тёмная студийная подача, detail-shot и вариации композиции.

Ссылка на итоговые генерации

Анализ результатов

В итоговой серии изображений обученная LoRA-модель смогла сохранить основные визуальные характеристики исходного объекта: вытянутую форму доски, её пропорции, характерную композицию поверхности и расположение крупных овальных элементов. Объект остаётся узнаваемым в разных генерациях, что показывает, что модель усвоила не абстрактный образ скейт-доски, а именно конкретный предмет из обучающего датасета.

Наиболее убедительно модель работает в режимах предметной и каталожной съёмки. В таких изображениях лучше всего сохраняются форма объекта, соотношение его частей и общая графическая структура.

При этом генерации показывают и ограничения малого датасета. Модель заметно тяготеет к повторению знакомой схемы съёмки: нейтральный фон, диагональное расположение объекта, предметная подача. В ряде попыток это приводило к недостаточной вариативности или к появлению дублирующихся объектов в кадре. Поэтому наиболее качественный результат был достигнут не в сложных сюжетных сценах, а в контролируемых типах изображений — product shot, catalog shot, close-up и минималистичная предметная подача.

Таким образом, проект показывает, что даже небольшой датасет из собственных изображений позволяет персонализировать генеративную модель под конкретный объект. Одновременно результаты демонстрируют, что степень разнообразия генерации напрямую зависит от объёма и визуального разнообразия исходных данных: чем шире датасет, тем свободнее модель может интерпретировать объект в новых контекстах.

Ссылка на другие генерации, которые не удались

Использование генеративного ИИ в проекте

В проекте использовалась генеративная модель Stable Diffusion XL, адаптированная методом LoRA под конкретный объект. Генеративный ИИ применялся для обучения модели на авторском датасете и последующего создания новой серии изображений.

Дополнительно ИИ использовался как вспомогательный инструмент для структурирования описания проекта, подготовки текстовой экспликации и формулирования некоторых промптов для генерации итоговой серии.

Вывод

Проект показал, что object-LoRA может быть эффективным способом персонализации генеративной модели под конкретный предмет. Даже при небольшом количестве исходных изображений модель смогла запомнить ключевые особенности кастомной скейт-доски и воспроизвести их в новой серии генераций.

Главный результат проекта заключается не в радикальной смене стиля или сюжета, а в исследовании того, как генеративная модель удерживает идентичность одного объекта. В этом смысле работа показывает как возможности, так и ограничения обучения на малом датасете. модель хорошо сохраняет предмет, но степень визуальной вариативности напрямую зависит от разнообразия обучающих данных.