Исходный размер 1140x1461

Лаки. Обучение нейросети

Проект принимает участие в конкурсе

Идея проекта

Я решил обучить нейросеть Stable Diffusion генерировать изображения моей собаки по кличке Лаки. Это дворняжка, но она имеет выраженные черты породы Лабрадор-ретривер. Цель проекта — создать персонализированную LoRA-модель, которая сможет помещать Лаки в любые ситуации и стили, сохраняя её уникальные черты.

Примеры исходных изображений

У меня было 22 фотографии Лаки, сделанные в разное время и в разных условиях. Я обрезал их в соотношении 1:1 и отобрал по разнообразию ракурсов.

Процесс обучения

Для проекта я использовал показанный в лекции блокнот, который использовал метод LoRA (Low-Rank Adaptation), который позволяет дообучать модель, добавляя небольшое количество новых параметров, сохраняя при этом высокое качество генерации.

В процессе генерации я столкнулся с проблемой зелёного оттенка на сгенерированных изображениях.

Исходный размер 862x430
0

Причина оказалась в параметре lora_scale. В стандартной настройке я использовал значение 1, которое оказалось слишком высоким для моей модели. Это приводило к тому, что LoRA-веса слишком сильно влияли на итоговое изображение, искажая цветовую гамму.

Исходный размер 742x284

После нескольких экспериментов я обнаружил, что уменьшение параметра до 0.5 полностью решает проблему. Цвета стали естественными, а уникальные черты Лаки сохранились.

Итоговые изображения

1 prompt «a photo of LUKY dog in a park» 2 prompt «photo of лаки dog in a warm bubble bath»

Исходный размер 1024x1024

prompt «a photo of LUKY dog with a colorful butterfly on nose»

1 prompt «a photo of LUKY dog sitting in a cozy library» 2 prompt «a photo of LUKY dog on a cozy sofa»

Я так же попробовал сгенерировать Лаки в разном окружении.

Исходный размер 1024x1024

prompt «a photo of LUKY dog running with a colorful kite»

1 prompt «a photo of LUKY dog in the mountains» 2 prompt «a photo of LUKY dog by the fireplace»

Коментарии к результатам

Модель успешно воспроизводит общую форму морды Лаки — характерное соотношение ширины к высоте, положение ушей.

Таким образом, нейросеть научилась достаточно точно генерировать изображение Лаки. В 70% генераций форма передана корректно. Не всегда точно передаются пропорции тела, модель вытягивает Лаки до реальных размеров лабрадора. Для улучшения потребуется больше примеров с крупным планом. Как видно из сравнения, модель выучила ключевые черты: форму морды, расположение глаз, характерные цветовые пятна. Основные расхождения — в пропорциях и текстуре шерсти.

Лаки. Обучение нейросети
Проект создан 23.03.2026
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше