Идея проекта
Целью проекта было обучить генеративную нейросеть Stable Diffusion рисовать кошки Мисы.
Миса — шотландская прямоухая кошка. Обладает круглыми жёлтыми глазами и мраморным серым окрасом.
Примеры исходных изображений

Процесс обучения
Я взяла исходный код, предоставленный в здании, и адаптировала его под свои задачи.
Первая попытка генерации оказалась неудачной: нейросеть правильно воссоздала узнаваемость Мисы, но получился сырой результат: поза и композиция не считывались, что говорило о том, что модель недоучена.
prompt: «a photo of TOK cat Misa in a bucket at the beach»
Затем я переработала исходный датасет с фотографиями Мисы и повторно обучила нейросеть. Однако мои усилия ограничивались возможностями Google Colab, который не позволял проводить обучение на больших шагах.

Результат улучшился: форма мордочки стала более стабильной, глаза и окрас легко распознаются. Однако выражение морды всё ещё казалось странным, как будто модель была недостаточно обучена из-за лимитов памяти Google Colab.


prompt: «a photo of TOK cat Misa»
Итоговые изображения
prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes a photo of TOK cat Misa, wearing a wizard hat, sitting in a magical forest, glowing particles, cinematic lighting»


prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes holding a small cup of coffee, cozy morning»
prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes with sunglasses, cool cat, summer vibe»


prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes with a laptop, programmer cat, coding»
prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes in a cyberpunk city, neon lights»


prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes playing with yarn ball, dynamic motion»
prompt: «… wearing a tiny wizard hat, magical atmosphere, glowing particles /… in a chef hat, in a kitchen, surrounded by food /… wearing a crown, royal cat, sitting on a throne»


prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes in a medieval castle»
Вывод
prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes in a Japanese garden, cherry blossoms»
Нейросеть научилась передавать некоторые черты внешности Мисы, но не смогла достичь идеального сходства с оригиналом. Она до сих пор не до конца понимает строение тела кошки, а также периодически искажает её морду.
В конечном итоге я довольна результатом, получившимся в условиях ограниченных ресурсов для обучения модели и генерации изображений. Миса получается очень забавной и фотогеничной!




