Пробелы в памяти на Creative city

Концепция проекта

Искусственный интеллект собирает кусочки информации, чтобы сформировать из них одно целое. Понятное, структурированное, правдивое. Но, думаю, многие из нас сталкивались с тем, когда ИИ выдаёт неправдивую информацию или картинку, не имеющую никакого смысла. Особенности технологии, хотя…

В какой-то степени наша память работает также.

Даже если мы сами пережили опыт и, соответственно, должны помнить произошедшее хорошо, бывает такое, что память искажает событие до неузнаваемости. Чувства, события, люди смешиваются во что-то общее, знакомое, но немного размытое.

Это ощущение утекающего воспоминания, пытающего собраться в цельную картину, но постоянно распадающегося, очень напоминает мне работы искусственного интеллекта, сгенерированные в самом начале тренировки моделей.

Исходный размер 800x602

Генерация Google AI. 2016 год

Плавные, переливающиеся изображения обо всём и ни о чём сразу. Множество кусочков, справленных в единое целое. Словно пытаешься вспомнить что-то определённое, но никак не можешь ухватить образ.

Именно это ощущение «Пробелы в памяти» и пытается воспроизвести.

Цель проекта: создать генеративную модель, способную воспроизводить цельные изображения, в которых плавно сочетается старая портретная фотосъемка, растительность и игра свето-тени. Использовать недостатки генеративной модели для создания загадочных, одновременно нежных, но пугающих картинок.

Задачи проекта:

Собрать разнообразный датасет винтажных фотографий с разными объектами съемки.
Обучить модель Stable Diffusion на основе собранного датасета.
Сгенерировать серию изображений, подходящую под изначальную концепцию проекта.
Проанализировать полученные результаты.

Сборка датасета

В работе с ИИ меня всегда интересовали его недостатки. Визуально интересные ошибки, которые можно получить только используя генеративные модели. Для датасета мне было очень интересно использовать изображения с маленьким разрешением — недостаток, возможный только в цифровой среде, который позже будет переработан ИИ. Получается крайне уникальный инструмент.

Исходный размер 2177x879

Семпл датасета

Датасет

Я использовала фотографии с разной тематикой. Архитектура, люди, природа. Чб, сепия, небольшое количество цветных. Мне хотелось, чтобы ии соединил разный исходный материал в одно целое, нежный, переливающийся образ. Выбирая фотографии низкого качества я надеялась «запутать» генеративную модель, чтобы не было четкой дифференциации лиц и объектов.

Для адаптации модели под собственный художественный стиль в качестве основы использовалась преобученная модель stabilityai/stable-diffusion-xl-base-1.0 совместно с вариационным автокодировщиком madebyollin/sdxl-vae-fp16-fix.

Для дообучения применялись методы DreamBooth и LoRA. Реализация выполнялась на фреймворках diffusers, transformers, accelerate и PEFT. Вычислительная среда была развернута в Google Colab с использованием бесплатного GPU. Для эффективного управления памятью применялась 16-битная точность FP16, а также средства принудительной сборки мусора и очистки кэша видеокарты с помощью функций gc.collect () и torch.cuda.empty_cache ().

Код

Для меня этот проект — это в первую очередь эксперимент. Мне интересно как ИИ будет работать с разрозненным датасетом. Так что я решила объединить фотографии в коллажи, в надежде усилить эффект растворения объектов друг в друге.

Исходный размер 1412x676

Целиком код можно посмотреть по ссылке выше.

Неудачные генерации с уклоном в растительность.

Модель, помимо ожидаемых криво сгенерированных людей, иногда выдавала изображения исключительно растительности, без внедрения других элементов. Несмотря на то, что результат выходил не тот, который я хотела, сами картинки мне понравились. Их можно использовать как текстуры для дальнейших видео проектов.

Исходный размер 1024x1024

Генерация растительности

Финальные генерации

Исходный размер 1024x1024

Моя любимая генерация в данном проекте. Жуткая, с удлиненными пропорциями и нечеткими лицами, расплывчатыми улыбками. Но одновременно нежная, покрытая шумом от солнца, пронизывающего листву, сепия укутывает всё в теплое одеяло. Что-то на грани спокойствия и паники, зритель ещё не успел испугаться, ведь камера никак не может сфокусироваться на объекте, впадает обратно в сон и чертоги разума.

Призраки

Генерации «призраков», где модель смешивает растительность и людей так, что зритель одновременно и видит силуэты людей и нет.

Исходный размер 1024x1024

Расплывающиеся портреты, напоминающие живописные портреты аристократов или парадные фотографии. Ускользающие образы.

Итог

Итоговая серия изображений представляет собой набор фотографий, сделанных при помощи самостоятельно разработанной генеративной модели.

В изображениях сохраняется единая визуальная эстетика, основанная на старых фотографиях и ощущении поиска нужного образа у себя в памяти.

Акцент сделан на слияние людей с пространством, создание одновременно некомфортного, но тёплого ощущения.

Сгенерированные изображения отличаются друг от друга процентным соотношением человека к природе, в каких-то фотографиях, окружающий мир поглощает образы, в каких-то даёт людям больше свободы, делая их центом композиции.

В ходе проекта удалось выполнить поставленную задачу. Недостатки модели использовались в плюс, создавая уникальные артефакты, которые сложно повторить вручную.

По итогу получилась серия изображений, граничащая с реальностью и воспоминаниями. Обрывки прошлого, потерявшие фокус, нежно переливающиеся друг в друга и вызывающие у зрителя как тревогу, так и чувство спокойствия.

Кусочки реальности, которые изо всех сил пытаются собраться в единое целое. Пробелы в памяти.