Идея проекта

Цель моего исследования — изучить потенциал генеративного искусственного интеллекта для обогащения визуального языка авторского короткометражного метра.

Для этого я обучила персонализированную версию нейросети Stable Diffusion на материале собственного короткометражного метра. Основная задача заключалась в создании новых изображений, продолжающих эстетику и концепцию кадров, но выводящих их в область сюрреализма и абсурда, невозможного в реальной съёмке.

Ссылка на мой авторский короткий метр

Исходный размер 3840x2160

Датасет для обучения

Я переживала, что мне не хватит бесплатного времени процессора GPU на обучение по сюрреалистичному датасету и решила разбить обучение на 2 этапа, чтобы посмотреть после 1-го этапа, что получится.

Первоначально я выбрала 10 ключевых кадров из отснятого материала, отражающих стилистику американского ретро-интерьера 60-х годов и влияние режиссёра Уэса Андерсона. На этих кадрах персонажи и предметы размещены по центру, а дизайн выполнен в ярких цветах и минималистичном стиле.

Ссылка на датасет Shock Advertising

Затем обрезала все кадры в квадратный формат (1:1) и задала разрешение 2160×2160 пикселей, чтобы нейросети было проще работать с композицией.

Из этих изображений получился первоначальный датасет Shock Advertising для обучения нейросети Stable Diffusion.

Исходный размер 5262x3720

Кадры для обучения

Обучение модели

Описание модели с hugging face:

These are shock_output_LoRA LoRA adaption weights for stabilityai/stable-diffusion-xl-base-1.0. The weights were trained using DreamBooth. LoRA for the text encoder was enabled: False. Special VAE used for training: madebyollin/sdxl-vae-fp16-fix.

Ссылка на kaggle ноутбук, обучающий модель

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a retro dress»

Исходный размер 1385x530

Код (промты)

В качестве trigger words для промптов генерации изображений я использовала «collage of SHOCKADVERT style, …»

Например, мои промпты выглядели следующим образом: «collage of SHOCKADVERT style, a fish floating in a bowl of milk», «collage of SHOCKADVERT style, a rabbit sitting on a vinyl record», «collage of SHOCKADVERT style, a man on a TV screen».

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a tiger with a plate on its head»

Полученную модель с весами сохранила на hugging face, чтобы иметь возможность дообучить ее.

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, many cereal boxes on a white tablecloth»

Дообучение модели

После первого этапа обучения стало очевидно, что нейросеть склонна к дублированию объектов (удваивались шкафы, люди и предметы). Это потребовало коррекции подхода:

Создала 18 дополнительных кадров, сохранив квадратное соотношение сторон (1:1) и высокое разрешение 2160×2160 пикселей.

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a white rabbit sits in a blue refrigerator»

Также я заметила, что модель хорошо генерирует животных — это связано с тем, что мой датасет небольшой и без животных, а модель помнит свое предобучение.

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a white rabbit sits in a blue refrigerator»

Папка с расширенными картинками

EXT_DIR = «/kaggle/input/datasets/linlin/shock-advertising/extended»

Общая папка датасета для обучения

DATA_DIR = «shock_ext» os.makedirs (DATA_DIR, exist_ok=True)

Копирую новые изображения

for f in glob.glob (os.path.join (EXT_DIR, «»)): if os.path.isfile (f): shutil.copy (f, DATA_DIR) print («Всего файлов в датасете:», len (glob.glob (os.path.join (DATA_DIR, «»))))

Исходный размер 1287x530

Код (веса модели дообучения)

Итак, на первом шаге моя модель обучается, а на втором дообучается. Я реализовала обучение на kaggle, а дообучение на colab.

Мои генерации

Генерация изображений показала высокую степень соответствия оригинальной стилистике, сохраняя ключевые характеристики:

Цветовая палитра и освещение в духе 60-х годов
Композиционные приёмы Уэса Андерсона
Сохранение фирменного юмора и абсурдности шокирующей рекламы

prompt: «collage of SHOCKADVERT style, a white rabbit sits in a blue refrigerator, soda»

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a cat sits in a cereal box»

Дообучение позволило улучшить качество генерации:

Исчезла проблема удвоения объектов.
Повысилась реалистичность и детализация изображений.
Полученные результаты стали ближе к задуманной концепции шокирующей рекламы, сочетая сюрреализм и узнаваемый художественный стиль короткометражного метра.

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, milk cartons with eyes line up on the kitchen counter like witnesses»

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a man on a TV screen»

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, the kitchen»

Однако появились интересные вариации:

Животные стали полноценными участниками рекламных сцен
Объекты приобрели причудливые формы и размеры
Пространства стали более открытыми

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a chicken pecks cereal from a bowl on the table, a white tablecloth»

prompt: «collage of SHOCKADVERT style, a rabbit sits on a black vinyl record»

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a box of American cereal on a white tablecloth»

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a retro dresses and hairstyles»

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a retro orange dress on a hanger»

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a tiger sits with a bowl of cereal»

Критический анализ результатов

Полученные изображения успешно передают общую атмосферу и стилистику авторского короткометражного метра, однако имеют ряд характерных особенностей:

Достоинства:

Чёткая согласованность визуального стиля.
Успешная интеграция животных в рекламные сцены
Появление оригинальных художественных решений, отсутствовавших в исходном материале

Недостатки:

Нейросеть иногда игнорирует законы перспективы
Сложности с передачей мелких деталей лиц персонажей

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, an orange sofa in the room, posters»

Результат

Основной результат проекта — управляемая вариативность внутри единой концепции shock advertising: изображения различаются по художественным решениям, но сохраняют общий смысловой каркас и авторский стиль.

Данный проект демонстрирует огромный потенциал генеративного искусственного интеллекта для кинематографистов и художников. Создание кастомизированной нейросети позволяет значительно расширить выразительные средства автора, открывая путь к новым формам повествования и визуализации.

Дальнейшие направления развития включают увеличение размера датасета, применение более мощных вычислительных ресурсов и интеграцию моделей с улучшенной проработкой человеческих фигур.

Описание применения генеративной модели

В ходе реализации проекта использовались две генеративные модели. Основную роль играла модель Stable Diffusion XL, дообученная с помощью DreamBooth LoRA, что позволило достичь соответствия уникальному визуальному стилю авторского короткометражного метра.

Дополнительно применялась модель Gemini, которая помогала автоматизировать написание и тестирование Python-кода непосредственно в среде Google Colab, ускоряя разработку и повышая эффективность рабочего процесса.

Ссылка на Gemini

Ссылка на блокнот и датасет

Shock Advertising: Обучение генеративной нейросети

Папка с расширенными картинками

Общая папка датасета для обучения

Копирую новые изображения