Исходный размер 751x1013

Shock Advertising: Обучение генеративной нейросети

Проект принимает участие в конкурсе

Идея проекта

Цель моего исследования — изучить потенциал генеративного искусственного интеллекта для обогащения визуального языка авторского короткометражного метра.

Для этого я обучила персонализированную версию нейросети Stable Diffusion на материале собственного короткометражного метра. Основная задача заключалась в создании новых изображений, продолжающих эстетику и концепцию кадров, но выводящих их в область сюрреализма и абсурда, невозможного в реальной съёмке.

Исходный размер 3840x2160

Датасет для обучения

Я переживала, что мне не хватит бесплатного времени процессора GPU на обучение по сюрреалистичному датасету и решила разбить обучение на 2 этапа, чтобы посмотреть после 1-го этапа, что получится.

Первоначально я выбрала 10 ключевых кадров из отснятого материала, отражающих стилистику американского ретро-интерьера 60-х годов и влияние режиссёра Уэса Андерсона. На этих кадрах персонажи и предметы размещены по центру, а дизайн выполнен в ярких цветах и минималистичном стиле.

Затем обрезала все кадры в квадратный формат (1:1) и задала разрешение 2160×2160 пикселей, чтобы нейросети было проще работать с композицией.

Из этих изображений получился первоначальный датасет Shock Advertising для обучения нейросети Stable Diffusion.

Исходный размер 5262x3720

Кадры для обучения

Обучение модели

Описание модели с hugging face:

These are shock_output_LoRA LoRA adaption weights for stabilityai/stable-diffusion-xl-base-1.0. The weights were trained using DreamBooth. LoRA for the text encoder was enabled: False. Special VAE used for training: madebyollin/sdxl-vae-fp16-fix.

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a retro dress»

Исходный размер 1385x530

Код (промты)

В качестве trigger words для промптов генерации изображений я использовала «collage of SHOCKADVERT style, …»

Например, мои промпты выглядели следующим образом: «collage of SHOCKADVERT style, a fish floating in a bowl of milk», «collage of SHOCKADVERT style, a rabbit sitting on a vinyl record», «collage of SHOCKADVERT style, a man on a TV screen».

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a tiger with a plate on its head»

Полученную модель с весами сохранила на hugging face, чтобы иметь возможность дообучить ее.

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, many cereal boxes on a white tablecloth»

Дообучение модели

После первого этапа обучения стало очевидно, что нейросеть склонна к дублированию объектов (удваивались шкафы, люди и предметы). Это потребовало коррекции подхода:

Создала 18 дополнительных кадров, сохранив квадратное соотношение сторон (1:1) и высокое разрешение 2160×2160 пикселей.

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a white rabbit sits in a blue refrigerator»

Также я заметила, что модель хорошо генерирует животных — это связано с тем, что мой датасет небольшой и без животных, а модель помнит свое предобучение.

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a white rabbit sits in a blue refrigerator»

Папка с расширенными картинками

EXT_DIR = «/kaggle/input/datasets/linlin/shock-advertising/extended»

Общая папка датасета для обучения

DATA_DIR = «shock_ext» os.makedirs (DATA_DIR, exist_ok=True)

Копирую новые изображения

for f in glob.glob (os.path.join (EXT_DIR, «»)): if os.path.isfile (f): shutil.copy (f, DATA_DIR) print («Всего файлов в датасете:», len (glob.glob (os.path.join (DATA_DIR, «»))))

Исходный размер 1287x530

Код (веса модели дообучения)

Итак, на первом шаге моя модель обучается, а на втором дообучается. Я реализовала обучение на kaggle, а дообучение на colab.

Мои генерации

Генерация изображений показала высокую степень соответствия оригинальной стилистике, сохраняя ключевые характеристики:

  1. Цветовая палитра и освещение в духе 60-х годов
  2. Композиционные приёмы Уэса Андерсона
  3. Сохранение фирменного юмора и абсурдности шокирующей рекламы

prompt: «collage of SHOCKADVERT style, a white rabbit sits in a blue refrigerator, soda»

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a cat sits in a cereal box»

Дообучение позволило улучшить качество генерации:

  1. Исчезла проблема удвоения объектов.
  2. Повысилась реалистичность и детализация изображений.
  3. Полученные результаты стали ближе к задуманной концепции шокирующей рекламы, сочетая сюрреализм и узнаваемый художественный стиль короткометражного метра.
Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, milk cartons with eyes line up on the kitchen counter like witnesses»

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a man on a TV screen»

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, the kitchen»

Однако появились интересные вариации:

  1. Животные стали полноценными участниками рекламных сцен
  2. Объекты приобрели причудливые формы и размеры
  3. Пространства стали более открытыми
Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a chicken pecks cereal from a bowl on the table, a white tablecloth»

prompt: «collage of SHOCKADVERT style, a rabbit sits on a black vinyl record»

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a box of American cereal on a white tablecloth»

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a retro dresses and hairstyles»

prompt: «collage of SHOCKADVERT style, a retro dresses and hairstyles»

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a retro orange dress on a hanger»

Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, a tiger sits with a bowl of cereal»

Критический анализ результатов

Полученные изображения успешно передают общую атмосферу и стилистику авторского короткометражного метра, однако имеют ряд характерных особенностей:

Достоинства:

  1. Чёткая согласованность визуального стиля.
  2. Успешная интеграция животных в рекламные сцены
  3. Появление оригинальных художественных решений, отсутствовавших в исходном материале

Недостатки:

  1. Нейросеть иногда игнорирует законы перспективы
  2. Сложности с передачей мелких деталей лиц персонажей
Исходный размер 1024x1024

prompt: «collage of SHOCKADVERT style, an orange sofa in the room, posters»

Результат

Основной результат проекта — управляемая вариативность внутри единой концепции shock advertising: изображения различаются по художественным решениям, но сохраняют общий смысловой каркас и авторский стиль.

Данный проект демонстрирует огромный потенциал генеративного искусственного интеллекта для кинематографистов и художников. Создание кастомизированной нейросети позволяет значительно расширить выразительные средства автора, открывая путь к новым формам повествования и визуализации.

Дальнейшие направления развития включают увеличение размера датасета, применение более мощных вычислительных ресурсов и интеграцию моделей с улучшенной проработкой человеческих фигур.

Описание применения генеративной модели

В ходе реализации проекта использовались две генеративные модели. Основную роль играла модель Stable Diffusion XL, дообученная с помощью DreamBooth LoRA, что позволило достичь соответствия уникальному визуальному стилю авторского короткометражного метра.

Дополнительно применялась модель Gemini, которая помогала автоматизировать написание и тестирование Python-кода непосредственно в среде Google Colab, ускоряя разработку и повышая эффективность рабочего процесса.

Shock Advertising: Обучение генеративной нейросети
Проект создан 24.03.2026
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше