Форма в движении на Creative city

Концепция

Танец как форма искусства связан с движением, телесностью и переживанием эмоций. В отличие от статичных изображений, он раскрывается через смену состояний, ритм и взаимодействие тела с музыкой. В танце важна не только форма движения, но и внутреннее состояние человека, которое передается через пластику и динамику.

В этом проекте я исследую, как можно передать ощущение танца через статичное изображение. Меня интересует, может ли визуальный образ зафиксировать не только движение, но и эмоциональное состояние, возникающее в процессе танца. Я рассматриваю танец как способ полного проживания эмоций, где тело становится основным инструментом выражения.

Я ставлю задачу показать танец через два визуальных подхода. Первое, это размытость изображений, в которых движение не фиксируется полностью, а остается в процессе. Второе — цвет и визуальная насыщенность, которые подчеркивают разнообразие и многогранность танца как явления.

Таким образом, проект исследует: — как можно передать движение через статичное изображение — как визуальные эффекты влияют на восприятие эмоций — может ли изображение передать состояние полного погружения в движение

Проект основан на создании серии изображений, в которых танец рассматривается как сочетание движения, эмоции и визуального ритма.

Датасет

Для проекта был собран датасет изображений на основе фотографий танцовщиц, отражающих различные состояния движения и пластики тела.

Изображения использовались как референсы и были переработаны с помощью ChatGPT для формирования текстовых описаний, на основе которых выполнялась генерация.

Все изображения были приведены к единому формату и использованы для генерации серии.

Исходный размер 4470x3340

Использованный промт: editorial fashion photography of a female dancer in motion, dynamic body movement, long exposure motion blur, flowing fabric, expressive pose, capturing emotion through movement, soft diffused lighting, vibrant colors, abstract motion trails, high detail, cinematic composition, 1:1 aspect ratio

Исходный размер 3050x1461

Серия изображений была загружена в Google Colab и использована в качестве датасета для обучения модели.

Процесс обучения

В качестве базовой модели использовалась Stable Diffusion XL. Дообучение выполнялось методом DreamBooth LoRA с использованием библиотеки diffusers и инструмента accelerate в среде Google Colab (GPU T4).

Для обучения был задан текстовый токен, описывающий стиль (TOKGLOW / NEOFUTR), который далее применялся при генерации.

Исходный размер 1773x876

Обучение запускалось через скрипт train_dreambooth_lora_sdxl.py с параметрами: — разрешение 256– 768 — batch size = 1 — gradient accumulation — mixed precision (fp16) — ограниченное число шагов (50)

В результате были получены LoRA-веса, которые подключались к базовой модели для генерации изображений.

Использованные инструменты

— Stable Diffusion XL — DreamBooth LoRA — HuggingFace diffusers — accelerate — Google Colab (GPU)

Исходный размер 1094x587

Модель обучалась около 5– 10 минут на GPU (T4).

модель Stable Diffusion XL — —instance_data_dir=/content/clean_refs — путь к датасету изображений — —output_dir=/content/tokglow_style_lora — папка для сохранения обученных весов — —instance_prompt="editorial portrait in TOKGLOW style" — текстовый токен, активирующий обученный стиль — —resolution=256 — разрешение изображений при обучении (уменьшает нагрузку) — —train_batch_size=1 — размер батча (ограничение из-за памяти GPU) — —gradient_accumulation_steps=8 — накопление градиентов для стабилизации обучения — —gradient_checkpointing — снижение потребления видеопамяти — —mixed_precision="fp16″ — ускорение обучения и снижение нагрузки на GPU — —learning_rate=1e-refs&nbsp0; — скорость обучения для LoRA — —lr_scheduler="refs&nbsp1; — фиксированная скорость обучения — —max_train_steps=refs&nbsp2; — ограничение шагов обучения (быстрое дообучение) — —checkpointing_steps=refs&nbsp3; — сохранение промежуточных весов — —seed=refs&nbsp4; — фиксирует случайность для воспроизводимости

Проблемы в процессе

— отсутствовали необходимые файлы (train_dreambooth_lora_sdxl.py) — несовместимость версий diffusers (требовалась установка из source) — конфликты библиотек (peft, diffusers) — необходимость перезапуска среды после установки зависимостей — ошибки путей к датасету (не находилась папка /content/clean_refs) — ограниченные ресурсы GPU (память, время выполнения)

Исходный размер 1055x553

Процесс исправления ошибок

Результат

Исходный размер 2088x1024

Исходный размер 1024x1024

editorial portrait in TOKGLOW style, female figure sweeping long translucent scarf, exaggerated motion trails, soft diffused lighting, pastel cyan and lavender tones, dreamy atmosphere, fluid fabric

Исходный размер 3152x1024

Исходный размер 1024x1024

editorial fashion portrait in TOKGLOW style, dynamic dancing woman in flowing red dress, fabric swirling dramatically in motion, motion blur trails, ethereal beauty, glowing skin, soft dreamy lighting

В полученной серии можно наблюдать, как нейросеть интерпретирует движение и пластику танца.

Сохраняются: — ощущение движения — размытость формы

При этом происходит усиление эмоциональной составляющей: — движение становится более текучим — форма растворяется в цвете и свете

Таким образом формируется визуальный язык, в котором танец передаётся не через точную фиксацию тела, а через ощущение движения, ритма и состояния.

Исходный размер 2088x1024

Исходный размер 2046x1001

Пример генерации изображений

Исходный размер 3152x1024

Выводы

Проект показывает, что генеративная модель может не только воспроизводить визуальный стиль, но и переносить его на другую тему.

В ходе работы удалось передать ключевые характеристики танца: движение, ритм и эмоциональное состояние.

При этом модель усиливает выразительность за счёт размытости, света и цвета, превращая движение в визуальное ощущение.

Датасет изображений: https://www.kaggle.com/datasets/biutnnm/dance-motion-dataset

Код в Google Collab: https://disk.yandex.ru/d/s0zGWYIu6668eQ

В проекте использовалась генеративная модель Stable Diffusion XL, дообученная методом DreamBooth LoRA. Модель применялась для обучения на собранном датасете и генерации итоговой серии изображений.

Дополнительно генеративные инструменты использовались для разработки концепции проекта и формулирования текстового описания.