Официальная иллюстрация с сайта URL: https://www.hoyolab.com/
Концепция
Genshin Impact — компьютерная гача-игра в жанре action-adventure с открытым миром и элементами RPG. «Гача» здесь говорит о фокусе на механике случайного получения каких-то игровых сущностей и их коллекционировании.
Появление нового персонажа является большим событием в сообществе. Бесчисленное количество лайков на новых анонсах, поминутные отсчеты до релизов и, конечно, «сливы» — неофициальная и часто низкокачественная съемка материалов, еще не дошедших до социальных сетей.
Может ли нейросеть достоверно сгенерировать фейковый «слив» персонажа? *
Благодаря понятной задаче были выделены четкие критерии датасета:
— визуальный стиль должен как можно больше ассоциироваться с игрой и ни с чем иным (так, например, отпадают «аниме» иллюстрации); — предпочтительны внутриигровые кадры; — изображение должно выглядеть так, как будто его получили случайно, не слишком стараясь или слишком торопясь; — для упрощения обучения модели необходимы однотипные изображения с соотношением сторон 1:1
Использованный датасет: genshin impact heads
Часть дасета «genshin-impact-heads»
Финальная выборка — 190 изображений
Процесс обучения (SDXL)
- Базовая настройка: проверка GPU, установка зависимостей, вход в HF для ускорения обращений к нему, сетап локальной директории.
- Импорт датасета genshin-impact-heads без локальной загрузки через kagglehub.
- Пост-обработка датасета под цели обучения: отборнужных материалов в кол-ве 190 файлов в одну папку, приведение изображений к единому разрешению 256×256, проверка файлов.
- Генерация сопровождающих источники промптов через BLIP, подготовка json файлов для нейросети.
- До-обучение модели c помощью LoRA через DreamBooth: 700 шагов тренировки, чекпоинт на 400, разрешение вывода изображения 512, выдача по одной тренировочной картинке за раз.
- Передача полученных весов на Hugging Face и дальнейшая работа с генерацией через библиотеку Diffusers.
Трудности BLIP с определением гендера персонажей на изображениях
Финальная конфигурация обучения модели
Генерации
Модель достаточно успешно справилась с задачей. Ей удается сымитировать нюансы игрового освещения и специфические «небрежные» ракурсы геймплейной камеры.
Промпты: «3D head model in GENSHIN style, " + «a boy with green hair», «a boy with black coat in a field», «a man with white hair looking up at the sky», «a boy with red hair looking at us»
Удачно также играет детализированность оригинальных персонажей — издали нейросети удается получить общий уровень визуального шума этих деталей. Те же детали, однако, и выдают генерацию в ближайшем рассмотрении.
Слева — персонаж Genshin Impact, кадр из датасета genshin-impact-heads; справа — генерация дообученной модели по промпту «3D head model in GENSHIN style, a boy with green hair on a rock»
Попимо освещения нейросеть также хорошо справляется с объемом волос и бликов, а также формой лица и теми «недогруженными» пейзажами заднего плана.
Промпты: «3D head model in GENSHIN style, " + «a man with red hair», «a person with red hair», «a woman with red hair», «a girl with red hair»
Использование генеративной модели в проекте
- Stable Diffusion XL — основная модель для обучения (URL: https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0)
- DreamBooth — дополнительный метод дообучения диффузий (URL: https://huggingface.co/docs/diffusers/training/dreambooth)
- LoRA (Low-Rank adaptation) — способ дообучения большой модели (URL: https://huggingface.co/docs/diffusers/training/lora)
- BLIP (Bootstrapping Language-Image Pre-training) — автоматизированная генерация описательного текста изображениям входного датасета (URL: https://huggingface.co/Salesforce/blip-image-captioning-base)
*Дисклеймер: исследование не ставит перед собой цель ввести кого-либо в заблуждение и в первую очередь проводилось для отработки приобретенных за курс навыков.




