
Описание проекта
Апрель — месяц начала учебного года в Японии. По всей стране закачивается цветение сакуры, школьники и студенты спешат на обучение в новый класс, начинается новая жизнь, в воздухе пахнет свободой и юностью.
В рамках проекта мне захотелось погрузиться в подобную атмосферу и создать изображения, которые отразят мое ощущение и видение этого милого времени.
За основу был взять стиль иллюстраций для LINE. LINE Friends — маскоты главного мессенджера в Японии, созданные рукой южнокорейского дизайнера Кан Бён Мока. В многочисленных стикерах, комиксах и иллюстрациях они проживают яркую и активную жизнь — учатся, встречаются с друзьями, веселятся.

Пример исходных изображений для обучения от художников LINE
Процеcc генерации
Для обучения модели использовались среда Kaggle, Fine-tuning Stable Diffusion XL и его методы DreamBooth и LoRA. С помощью DreamBooth в модель был вписан стиль с названием SPRINGLINEFRIENDS, а метод LoRA позволил сократить время обучения из-за обучения части модели.
Для обучения использовалось 221 изображение в формате 1:1, максимальное количество шагов тренировки — 1000 с чекпоинтом в 500 шагов. Разрешение — 1024.

Настройка обучения модели
После обучения модели был опробован первый промпт с базовыми настройками. Чтобы найти идеальные настройки модели для генерации иллюстраций в нужном стиле, в первую очередь был опробован Промпт #1 с различными значениями lora_scale.
Промпт #1: a photo collage in SPRINGLINEFRIENDS style, one white rabbit sitting on a plaid on the ground under a cherry blossom tree
Промпт #1 со значениями lora_scale от 0.7 до 1 без дополнительных настроек
В любом значении модель в целом хорошо справлялась с изображением нужной атмосферы, однако без указания цветовой палитры получались не совсем чистые цвета. Кроме того, модель со значениями lora_scale ниже 1 изображала кроликов немного в ином стиле, а параметр lora_scale, равный 1 зачастую предлагал кроликов с различными модификациями, которые делали их похожими на слипшиеся рисовые пирожки моти или мутантов.
Для исправления ситуации был скорректирован Промпт #2, а также введено значение guidance_scale, чтобы модель больше следовала указанному промпту.
Промпт #2: a photo collage in SPRINGLINEFRIENDS style, a drawing of one WHITE RABBIT sitting on a plaid on the ground under a cherry blossom tree, clear delicate pastel natural colors, light blue sky background, pink sakura trees and green ground, sharp focus, intricate details
Промпт #2 со значениеми lora_scale 1 и значениеями guidance_scale от 10 до 12
Также был опробован промпт на checkpoint 500. На нем кролик получался не до конца похожим на необходимый вариант.


Промпт #2 на checkpoint 500 с guidance_scale 10 и lora_scale 1
Наиболее удачные варианты изображений получились на максимальном шаге обучения (1000) с lora_scale 1, guidance_scale 10 и указаниями цветов и атмосферы в промпте.
Также значение num_inference_steps было поднято с 25 до 30, что позволило сделать изображения аккуратнее.


Промпт #2 c lora_scale 1, guidance_scale 10 на максимальном шаге (1000)
Несмотря на в целом очень хорошее качество генерации изображения, на изображениях часто встречались странные и пугающие артефакты — кролики без голов или головы кроликов отдельно от тела.
Кроме того, значение «light blue sky background» часто на считывалось, хотя входило в 77 токенов. Для устранения подобных проблем решено было создать негативный промпт и привлечь к его созданию Chat GPT.
В Chat GPT были загружены неудачные генерации с командой: «По промпту получаются данные изображения. Сделай негативный промпт на английском, чтобы у меня был только 1 белый кролик без других персонажей и 3D. Мне нравится цветовая гамма первого изображения»
Негативный промпт к Промту #2: «more than one bunny, multiple rabbits, non-white bunny, dark fur, crowd, duplicates, cluttered, no focal point, 3d, cgi, render, dark colors, high contrast, photo-realistic, human, dog, cat, bird, text, shadow, blurry»
С помощью данных действий были найдены идеальные настройки для данного и последующих промптов.
Финальная серия изображений
Кролик под сакурой
Промпт: a photo collage in SPRINGLINEFRIENDS style, a drawing of one WHITE RABBIT sitting on a plaid on the ground under a cherry blossom tree, clear delicate pastel natural colors, light blue sky background, pink sakura trees and green ground, sharp focus, intricate details
Негативный промпт: more than one bunny, multiple rabbits, non-white bunny, dark fur, crowd, duplicates, cluttered, no focal point, 3d, cgi, render, dark colors, high contrast, photo-realistic, human, dog, cat, bird, text, shadow, blurry
Guidance scale: 10




Дополнительно к данному промпту была использована нейросеть Recraft для поиска вариаций первого и третьего изображений.
Полученные варианты отличились более качественной графикой, но, что самое главное — сохранили цвета и стиль. Также на изображении уменьшилось количество странных артефактов, вероятно, из-за того, что Recraft обучался на большем количестве 2D-изображений.
Хотя кролики стали менее похожими на необходимый вариант.


Результаты промпта, пропущенные через вариации Recraft
Кролик среди персиков
Промпт: a photo collage in SPRINGLINEFRIENDS style, one happy bunny centered, surrounded by japanese peaches with soft leaves, smiling, playful, soft pastel background, blue sky, spring vibes, kawaii feeling
Негативный промпт: more than one bunny, multiple rabbits, non-white bunny, dark fur, crowd, duplicates, cluttered, no focal point, 3d, cgi, render, dark colors, high contrast, photo-realistic, human, dog, cat, bird, text, shadow, blurry
Guidance scale: 10




Как и в прошлый раз, дополнительно к промпту была использована нейросеть Recraft для поиска вариаций четвертого изображения.
Полученные варианты также получились более четкими, с меньшим количеством странных артефактов, но не менее красочными и милыми.


Результат промпта, пропущенный через вариации Recraft
Мишка на траве с лимонами
Промпт: a photo collage in SPRINGLINEFRIENDS style, one cute brown bear smiling, playful, lying on green grass, surrounded by bright yellow lemons with leaves, soft pastel colors, spring vibes, kawaii atmosphere
Негативный промпт: more than one bear, multiple animals, crowd, dark fur, standing pose, cluttered, no focus, 3d, cgi, render, dark colors, high contrast, photo-realistic, human, dog, cat, bird, building, text, watermark, shadow, blurry, low quality
Guidance scale: 10




Кролик и утка смотрят закат на фоне горы Фудзи
Промпт: a photo collage in SPRINGLINEFRIENDS style, one bunny and one small duck sitting together, watching Mount Fuji, warm pastel sky, soft pink and blue tones, peaceful spring vibes, kawaii atmosphere
Негативный промпт: more than two characters, crowd, dark colors, 3d, cgi, render, photo-realistic, harsh shadows, messy background, human, dog, cat, bird, building, text, watermark, cluttered, no focus, low quality, blurry
Guidance scale: 10


Кролик и медвежонок играют в снежки
Промпт: a photo collage in SPRINGLINEFRIENDS style, a drawing of one white rabbit and one brown bear playing snowballs outside in winter, a Christmas tree on the background, playful, soft pastel background, blue sky, winter vibes, kawaii feeling
Негативный промпт: more than ONE rabbit and ONE bear, photo-realistic, 3d, cgi, render, realistic shadows, dark colors, cluttered background, text, watermark, human, cat, dog, bird, building, complex lighting, crowd, messy, blurry, low quality
Guidance scale: 10


Как и для первых двух промптов, были опробован инструмент поиска вариаций через Recraft.
Исходя из полученных после обработки результатов, сложилось впечатление, что сторонняя модель работает «осознаннее», лучше понимает, как выглядят нарисованные персонажи.


Стиль изображений
Стиль иллюстраций для LINE Friend имеет ряд отличительных деталей.
Это милые мультяшные иллюстрации с персонажами из мягких округлых форм, головы которых зачастую выделяются крупностью на фоне тела, их лица минималистичны — для них используются короткие линии или точки, однако они не лишены экспрессии, которая передается через дополнительные детали в виде слез, румянца, капель пота, пара, блесток и других небольших изображений, передающих в том числе ощущение движения.
Для иллюстраций используются насыщенные яркие и пастельные оттенки, передающих теплоту и позитивность сцен. Зачастую для фона используется желтый, розовый, голубой цвета, а зеленый цвет присутствует как акцент. Фон нередко однотонный или состоит из таких же минималистичных, как и сами персонажи, изображений облаков, растений и других элементов. Персонажи и предметы почти всегда имеют темные и четкие контуры, которые отделяют их от фона и друг друга.
Сюжеты и позы персонажей отличаются динамичностью, которая подчеркивается с помощью уже перечисленных элементов, а также текстовых звуков, поз и жестов персонажей. Зачастую одна иллюстрация несет в себе какую-то четкую тему. Например, тему спорта, учебы или отдыха.
В целом, модель хорошо запомнила стиль изображений, а именно рисовку — простые четкие округлые линии. Почти все сгенерированные объекты на изображениях имели толстую контрастную обводку, как на оригинале.
Сложности возникли в основном с передачей цветов — но эта проблема была решена с помощью добавления уточнений в промпт.
Наибольшую сложность заключалась в устранении ненужных артефактов и более четком следовании промпту. С этим помогали справляться негативные промпты и многочисленные попытки генерации. Однако чем сложнее был сюжет промпта, тем сложнее было получить хороший результат.
Для сравнения стилей, я также опробовала создать изображения, похожие на оригинальные.
Промпт #1: a photo collage in SPRINGLINEFRIENDS style, one cute brown bear with face mask, lying and sleeping on a green bean bag, yellow monotone background, warm bright pastel colors, kawaii vibe
Промпт #2: a photo collage in SPRINGLINEFRIENDS style, ONLY ONE cute brown bear sits on a yellow moon in a space, dark blue monotone minimalistic background without details, kawaii vibe




Очень хорошо получилось передать самих персонажей — в них узнаются оригинальные герои LINE Friends Кони и Браун.
Особенно это заметно в изображении рта медвежат. Характерной чертой Брауна является то, что правая черточка его рта всегда короче левой.
На сгенерированных изображениях эта особенность была сохранена в полной мере.
Вывод
В целом, обучение модели прошло успешно. Удалось выработать узнаваемый стиль, хорошо передающий формы и цвета оригинальных иллюстраций.
Несмотря на в целом удачные варианты, ощущается недостаток обучения основной модели на 2D-иллюстрациях, что сказывается на качестве результатов даже после ее обучения через DreamBooth и LoRA. Эти недостатки хорошо прорабатываются через поиск вариаций в сторонних моделях, например, в Recraft.
Полученные и отобранные результаты можно использовать в различных сферах графического дизайна. Например, для создания иллюстративной графики для упаковки той или иной продукции. Для проверки, подходят ли иллюстрации для подобной работы, я сделала наброски упаковки для газировки с классическими японскими вкусами.
Наиболее удачным оказался вариант с однотонным фоном и простыми, не сюжетными деталями. Учитывая, что большинство иллюстраций в оригинальном датасете были именно такими, мне кажется, модель действительно справится с подобными задачами.
Источники
Блокнот с кодом в Kaggle Модель на HuggingFace
Для генерации негативных промптов был использован Chat GPT. Для улучшения и поиска вариаций изображений — Recraft.