Идея проекта
Сейчас в генеративных видео и ASMR-контенте часто появляется стеклянная еда — визуально привлекательная, текстурно интересная и аппетиная, но, к сожалению, несъедобная.
Видео взято из TikTok аккаунта: @ai.asmr.17.
Такие изображения вызывают лично у меня двойственное ощущение: с одной стороны, они имитируют привычные и понятные объекты (фрукты, десерты, и т.д), а с другой — они ненастоящие и скушать их не получится, а очень хочется.
Несмотря на всю визуальную привлекательность, такая еда остаётся недоступной в реальности, но сейчас генеративные модели позволяют не просто наблюдать этот тренд, а именно управлять им.
Я решила, что хочу создавать собственные изображения стИИкляшек, которые хочется мне, а не такие, которые попадаются из TikTok и других платформ.
Датасет, использованный для обучения
Первый этап — сбор датасета.
Изначально я предполагала, что большую часть изображений мне придётся извлекать из асмр-видео, но оказалось, что в открытых источниках доступно достаточное количество готовых джпег картинок стекляшек.
В итоге датасет составил около 40 изображений.
Изображения были приведены к квадратному формату (1:1).
Собранный датасет состоял из 40 изображений, найденных в открытом доступе под тегом ИИ.
Обучение
После сбора датасета были установлены необходимые библиотеки типа diffusers, accelerate, bitsandbytes и так далее.
Для автоматической генерации подписей к изображениям использовалась модель BLIP, а для обучения применялась технология LoRA.
Установка библиотек / Загрузка датасета.
Начало обучения.
Первые тестовые изображения вышли удачными, однако позже я заметила, что при генерации более сложной еды, например бургеров или суши, возникли ограничения: результат сильно зависел от детализированного промпта.
Это, как мне кажется, связано с тем, что модель воспринимала стеклянность как часть конкретных объектов из датасета, а не как универсальное свойство материала.
Поэтому я решила немного изменить подход и дообучить модель так, чтобы стеклянность была свойством любого типа еды.
«a realistic photo of glassfood on a simple background, transparent glass material, high gloss, sharp reflections, soft natural lighting, minimalistic composition, detailed textures…»
«top view of glassfood on a plain surface, transparent glass, sharp reflections, minimal shadows, сlose-up photo of glassfood, high detail, glossy surface, soft diffused light, simple background…»
Для решения этой проблемы были изменены captions, используемые при обучении модели.
Изначально подписи строились по шаблону с использованием токена, описывающего концепт целиком:
«a photo of glassfood, transparent glass food, crystal texture…»
В обновлённой версии captions были перестроены так, чтобы разделить объект и материал. Вместо подстановки токена в роль объекта использовалась формулировка:
«a photo of [object] made of glassfood, transparent, crystal texture…»
Дополнительно было увеличено количество шагов обучения (с 500 до 1200), что дало модели больше времени для усвоения нового распределения признаков и более стабильного разделения формы и материала.
Итог
Несмотря на все мои опасения, итоговая серия вышла лучше, чем я ожидала.
Модель отлично научилась передавать текстуру объекта, благодаря чему вся полученная еда получилась очень аппетитной, плотной и, конечно же, стеклянной. Это особенно заметно на изображениях с макро-съемкой.
«a red apple made of glassfood, realistic, studio lighting, sharp reflections, high detail, minimal background» / «a sliced strawberry made of glassfood, translucent, high detail, macro shot»
«a burger made of glassfood, realistic, studio lighting, sharp reflections, high detail, minimal background»
Иногда модель генерировала больше объектов, чем указывалось в промпте.
Это не выглядело плохо и наоборот выделяло изображение из общей массы ИИ стекляшек.
«banana made of glassfood, crystal clear, close-up, soft reflections» /"purple grapes made of glassfood, transparent, crystal texture, soft lighting, close-up»
«apple made of glassfood, realistic glass texture, soft light, close-up»
Особенно интересными получились генерации, в которых сочеталась «искусственность» и «естественность».
«peach slice made of glassfood, glossy, translucent, realistic lighting» / «blueberries made of glassfood, shiny, translucent, macro photography style»
По мере работы над проектом я пришла к выводу, что всю «стеклянность» важно рассматривать как отдельный материал, а не только как часть конкретных объектов из датасета.
Это позволило сместить фокус с формы на свойства — прозрачность, блики, плотность и текстуру — и, как результат, добиться более устойчивой и узнаваемой визуальной «вкусности» в генерации.
Готовая серия.
Описание применения генеративной модели
Проект был выполнен с использованием генеративной модели Stable Diffusion XL, которая была дообучена с помощью метода LoRA на моём датасете. Также применялась языковая модель ChatGPT для создания и уточнения текстовых промптов для генерации изображений, постобработки генерации для обложки проекта.




