Стиль Джованни Больдини в LoRA на Creative city

Концепция

За основу проекта взят уникальный стиль итальянского портретиста эпохи Belle Époque — Джованни Больдини. Цель эксперимента — проверить, способна ли архитектура Stable Diffusion уловить и воспроизвести чуткую манеру его живописи. Для этого был собран датасет из 37 наиболее характерных работ мастера, на которых модель обучалась распознавать его специфическую эстетику.

Больдини был главным летописцем светских дам Парижа. В его работах женщина это нечто большее чем просто застывшая натура, — это движущийся вихрь элегантности.

Его манера письма характеризуется знаменитыми стремительными, и, можно сказать, импульсивными мазками. Больдини писал так, будто кисть едва касается холста, оставляя длинные, летящие линии. Цветовая палитра Больдини обманчиво проста, но технически сложна. Он мастерски работал с глубокими темными тонами (черным, угольным, темно-синим), на контрасте с которыми кожа моделей кажется светящейся, жемчужной.

Учитывая специфику стиля, я задался вопросом а сможет ли дообученная модель воспроизвести ту самую грань между хаосом быстрых штрихов и идеальным портретным сходством, которая сделала Больдини величайшим портретистом своего времени?

Основная сложность дообучения заключалась в том, чтобы заставить Stable Diffusion отойти от стандартной гладкости генераций в сторону этой экспрессивной незаконченности. Я проверяю, сможет ли алгоритм имитировать одну из самых примечательных особенностей его стиля — динамичность.

Исходные изображения

Исходный размер 686x700

Часть исходных изображений

Обучение модели

Сборка датасета.

В датасет вошло 37 характерных портретов его позднего периода, в которых наиболее выражена его манера писать. В пул изображений вошли преимущественно женские портреты, но также есть и мужские.

На этом этапе я кадрировал все изображения до соотношения сторон 1:1 и загрузил их в свой блокнот Google Colab.

Исходный размер 3680x2284

Разметка изображений

Далее был импортирован и загружен модуль BLIP для описания изображений из датасета. Это было необходимо для того, чтобы рассказать модели, что происходит на изображениях, для её корректного обучения и дополнительно создать concept token identifier (TOK) — фразу, которая будет обозначать модели, что нужно вспомнить именно о моих изображениях, когда она эту фразу видит. Был создан json-файл с метаданными, куда записывались полученные промпты + TOK.

В моём случае TOK выглядел так: «In the Jovanni Boldini style».

Исходный размер 3680x2104

Подгрузка Blip и её настройка

Исходный размер 3680x1744

Запись разметки и TOK в Json файл

Этап обучения

На этом этапе я залогинился в HuggingFace для загрузки целевой модели и последующего её обучения. Затем я инициализировал обучение через DreamBooth и LoRA, задав все необходимые параметры.

Модель обучилась за 1000 шагов.

Исходный размер 3680x2552

Обучение модели

Исходный размер 3680x932

Исходный размер 3680x2464

Загрузка модели на Hugging Face

Результат обучения

Промпты для изображений:

«In the Jovanni Boldini style, portrait of young woman with blond straight hair, in white wedding dress, against Eiffel Tower»
«In the Jovanni Boldini style, portrait of young beatiful man with black wavy hair, in blue coat with an umbrella»

Как видно из полученных изображений, получившаяся модель замечательно подхватила основные стилистические особенности работ Джованни. Уже на этом этапе видно, что общая композиция, колористика, манера писать объекты сходится с манерой художника.

Но я решил пойти дальше и попробовать погенерировать портреты различных знаменитостей и посмотреть, как модель будет с ними справляться.

Исходный размер 1024x1024

Фрида Кало

Дженнифер Лоуренс | Леди Гага

Лана Дель Рей | Селена Гомез

Промпты:

«In the Jovanni Boldini style, portrait of Frida Calo in the garden»
«In the Jovanni Boldini style, portrait of Jennifer Lawrence, against the deep night sky with stars and moon»
«In the Jovanni Boldini style, portrait of Lady Gaga, against the lemon garden»
«In the Jovanni Boldini style, portrait of Lana Del Rey, against the sunflowers»
«In the Jovanni Boldini style, portrait of Selena Gomez holding a bouquet of roses in front of a mountain»

В общем и целом можно сказать, что модель прекрасно передаёт стиль художника: мы видим почти все отличительные черты его стиля, и, честно говоря, даже я впечатлён результатом.

Но когда речь идёт об использовании лиц знаменитостей, в глаза сразу бросаются некие несоответствия, так как модель пытается подогнать внешность знаменитостей под типаж девушек с портретов из датасета. Если чётко не прописывать детали одежды, причёску и окружение, то модель автоматически помещает объекты в антураж картин художника.

Промпты:

«In the Jovanni Boldini style, a portrait of a Soviet grandmother wearing a red headscarf, holding an apple in front of a paneled Soviet house»
«Portrait of Alla Pugacheva in the background of Chernobyl in the 1980s, In the Jovanni Boldini style»

Чтобы решить эту проблему, я решил попробовать чётко указать модели временной отрезок, чтобы антураж был более современным. Результат действительно стал лучше: например, на втором изображении мы видим свойственный 1980-м фасон костюма, а женщина на первом, как минимум, не одета в роскошное платье, хоть и проглядывается, что модель старалась клониться в сторону антуража с оригинальных картин.

Несмотря на то что в датасете были в основном женщины, модель также хорошо себя показала и в генерации мужских портретов, за исключением случаев когда просишь её сгенерировать популярного мужчину.

Питер Капальди и Леонардо ДиКаприо получились не очень удачно.

Промпты:

«In the Jovanni Boldini style, a businessman walking down the road with a briefcase, with New York and cars in the background»
«In the Jovanni Boldini style, a plump male chef holding a plate of eclairs»
«In the Jovanni Boldini style, Leonardo DiCaprio in the evening vineyard»
«In the Jovanni Boldini style, Piter Capaldi against the TARDIS»

Следующий мой эксперимент состоял в том чтобы попробовать генерировать не портреты людей, а пейзажи. На мой взгляд модель смогла отлично интегрировать его стиль в контекст изображения природы.

Исходный размер 1024x1024

Промпты:

«In the Jovanni Boldini style, a landscape of Norwegian fjords with a small house in the distance, and a cloudy sky»
«In the Jovanni Boldini style, a landscape of an underwater colorful coral reef with several fish in the frame, sunlight passing through the water»
«In the Jovanni Boldini style, a landscape of a blooming forest with sunlight passing through the tree crowns, clear weather, and several butterflies in the frame»
«In the Jovanni Boldini style, a landscape of a blooming field with flowers, in the middle of which stands a moss-covered statue of a knight, and clear, sunny weather»

Заключение

По итогам этого проекта я получил модель, которая, на мой взгляд, замечательно справляется с поставленной задачей: в результатах генерации чётко прослеживаются те черты, которые делают работы Джованни Больдини такими узнаваемыми. Несмотря на такой небольшой по меркам нейросетей датасет, модель смогла выделить из изображений, на которых обучалась, его манеру изображать антураж, одежду и в целом людей. Но у модели также есть и недочёты: модель плохо генерирует существующие лица, искажая черты лица. Также модель показала себя хорошо в генерации пейзажей, хоть есть и недочёты. В целом я могу назвать итоговую модель удачной!

Ссылка на код

Ссылка на датасет

Ссылка на итоговую модель