Original size 832x1248

Сюжеты и структура мирового кино

PROTECT STATUS: not protected
The project is taking part in the competition

О проекте

В проекте я исследую, как развивалось мировое кино на протяжении XX–XXI века. Меня интересовало, как менялось количество фильмов, какие киноиндустрии и жанры доминировали в разные периоды, а также какие сюжетные и эмоциональные паттерны встречаются в описаниях фильмов.

Для анализа я выбрала датасет с описаниями сюжетов фильмов из Wikipedia, я нашла его на Kaggle.com.

В проекте были использованы следующие методы: анализ и агрегация данных с помощью Pandas, визуализация данных с использованием Matplotlib, частотный анализ текстов, лексиконный sentiment-анализ, нормализация данных для сравнения долей и динамики.

Для анализа были использованы разные типы визуализаций:

линейные графики — для изучения динамики производства фильмов во времени,

столбчатые диаграммы — для сравнения киноиндустрий и жанров по количеству фильмов,

сложенные графики — для анализа изменения структуры жанров по десятилетиям,

сложенные столбчатые диаграммы — для сравнения долей позитивных, нейтральных и негативных сюжетов,

круговые диаграммы — для сравнения тональности описаний сюжетов отдельных киноиндустрий.

Такие типы графиков были выбраны для того, чтобы не только показать данные, но и объяснить выявленные тенденции и различия.

post

Для визуализации данных был разработан единый визуальный стиль. В качестве основы был выбран тёмный фон, ассоциирующийся с кинозалом, а красный цвет использовался как акцентный, отсылающий к эстетике киноафиш и фестивалей. Все параметры визуализации были прописаны в коде с помощью Matplotlib, что обеспечило консистентность графиков.

Первичный анализ

post

На этапе первичного анализа данных была изучена структура датасета. Данные содержат 34 886 фильмов и 8 признаков, включая год выпуска, страну происхождения, жанр и текстовое описание сюжета. Представлены данные о фильмах, вышедших в период с 1901 по 2017 год. Большинство колонок не содержит пропусков. Пропущенные значения присутствуют только в колонке Cast, которая не использовалась в дальнейшем анализе. При этом все сюжетные описания заполнены полностью, что делает возможным текстовый анализ. Типы данных корректны и не требуют значительной предобработки

Во время работы с датасетом я столкнулась с некоторыми особенностями и ограничениями. Данные получены из Wikipedia и, как позже оказалось, неравномерны по регионам; все сюжетные описания представлены на английском языке; часть фильмов имеет жанр unknown; анализ эмоциональной окраски проводится по тексту описаний, а не по самим фильмам.

Я постаралась учесть эти особенности при дальнейшей интерпретации результатов.

Анализ во времени. Как менялось производство фильмов

0

Линейный график отражает изменение количества выпущенных фильмов по годам с 1901 по 2017 год. Наблюдается устойчивый рост производства, особенно заметный во второй половине XX века и в начале XXI века. Отдельные периоды спада могут быть связаны с историческими и технологическими факторами, а также особенностями представления данных в источнике.

0

Агрегация данных по десятилетиям позволяет сгладить годовые колебания и наглядно показать долгосрочные тренды. Заметен выраженный спад в период 1960–1970-х годов, когда количество выпускаемых фильмов временно сокращается. Начиная с конца 1970–1980-х годов, производство вновь выходит на траекторию устойчивого роста, достигая максимальных значений в 2010-е годы.

География кино

Следующим этапом мне интересно было изучить где производят больше фильмов. Эта информация представлена в колонке Origin/Ethnicity, анализ которой показал, что в датасете представлены не только страны, но и отдельные региональные киноиндустрии. Особенно детально представлено индийское кино, где каждая языковая и культурная группа рассматривается как отдельная категория. Это отражает специфику источника данных и подчёркивает неравномерность представления мирового кино в Википедии.

0
0

Столбчатая диаграмма показывает распределение фильмов по крупнейшим киноиндустриям, представленным в датасете. Лидирующую позицию занимает американская киноиндустрия, значительно опережающая остальные по количеству фильмов. На втором месте находится британская киноиндустрия. Важно отметить высокую представленность региональных индийских индустрий — Bollywood, Tamil и Telugu, что подчёркивает масштаб и разнообразие кинопроизводства за пределами западного кино. Также в топ входят японская, гонконгская, канадская и австралийская киноиндустрии.

0

Линейный график показывает изменение объёма производства фильмов во времени для пяти крупнейших киноиндустрий. Американская киноиндустрия стабильно лидирует на протяжении всего рассматриваемого периода, демонстрируя резкий рост в первой половине XX века, спад в середине века и повторный подъём начиная с 1980-х годов. Примечательно, что развиваться эта индустрия начала на два десятилетия раньше остальных. Индийские киноиндустрии (Bollywood и Tamil) демонстрируют устойчивый рост, особенно заметный с конца XX века, что отражает расширение регионального кинопроизводства. Британская и японская киноиндустрии развиваются более умеренно, с постепенным увеличением объёмов производства и меньшими колебаниями по сравнению с американской.

Самые распространенные жанры

0

Драма и комедия являются наиболее распространёнными жанрами, значительно опережая остальные. При этом после третьего места наблюдается относительно равномерное распределение жанров, что отражает разнообразие тем и форм в кино.

0

Анализ распределения жанров по десятилетиям показывает, что структура жанров в целом остаётся стабильной: доминируют драма и комедия, за ними следуют экшн и другие жанры. Вместе с тем в 1960–1970-е годы наблюдается общее снижение количества фильмов во всех жанрах, что совпадает со спадом общего объёма кинопроизводства в этот период. Начиная с 1980-х годов, количество фильмов по всем основным жанрам снова увеличивается, отражая восстановление и рост индустрии.

Интересно было посмотреть не только на репрезентацию жанров в кино в целом, но и на их распределение в отдельных киноиндустриях. Для сравнения я выбрала американскую, индийскую и японскую киноиндустрии.

0

Из примечательного: романтический жанр в индийском кино представлен больше; ни в японской, ни в индийской киноиндустриях не снимали фильмы в жанре вестерн; Вероятно популярность жанров драмы и комедии связаны с их распространенностью именно в американском кино. В других индустриях разница не так значительна.

Анализ сюжетов

post

Первым этапом была подготовка. Для начала я посмотрела на длины описаний сюжетов.

0

На графике видно, что средняя длина сюжетных описаний постепенно увеличивается, что может свидетельствовать о росте сложности повествования или о более подробном документировании фильмов в современных источниках.

0

Чтобы посмотреть на равномерность описаний я сделала распределение по количеству слов и фильмов. Распределение имеет длинный хвост, что указывает на наличие фильмов с крайне подробными сюжетными описаниями.

Дальше интересно было посмотреть как подробно описаны сюжеты фильмов отдельных киноиндустрий. Чтобы анализ был последовательным, я сравнила те же три киноиндустрии: американскую, индийскую и японскую.

0

Разница в длинах сюжетов не так велика. Интересно, что в датасете представлено менее двух тысяч японских фильмов, однако в среднем описаны они более подробно, чем американские и индийские фильмы.

Анализ позитивности/негативности сюжетов

post

Для анализа эмоциональной окраски сюжетов использовался лексиконный sentiment-анализ (VADER). Метод основан на подсчёте позитивных и негативных слов в тексте и позволяет сравнивать тональность сюжетных описаний между киноиндустриями.

0
post

Здесь важно отметить, что анализ тональности основан на словарном методе и отражает эмоциональную окраску текстовых описаний, а не самих фильмов. Результаты зависят от стиля написания сюжетов и ограничений используемого словаря.

После изучения тональности каждого из сюжетов, я решила сравнить некоторые киноиндустрии. Для этого добавила категории

0

Анализ показал, что доля нейтральных описаний сюжетов крайне мала.

0

В японской киноиндустрии наблюдается более высокая доля негативных сюжетов. Это может быть связано с тематикой фильмов, где часто поднимаются экзистенциальные, социальные и трагические мотивы, что отражается в описаниях сюжетов.

0

Почти половина фильмов киноиндустрии Bollywood имеют позитивную эмоциональную окраску, что соответствует жанровой специфике индустрии, ориентированной на эмоционально воодушевляющие и оптимистичные истории.

Заключение

В ходе проекта был проведён анализ датасета с описаниями более 34 тысяч фильмов, выпущенных в период с 1901 по 2017 год и представляющих 24 киноиндустрии по всему миру. Использование данных из Википедии позволило рассмотреть кино как глобальное и культурно разнообразное явление, однако также наложило определённые ограничения, связанные с полнотой и качеством описаний.

Анализ динамики кинопроизводства показал долгосрочный рост количества выпускаемых фильмов, особенно заметный в конце XX и начале XXI века. При этом в период 1950–1970-х годов наблюдается выраженный спад, который может быть связан как с историческими и индустриальными факторами, так и с особенностями представленности данных в источнике.

Географический анализ подтвердил доминирующее положение американской киноиндустрии, однако также выявил значимую роль других регионов, в частности Великобритании, Индии (Bollywood, Tamil, Telugu, Malayalam), Японии и Гонконга, что подчёркивает многополярность мирового кино.

Жанровый анализ показал, что драма и комедия являются наиболее универсальными и массовыми жанрами, существенно опережая остальные. Распределение жанров по десятилетиям выявило снижение разнообразия в середине XX века и его последующее расширение, что может отражать изменения в общественных запросах и производственных возможностях киноиндустрии.

Анализ сюжетов с помощью методов автоматического анализа тональности (VADER) продемонстрировал различия в эмоциональной окраске фильмов разных киноиндустрий. В частности, сюжеты Bollywood в среднем оказались более позитивными, тогда как фильмы японской киноиндустрии чаще содержат негативную тональность. Это подчёркивает культурные различия в повествовательных традициях и тематике кино.

Описание применения генеративной модели

для генерации обложки применялся Leonardo.ai ситуативно при возникновении вопросов или проблем с кодом, а также для генерации промпта для обложки и помощи в создании некоторых текстовых выводов использовался ChatGPT

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more