
О проекте
В проекте я исследую, как развивалось мировое кино на протяжении XX–XXI века. Меня интересовало, как менялось количество фильмов, какие киноиндустрии и жанры доминировали в разные периоды, а также какие сюжетные и эмоциональные паттерны встречаются в описаниях фильмов.
Для анализа я выбрала датасет с описаниями сюжетов фильмов из Wikipedia, я нашла его на Kaggle.com.
В проекте были использованы следующие методы: анализ и агрегация данных с помощью Pandas, визуализация данных с использованием Matplotlib, частотный анализ текстов, лексиконный sentiment-анализ, нормализация данных для сравнения долей и динамики.
Для анализа были использованы разные типы визуализаций:
линейные графики — для изучения динамики производства фильмов во времени,
столбчатые диаграммы — для сравнения киноиндустрий и жанров по количеству фильмов,
сложенные графики — для анализа изменения структуры жанров по десятилетиям,
сложенные столбчатые диаграммы — для сравнения долей позитивных, нейтральных и негативных сюжетов,
круговые диаграммы — для сравнения тональности описаний сюжетов отдельных киноиндустрий.
Такие типы графиков были выбраны для того, чтобы не только показать данные, но и объяснить выявленные тенденции и различия.

Для визуализации данных был разработан единый визуальный стиль. В качестве основы был выбран тёмный фон, ассоциирующийся с кинозалом, а красный цвет использовался как акцентный, отсылающий к эстетике киноафиш и фестивалей. Все параметры визуализации были прописаны в коде с помощью Matplotlib, что обеспечило консистентность графиков.
Первичный анализ

На этапе первичного анализа данных была изучена структура датасета. Данные содержат 34 886 фильмов и 8 признаков, включая год выпуска, страну происхождения, жанр и текстовое описание сюжета. Представлены данные о фильмах, вышедших в период с 1901 по 2017 год. Большинство колонок не содержит пропусков. Пропущенные значения присутствуют только в колонке Cast, которая не использовалась в дальнейшем анализе. При этом все сюжетные описания заполнены полностью, что делает возможным текстовый анализ. Типы данных корректны и не требуют значительной предобработки
Во время работы с датасетом я столкнулась с некоторыми особенностями и ограничениями. Данные получены из Wikipedia и, как позже оказалось, неравномерны по регионам; все сюжетные описания представлены на английском языке; часть фильмов имеет жанр unknown; анализ эмоциональной окраски проводится по тексту описаний, а не по самим фильмам.
Я постаралась учесть эти особенности при дальнейшей интерпретации результатов.
Анализ во времени. Как менялось производство фильмов
Линейный график отражает изменение количества выпущенных фильмов по годам с 1901 по 2017 год. Наблюдается устойчивый рост производства, особенно заметный во второй половине XX века и в начале XXI века. Отдельные периоды спада могут быть связаны с историческими и технологическими факторами, а также особенностями представления данных в источнике.
Агрегация данных по десятилетиям позволяет сгладить годовые колебания и наглядно показать долгосрочные тренды. Заметен выраженный спад в период 1960–1970-х годов, когда количество выпускаемых фильмов временно сокращается. Начиная с конца 1970–1980-х годов, производство вновь выходит на траекторию устойчивого роста, достигая максимальных значений в 2010-е годы.
География кино
Следующим этапом мне интересно было изучить где производят больше фильмов. Эта информация представлена в колонке Origin/Ethnicity, анализ которой показал, что в датасете представлены не только страны, но и отдельные региональные киноиндустрии. Особенно детально представлено индийское кино, где каждая языковая и культурная группа рассматривается как отдельная категория. Это отражает специфику источника данных и подчёркивает неравномерность представления мирового кино в Википедии.
Столбчатая диаграмма показывает распределение фильмов по крупнейшим киноиндустриям, представленным в датасете. Лидирующую позицию занимает американская киноиндустрия, значительно опережающая остальные по количеству фильмов. На втором месте находится британская киноиндустрия. Важно отметить высокую представленность региональных индийских индустрий — Bollywood, Tamil и Telugu, что подчёркивает масштаб и разнообразие кинопроизводства за пределами западного кино. Также в топ входят японская, гонконгская, канадская и австралийская киноиндустрии.
Линейный график показывает изменение объёма производства фильмов во времени для пяти крупнейших киноиндустрий. Американская киноиндустрия стабильно лидирует на протяжении всего рассматриваемого периода, демонстрируя резкий рост в первой половине XX века, спад в середине века и повторный подъём начиная с 1980-х годов. Примечательно, что развиваться эта индустрия начала на два десятилетия раньше остальных. Индийские киноиндустрии (Bollywood и Tamil) демонстрируют устойчивый рост, особенно заметный с конца XX века, что отражает расширение регионального кинопроизводства. Британская и японская киноиндустрии развиваются более умеренно, с постепенным увеличением объёмов производства и меньшими колебаниями по сравнению с американской.
Самые распространенные жанры
Драма и комедия являются наиболее распространёнными жанрами, значительно опережая остальные. При этом после третьего места наблюдается относительно равномерное распределение жанров, что отражает разнообразие тем и форм в кино.
Анализ распределения жанров по десятилетиям показывает, что структура жанров в целом остаётся стабильной: доминируют драма и комедия, за ними следуют экшн и другие жанры. Вместе с тем в 1960–1970-е годы наблюдается общее снижение количества фильмов во всех жанрах, что совпадает со спадом общего объёма кинопроизводства в этот период. Начиная с 1980-х годов, количество фильмов по всем основным жанрам снова увеличивается, отражая восстановление и рост индустрии.
Интересно было посмотреть не только на репрезентацию жанров в кино в целом, но и на их распределение в отдельных киноиндустриях. Для сравнения я выбрала американскую, индийскую и японскую киноиндустрии.
Из примечательного: романтический жанр в индийском кино представлен больше; ни в японской, ни в индийской киноиндустриях не снимали фильмы в жанре вестерн; Вероятно популярность жанров драмы и комедии связаны с их распространенностью именно в американском кино. В других индустриях разница не так значительна.
Анализ сюжетов

Первым этапом была подготовка. Для начала я посмотрела на длины описаний сюжетов.
На графике видно, что средняя длина сюжетных описаний постепенно увеличивается, что может свидетельствовать о росте сложности повествования или о более подробном документировании фильмов в современных источниках.
Чтобы посмотреть на равномерность описаний я сделала распределение по количеству слов и фильмов. Распределение имеет длинный хвост, что указывает на наличие фильмов с крайне подробными сюжетными описаниями.
Дальше интересно было посмотреть как подробно описаны сюжеты фильмов отдельных киноиндустрий. Чтобы анализ был последовательным, я сравнила те же три киноиндустрии: американскую, индийскую и японскую.
Разница в длинах сюжетов не так велика. Интересно, что в датасете представлено менее двух тысяч японских фильмов, однако в среднем описаны они более подробно, чем американские и индийские фильмы.
Анализ позитивности/негативности сюжетов

Для анализа эмоциональной окраски сюжетов использовался лексиконный sentiment-анализ (VADER). Метод основан на подсчёте позитивных и негативных слов в тексте и позволяет сравнивать тональность сюжетных описаний между киноиндустриями.

Здесь важно отметить, что анализ тональности основан на словарном методе и отражает эмоциональную окраску текстовых описаний, а не самих фильмов. Результаты зависят от стиля написания сюжетов и ограничений используемого словаря.
После изучения тональности каждого из сюжетов, я решила сравнить некоторые киноиндустрии. Для этого добавила категории
Анализ показал, что доля нейтральных описаний сюжетов крайне мала.
В японской киноиндустрии наблюдается более высокая доля негативных сюжетов. Это может быть связано с тематикой фильмов, где часто поднимаются экзистенциальные, социальные и трагические мотивы, что отражается в описаниях сюжетов.
Почти половина фильмов киноиндустрии Bollywood имеют позитивную эмоциональную окраску, что соответствует жанровой специфике индустрии, ориентированной на эмоционально воодушевляющие и оптимистичные истории.
Заключение
В ходе проекта был проведён анализ датасета с описаниями более 34 тысяч фильмов, выпущенных в период с 1901 по 2017 год и представляющих 24 киноиндустрии по всему миру. Использование данных из Википедии позволило рассмотреть кино как глобальное и культурно разнообразное явление, однако также наложило определённые ограничения, связанные с полнотой и качеством описаний.
Анализ динамики кинопроизводства показал долгосрочный рост количества выпускаемых фильмов, особенно заметный в конце XX и начале XXI века. При этом в период 1950–1970-х годов наблюдается выраженный спад, который может быть связан как с историческими и индустриальными факторами, так и с особенностями представленности данных в источнике.
Географический анализ подтвердил доминирующее положение американской киноиндустрии, однако также выявил значимую роль других регионов, в частности Великобритании, Индии (Bollywood, Tamil, Telugu, Malayalam), Японии и Гонконга, что подчёркивает многополярность мирового кино.
Жанровый анализ показал, что драма и комедия являются наиболее универсальными и массовыми жанрами, существенно опережая остальные. Распределение жанров по десятилетиям выявило снижение разнообразия в середине XX века и его последующее расширение, что может отражать изменения в общественных запросах и производственных возможностях киноиндустрии.
Анализ сюжетов с помощью методов автоматического анализа тональности (VADER) продемонстрировал различия в эмоциональной окраске фильмов разных киноиндустрий. В частности, сюжеты Bollywood в среднем оказались более позитивными, тогда как фильмы японской киноиндустрии чаще содержат негативную тональность. Это подчёркивает культурные различия в повествовательных традициях и тематике кино.
Описание применения генеративной модели
для генерации обложки применялся Leonardo.ai ситуативно при возникновении вопросов или проблем с кодом, а также для генерации промпта для обложки и помощи в создании некоторых текстовых выводов использовался ChatGPT