Описание проекта
Для данного проекта был выбран датасет Disney Movies, содержащий информацию о фильмах, выпущенных компанией Disney, с 1937 по 2016 год. Датасет был найден на платформе Kaggle и включает такие параметры, как:
movie\_title:
Название фильма.release\_date:
Дата выхода фильма в прокат.genre:
Жанр фильма (например, комедия, приключения, драма).mpaa\_rating:
Рейтинг MPAAtotal\_gross:
Общая сумма кассовых сборов в долларах.inflation\_adjusted\_gross:
Кассовые сборы, скорректированные с учетом инфляции, в долларах.Анализ данных о фильмах Disney представляет собой увлекательную задачу по нескольким причинам:
Культурное значение:
Disney является одной из самых влиятельных компаний в индустрии развлечений, и её фильмы оказали огромное влияние на культуру. Анализ их кассовых сборов позволяет понять, какие типы фильмов наиболее популярны у зрителей, и как эти предпочтения менялись со временем.Бизнес-стратегия:
Изучение доходов различных жанров и рейтингов MPAA может предоставить ценную информацию для понимания бизнес-стратегии Disney, помогая им принимать более обоснованные решения о будущих проектах.Экономические факторы:
Анализ кассовых сборов с учетом инфляции позволяет увидеть реальную прибыльность фильмов и оценить влияние экономических факторов на успех кинопроката.Виды диаграмм
Для анализа датасета были выбраны следующие типы графиков:
Линейный график:
Для визуализации динамики кассовых сборов Disney по годам. Линейный график позволяет наглядно увидеть тренды и изменения в доходах компании с течением времени.Гистограмма (столбчатая диаграмма):
Для отображения распределения фильмов по жанрам. Гистограмма позволяет сравнить количество фильмов, выпущенных в каждом жанре, и выявить наиболее популярные жанры.Столбчатая диаграмма:
Для сравнения средних кассовых сборов фильмов с разными рейтингами MPAA. Это позволяет определить, какие рейтинги MPAA приносят Disney наибольшую прибыль.Круговая диаграмма:
Для визуализации доли каждого жанра в общем объеме выпущенных фильмов Disney. Круговая диаграмма позволяет наглядно увидеть, какие жанры доминируют в фильмографии компании.Выбор этих графиков обусловлен их способностью предоставить четкую и информативную визуализацию данных, позволяющую выявить ключевые тренды и закономерности в кассовых сборах фильмов Disney.
Этапы работы
Выбор цветовой палитры для проекта был тщательно продуман и основан на желании отразить суть контента Disney, при этом создавая визуально привлекательные и информативные графики.
Вместо использования стандартных или случайных наборов цветов, я решила создать уникальную палитру на Adobe Color, вдохновленную ключевыми персонажами Disney. Этот подход позволяет установить более глубокую связь между визуализацией данных и брендом Disney, делая графики более узнаваемыми и запоминающимися.
Эти цвета были выбраны не только за их связь с конкретными персонажами, но и за их способность хорошо сочетаться друг с другом, создавая гармоничную и сбалансированную палитру.
1. Загрузка данных и первичный анализ:
Первым шагом был импорт библиотеки, с которыми будет проводиться работа. Далее с помощью библиотеки pandas происходит загрузка датасета и выполнение первичного анализа.
Этот код позволяет увидеть структуру данных, типы столбцов и наличие пропущенных значений.
Были выявлены проблемы с данными:
- release_date хранится как строка (object) — следует преобразовать в datetime
- Отсутствующие значения в genre и mpaa_rating
2. Предобработка данных:
На этапе предобработки были выполнены следующие шаги.
Преобразование столбца release_date в тип datetime:
Заполнение пропущенных значений в столбцах genre и mpaa_rating:
Эти шаги необходимы для корректного анализа данных и построения графиков.
3. Стилизация графиков:
Для стилизации графиков была использована библиотека Plotly, вдохновленная визуальной стилистикой Disney. Был выбран шрифт Liberation Sans для обеспечения читаемости и единообразия. Цветовая палитра была выбрана из узнаваемых и ярких цветов, ассоциирующихся с брендом Disney:
#f288af (розовый)
#03588c (темно-синий)
#d3d91e (саталотый зеленый)
#f29f05 (оранжевый)
#f2561d (темно-оранжевый)
Код для создания и применения шаблона:
Дополнительно, были заданы фиксированные размеры графиков для улучшения их визуального восприятия.
4. Создание графиков:
После предобработки данных и стилизации графиков были созданы следующие визуализации.
Линейный график доходов по годам
В качестве декоративного элемента также были добавлены звездочки в точках линейного графика. Это помогло отобразить сказочную атмосферу киноиндустрии Disney.
Динамика общего валового дохода по годам:
Видно, что с течением времени общий валовой доход фильмов значительно вырос, особенно начиная с 1980-х и 1990-х годов. Это может отражать рост киноиндустрии, увеличение числа фильмов, рост цен на билеты и расширение аудитории.
Есть периоды с резкими скачками доходов, что может быть связано с выходом особенно успешных фильмов.
Гистограмма жанров
Распределение жанров:
- Наиболее популярными жанрами в датасете являются комедии, приключения и драмы.
- Менее представлены жанры, такие как хоррор, вестерны и документальные фильмы.
Это может говорить о предпочтениях аудитории или о том, какие фильмы чаще всего производились и собирали кассу.
Столбчатая диаграмма MPAA:
Средний доход по MPAA рейтингам:
- Фильмы с рейтингом G (для всех возрастов) имеют самый высокий средний доход.
- Рейтинги PG и PG-13 также показывают высокий средний доход, что говорит о популярности фильмов, доступных широкой аудитории.
- Фильмы с рейтингом R (ограничение по возрасту) имеют значительно меньший средний доход, возможно из-за более узкой аудитории.
Круговая диаграмма жанров
Доля жанров в датасете:
- Комедии занимают значительную часть.
- Приключения и драмы также широко представлены.
Описание применения генеративной модели
Chat GPT — обращения с целью генерации инструкций и рекомендаций по улучшению кода, а также помощь в написании вводной и заключительной части.
Adobe Color — генерация цветовой палитры и ее редактирование на основе загруженного изображения
Заключение
Основные выводы:
- Динамика кассовых сборов Disney демонстрирует тенденцию к росту с течением времени, что свидетельствует об устойчивом успехе компании в индустрии развлечений.
- Распределение фильмов по жанрам неравномерно, при этом наиболее популярными являются анимационные фильмы, приключения и комедии.
- Средние кассовые сборы фильмов с разными рейтингами MPAA существенно различаются, что может быть связано с целевой аудиторией и возрастными ограничениями.
Проект анализа датасета Disney Movies позволил получить ценные знания о мире киноиндустрии и продемонстрировать возможности визуализации данных с использованием креативного подхода. Уникальная цветовая палитра, вдохновленная персонажами Disney, сделала графики не только информативными, но и эстетически привлекательными, что способствовало лучшему восприятию и запоминанию результатов анализа.



