Анализ аниме на Creative city

Концепция

Аниме как жанр зародилось ещё в середине прошлого столетия. С тех пор индустрия много развивалась: менялся стиль и подача, создавались аниме разнообразной серьёзности и драматичности. В настоящее время вокруг японских мультиков сформировалось огромное комьюнити, в которое входят не только дети и подростки, но и множество взрослых состоятельных людей. Аниме стало целым культурным феноменом и завоевало сердца миллионов зрителей.

Исходный размер 1928x1113

В своем анализе я использовал… . Датасет содержит в себе данные… .

Исходный размер 3648x2736

Для визуализации данных я выбрал круговую диаграмму (хорошо показывает соотношение типов аниме по количеству тайтлов), гистограмму (показывает разницу в количестве аниме с разным количеством серий), столбчатую диаграмму (зависимость рейтинга от типа аниме) и тепловую карту (…).

Обработка данных

Для начала я импортировала необходимые мне библиотеки: pandas, matplotlib.pyplot и seaborn. После чего считал скачанный csv-файл датасета.

Далее приступил к подготовке данных для круговой диаграммы. Переменную tupe использовал для информации о типе аниме

Исходный размер 1920x547

Далее обработал данные для гистограммы. Использовал метод drop () для удаления строк из датафрейма df, где значение в столбце episodes равно 'Unknown'. Сначала выбрал все такие строки df[df['episodes']=='Unknown'], затем получил их индексы с помощью .index. В последней строке кода создал новый датафрейм, в котором рассматривал только те значения episodes, которые меньше 99-го процентиля (ql) и не равны 1. Для этого используется логическое И (оператор &), чтобы объединить два условия: df['episodes'] < ql и df['episodes'] ≠ 1.

Исходный размер 1920x1011

Группирую исходный датафрейм df по столбцу type. Вычислил среднее значение (mean) для столбца rating в каждой группе. Потом сбросил индексы с помощью reset_index (), чтобы получить аккуратный датафрейм, где каждая группа представлена отдельной строкой. После использовал библиотеку Seaborn для визуализации данных.

Исходный размер 1920x774

Создал новый датафрейм, который включает только три столбца из исходного датафрейма df: members, rating и episodes. Метод corr () вычисляет матрицу корреляций между столбцами указанного датафрейма. Здесь использую sns.heatmap () для создания визуализации матрицы корреляций: — square=True: Этот параметр заставляет каждую ячейку матрицы корреляций выглядеть квадратной, что делает визуализацию более симметричной и аккуратной. — linecolor='black': Параметр linecolor задает цвет линий, разделяющих ячейки тепловой карты. В данном случае мы используем черный цвет для четкого разделения. — cmap="RdBu»: Параметр cmap задает цветовую палитру для тепловой карты. Палитра RdBu представляет собой градиент от красного (низкие значения) до синего (высокие значения), что позволяет по цвету интуитивно понять уровень корреляции.

Исходный размер 1920x360

Визуализация данных

Исходный размер 1920x1080

Видно, что больше всего ТВ аниме.

Исходный размер 1920x1080

Гистограмма. Соотношение количества аниме и количества эпизодов

На гистограмме можно заметить несколько характерных пиков: 2-3, ~12, ~24.

Исходный размер 1920x1080

Столбчатая диаграмма. Рейтинг от типа аниме

Можно понять, что самый большой рейтинг у ТВ аниме.

Исходный размер 1920x1080

Матрица корреляций

Скачать блокнот с кодом и датасет