Исходный размер 1750x2480

Анализ данных аниме

PROTECT STATUS: not protected

Введение:

Какие данные были использованы и где были найдены.

В своём проекте я представляю анализ данных об сериалах в жанре аниме с использованием Python. Для работы я выбрала открытый датасет с платформы Kaggle, который содержит информацию о сериалах: пользовательские рейтинги с годами, жанры и года выпуска.

Почему был выбрано именно это, какую ценность оно для вас предоставляет?

Аниме привлекает меняя своим разнообразием жанров, глубокими сюжетами и уникальными персонажами. Оно предлагает яркую эстетику и отражает японскую культуру, что интересно для изучения. Кроме того, аниме создает сообщество единомышленников.

Какой вид графиков был выбран и почему?

Линейный график — средний рейтинг по годам. Гистограмма — распределение рейтингов. Столбчатая диаграмма — топ студий по количеству.

Подготовка данных

Начало работы:

import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv ('anime.csv') df.head ()

df.info ()

df = df.dropna (subset=['Rating']) df['Rating'] = pd.to_numeric (df['Rating'], errors='coerce') df.describe ()

Здесь мы импортируем две библиотеки: pandas и matplotlib.pyplot. Далее мы загружаем данные из CSV файла с именем anime.csv в объект DataFrame df. Это позволяет нам работать с данными в табличном формате. Метод head () выводит первые 5 строк DataFrame, что позволяет быстро оценить, как выглядят данные. Метод info () выводит информацию о DataFrame, включая количество строк, количество ненулевых значений в каждом столбце, типы данных и использование памяти. Затем мы удаляем все строки из DataFrame, в которых отсутствуют значения в столбце Rating. Это важно для дальнейшего анализа, чтобы избежать ошибок из-за отсутствующих данных. Мы пытаемся преобразовать значения в столбце Rating в числовой формат. Параметр errors='coerce' означает, что если преобразование не удается, то вместо этого будет присвоено значение NaN. Метод describe () предоставляет статистическую сводку по числовым столбцам DataFrame, включая такие показатели, как среднее значение, стандартное отклонение, минимальное и максимальное значения, а также квартильные значения.

Визуализация графиков

Фильтрация данных:

df = df.dropna (subset=['Rating']) df['Rating'] = pd.to_numeric (df['Rating'], errors='coerce') df.describe ()

Стилизация:

plt.rcParams['figure.figsize'] = (9, 5) plt.rcParams['axes.facecolor'] = '#F2F2F2' plt.rcParams['figure.facecolor'] = '#F2F2F2' plt.rcParams['font.family'] = 'Sans' plt.rcParams['axes.titleweight'] = 'bold' plt.rcParams['axes.edgecolor'] = «#401244»

Распределение рейтингов:

plt.figure () df['Rating'].hist ( bins=20, color = '#E560CE', edgecolor='#401244' ) plt.title ('Распределение рейтингов аниме') plt.xlabel ('Рейтинг') plt.ylabel ('Количество аниме') plt.show ()

Исходный размер 764x470

Топ-10 студий по количеству:

top_studios = df['Studio'].value_counts ().head (10)

colors = ['

E560CE', '

9b59b6'] * 5 # 10 столбцов

plt.figure () top_studios.plot (kind='bar', color=colors) plt.title ('Топ-10 студий по количеству аниме') plt.xlabel ('Студия') plt.ylabel ('Количество аниме') plt.xticks (rotation=45, ha='right') plt.show ()

Исходный размер 764x561

Доли групп рейтингов:

rating_groups = pd.cut ( df['Rating'], bins=[0, 6, 7, 8, 10], labels=['Низкие', 'Средние', 'Хорошие', 'Отличные']

)

rating_groups.value_counts ().plot ( kind='pie', autopct='%1.1f%%' )

plt.title ('Доли групп рейтингов') plt.ylabel ('') plt.show ()

Исходный размер 497x427

Средний рейтинг по годам:

df['Year_num'] = df['Year'].str[-4:]

df['Year_num'] = pd.to_numeric (df['Year_num'], errors='coerce')

avg_by_year = df.groupby ('Year_num')['Rating'].mean ()

plt.figure () avg_by_year.plot (color='#401244') plt.title ('Средний рейтинг аниме по годам') plt.xlabel ('Год') plt.ylabel ('Средний рейтинг') plt.show ()

Исходный размер 768x470

Вывод

Несмотря на резкие исторические колебания в начале 2000-х, индустрия аниме сохраняет высокий уровень качества, с текущим средним рейтингом (8.35), который выше, чем в начале периода (около 8.15), но ниже исторического максимума 2000 года. Последние 15 лет показывают относительную стабильность с небольшим положительным трендом.

Данные отражают «элитный» сегмент аниме-индустрии, где Madhouse является лидером по количеству проектов, а средний уровень качества остается стабильно высоким, превышая 8.3 балла в последние годы.

При создании проекта я обращалась искусственному интеллекту: — ChatGPT 5 | Gemini 3 | — Gemini

Анализ данных аниме
Проект создан 16.01.2026
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше