Идея
Мне было интересно взять данные Netflix, потому что стриминговые сервисы сильно влияют на повседневные привычки людей. Мы часто не замечаем, как меняется наше поведение: сколько времени мы проводим за просмотром, в какие периоды смотрим больше, какие жанры выбираем и как долго удерживается внимание. Анализ пользовательских данных позволяет посмотреть на эти привычки не на уровне ощущений, а на уровне чисел и закономерностей. Мне было важно понять, какие факторы реально связаны с вовлечённостью пользователей, а какие являются скорее мифами или субъективными ощущениями.
Более того, анализ поведения пользователей помог бы мне лучше разобраться в себе и своих привычках (например, в какой период года мне больше всего хочется «утонуть» в сериалах), а также узнать больше про людей в целом, понимать, в каком обществе я живу.
Выбор датасета и метода анализа
В качестве основы для проекта был выбран датасет Netflix User Behavior Analysis 2025 с платформы Kaggle. Датасет состоит из 6 таблиц: — users.csv — 10 300 пользователей (демография, подписка) — movies.csv — 1 040 тайтлов (фильмы/сериалы) — watch_history.csv — 105 000 записей просмотров (самая большая и интересная) — recommendation_logs.csv — логи рекомендаций — search_logs.csv — что искали — reviews.csv — отзывы Эти данные подходят для анализа, так как являются многомерными и позволяют изучить поведение пользователей с разных сторон: какие подписки популярнее, на каких устройствах чаще смотрят контент, в какие периоды активность выше и какие жанры востребованы.
В качестве визуализации мной были выбраны такие графики, как:
- Круговая диаграмма. Она наглядно показывает преобладающее количество данных над другими.
- Столбчатая диаграмма. С помощью нее можно сравнить, насколько сильно показатели отличаются друг от друга.
- Точечная диаграмма. Данный вид визуализации помогает увидеть распределение данных в пространстве, например, во времени.
- Коэффициент корреляции. Такой способ помогает увидеть закономерности между двумя показателями.
1 этап. Отбор данных
Обработка данных проводилась постепенно.
Загрузка и импорт
Чтение 6 CSV-файлов и первичная проверка структуры данных.Обработка времени
Преобразование строковых дат в формат datetime для анализа динамики.Очистка данных
Заполнение пропусков (fillna) и удаление аномальных значений.Feature Engineering
Расчет метрик: completion_rate и длительность сессий.Объединение (Merge)
Слияние таблиц в единый аналитический датасет.2 этап. Визуальный стиль
Было решено создать графики в стиле, поддерживающем Netflix. Современный, минималистичный и кинематографичный стиль. Акцент на глубоком черном цвете и ярких красных элементах, создающих эффект погружения. Также имело место использование шрифтов семейства Sans-serif (Montserrat).
3 этап. Анализ данных
Анализ типов подписок показывает, что доминируют тарифы Standard (35.2%) и Premium (35.1%) — более 70% пользователей выбирают средний ценовой сегмент. Самый дорогой Premium+ — всего 10,1% → большинство предпочитает баланс цены и качества. Средний процент досмотра ~45% одинаков во всех тарифах (доверительные интервалы пересекаются) → премиум-подписка не повышает удержание на уровне сессий.
После сравнения типов устройств оказалось, что смартфоны и Smart TV являются основными платформами. Более того, мобильный трафик доминирует в дневное время. Самые длинные сессии (>5 мин) на Desktop и Smart TV (медиана 60–80 мин). На Mobile и Tablet сессии короче и чаще прерываются → мобильный просмотр больше подходит для короткого контента.
Неудивительно, но пик просмотров приходится на зимние месяцы (Январь, Февраль). Скорее всего дело в том, что на улице холодает и люди не всегда могут выходить из дома, предпочитая смотреть фильмы. Можно сделать вывод, что сезонность может быть ключевым фактором планирования релизов.
Приключения и военные лидируют по общему времени просмотра. Первый жанр можно было ожидать на данной позиции, а вот второй меня удивил. Пользователи явно предпочитают динамичный, зрелищный и эмоционально насыщенный контент. Спокойные жанры (биография, документальные) значительно отстают.
Все коэффициенты корреляции возраста и времени просмотра близки к нулю (в диапазоне от -0.01 до +0.01). Это означает, что возраст пользователя практически не влияет ни на то, насколько он досматривает контент, ни на продолжительность сессии просмотра.
Итоговые выводы
Обобщая, можно сказать, что поведение пользователей Netflix формируется в большей степени контекстом просмотра (сезонность, устройство) типом потребляемого контента, а не формальными характеристиками пользователя или уровнем подписки. Это подчёркивает важность продуктовых решений, ориентированных на сценарии использования (мобильный vs домашний просмотр), время года и жанровые предпочтения аудитории.
Источники, данные и код
Код и данные размещены в папке по ссылке.
Источники изображений: Ноутбук с надписью Netflix Неоновая надпись Netflix