Выбор данных и источник
Для данного исследования я выбрал датасет «steam200k», содержащий информацию о поведении пользователей платформы Steam. Данный набор данных представляет собой выборку из 200 000 записей о взаимодействиях пользователей с играми, включая такие действия как покупка игр и время, проведённое в них.
Данный датасет я обнаружил на платформе Kaggle, где он предоставлен в категории данных для анализа пользовательского поведения. датасет содержит следующие колонки:
— ID пользователя — Название игры — Тип взаимодействия (покупка/игра) — Количество часов (для записей типа «игра») — Временная метка последней активности
Почему эти данные представляют интерес?
Платформа Steam на сегодняшний день является крупнейшим цифровым дистрибьютором видеоигр на ПК, с аудиторией 120 миллионов активных пользователей.
Анализ поведения пользователей Steam позволяет нам заглянуть в экосистему современной игровой индустрии и понять:
- Какие игры привлекают наибольшее количество игроков.
- Как соотносятся количество покупок и реальное использование игр.
- Какие игры наиболее затягивающие (по среднему времени, проведённому в игре).
- Существует ли корреляция между популярностью игр и её способностью удерживать игрока.
Выбор типов визуализации
Для анализа данных я выбрал следующие типы визуализаций:
— Столбчатые диаграммы для отображения количественных показателей по играм. — Гистограмма для анализа распределения времени, проведённого в играх. — Круговая диаграмма для представления соотношения типов активности. — Точечная диаграмма для анализа корреляций между метриками. — Сгруппированная столбчатая диаграмма для сравнения метрик между играми.
Эти типы визуализаций наиболее эффективно представляют закономерности в данных и позволяют выявить интересные паттерны поведения пользователей.
Обработка данных
Процесс анализа данных состоял из следующих этапов:
Загрузка и подготовка данных. — Импорт Датасета с с возможностью загрузки файла пользователем через интерфейс Google Colab. — Присвоение осмысленных имён столбцам для дальнейшего анализа. — Первичный анализ структуры данных (проверка размерности, типов данных, пропущенных значений).
Анализ популярности игр. — Подсчёт количества уникальных пользователей для каждой игры. — Выделение топ-10 игр по количеству игроков. — Визуализация результатов в виде столбчатой диаграммы.
Анализ времени, проведённого в играх. — Фильтрация записей с типом взаимодействия «игра». — Ограничение выборки до 500 часов для исключения выбросов. — Построение гистограммы распределения времени.
- Анализ соотношения активности. — Подсчёт количества записей каждого типа (покупка/игра). — Визуализация в виде круговой диаграммы.
- Определение самых «затягивающих» игр. — Расчёт среднего времени игры для каждого названия. — Фильтрация игр с минимальным порогом игроков (50+) для статистической значимости. — Визуализация топ-10 игр по среднему времени.
- Анализ корреляции между популярностью и вовлечённостью. — Объединение данных о количестве игроков и среднем времени игры. — Визуализация взаимосвязи с помощью точечной диаграммы.
- Анализ конверсии из покупки в игр. — Расчёт соотношения между количеством покупок и количеством игровых сессий. — Вычисление процента конверсии для топ-10 популярных игр. — Визуализация с помощью сгруппированной столбчатой диаграммы.
Использование нейросетей
В процессе разработки проекта я использовал языковую модель DeepSeek для решения следующих задач:
Структурирование кода и оптимизация. — Модель помогла структурировать код в соответствии с лучшими практиками анализа данных. — Были оптимизированы запросы к датасету для более эффективной обработки.
Разработка цветовой схемы. — DeepSeek предложил использовать цветовую схему, вдохновлённую интерфейсом Steam. — Были подобраны цвета, отражающие фирменный стиль платформы (тёмно-синий, голубой, оранжевый).
Улучшение визуализаций. — Модель помогла с настройкой параметров визуализации для лучшей читаемости. — Были добавлены дополнительные элементы (подписи, сетка, цветовая кодировка)
Интерпретация результатов. — DeepSeek предложил интересные гипотезы о паттернах поведения пользователей на основе полученных визуализаций. — Были выявлены неочевидные зависимости между метриками.
Стилизация визуализаций
Для создания единого визуального стиля я разработал следующую концепцию:
Цветовая палитра: — Основная палитра включает цвета, вдохновлённые интерфейсом Steam: темно-синий (#1b2838), голубой (#66c0f4), тёмно-бирюзовый (#2a475e), светло-серый (#c7d5e0) и оранжевый акценты (#ff9900). — Для тепловых карт и градиентов создана специальная цветовая карта на основе этих цветов.
Элементы визуализации: — Прозрачность столбцов и маркеров (alpha=0.7-0.8) для лучшей читаемости. — Контрастная обводка элементов для выделения. — Пунктирная сетка с пониженной непрозрачностью. — Числовые метки на ключевых элементах для точной интерпретации.
Композиция: — Единый размер графиков (преимущественно 12×8 дюймов). — Выравнивание заголовков и подписей. — Отступы для улучшения читаемости. — Поворот подписей на оси Х для предотвращения наложения.
Результаты анализа
Топ-10 популярных игр на Steam по количеству игроков:
Диаграмма представляет десять наиболее популярных игр в датасете по количеству уникальных пользователей. лидерами являются такие игры как Dota 2, Counter-Strike: Global Offensive и Team Fortress 2, что согласуется с общими трендами популярности на платформе Steam. Особенно интересно, что топ-список возглавляют условно-бесплатные игры с соревновательным многопользовательским режимом.
Распределение времени, проведённого игроками в играх:
Гистограмма демонстрирует характерное распределение с «длинным хвостом», где большинство игроков проводят в играх относительно небольшое количество часов (до 100), в то время как существует небольшая доля очень активных пользователей с сотнями часов игрового времени. это классическое распределение соответствует закону Парето (принцип 80/20), где небольшое количество пользователей генерирует значительную часть общего времени, проведённого в играх.
Соотношение действий: покупка vs игра:
Круговая диаграмма показывает соотношение записей о покупке игр и фактическом игровом процессе. Интересно отметить, что количество записей об игре преобладает над количеством записей о покупке, что может свидетельствовать о высокой вовлеченности пользователей платформы — купив игру, пользователи действительно играют в неё и делают это неоднократно.
Топ-10 самых «затягивающих» игр:
На этой диаграмме представлены игры с наибольшим средним игровым временем на одного пользователя. Лидерами являются игры с открытым миром, ролевые игры и стратегии, требующие большого количества времени для освоения и прохождения. Особенно выделяются такие названия как Football Manager, Sid Meier`s civilization V и The Elder ScrollsV: Skyrim — игры, известные своей способностью удерживать внимание игроков в течение сотен часов.
Взаимосвязь между популярностью игр и средним временем игры:
Точечная диаграмма демонстрирует корреляцию между количеством игроков и средним временем, проведённым в игре. Наблюдается интересная тенденция: не всегда самые популярные игры являются самыми затягивающими. Нишевые проекты с меньшей аудиторией часто имеют более высокое среднее время игры, что говорит о высокой лояльности их аудитории.
Соотношение покупок и игр для топ-10 популярных игр:
Сгруппированная столбчатая диаграмма показывает количество записей о покупке и игре для топ-10 популярных игр, а также процент «конверсии» — соотношение между игровыми сессиями и покупками. Высокий процент конверсии указывает на то, что большинство пользователей, купивших игру, действительно начинают в неё играть. Особенно высокие показатели у условно-бесплатных игр, где барьер входа значительно ниже.
Выводы
Проведённый анализ позволил выявить несколько интересных паттернов в поведении пользователей Steam:
Доминирование условно-бесплатных игр с соревновательным элементом: — Игры с моделью free-to-play привлекают наибольшее количество пользователей. — Соревновательных элемент способствует долгосрочному вовлечению игроков.
Разделение на «казуальную» и «хардкорную» аудитории: — Большинство пользователей проводят в играх относительно небольшое количество времени. — Существует небольшая группа очень активных игроков с сотнями и тысячами часов игрового времени.
Различные ниши имеют разные метрики успеха: — Популярные мультиплеерные игры привлекают больше игроков, но среднее время игры может быть ниже. — Стратегии и ролевые игры удерживают меньшее количество игроков, но на более длительный срок.
Высокая степень вовлечённости пользователей Steam: — Большинство купленных игр действительно используются, а не остаются в библиотеке без внимания. — Многие популярные игры демонстрируют «конверсию» из покупки в активное использование.
Блокнот и Датасет (https://goo.su/aATiQ)



