
Датасет, выбранный для проекта, содержит информацию об активности пользователей приложения Strava — популярной платформы для отслеживания физических упражнений, особенно бега и велоспорта.
В качестве исходных данных был выбран датасет Strava Running Data, представляющий собой комплексный набор данных о беговых тренировках. Данные были получены путём экспорта из сайта kaggle и представлены в формате Excel, что позволило удобно обрабатывать их с помощью языка программирования Python и стандартных библиотек анализа данных (Pandas, NumPy).
Структура датасета включает: 700+ записей о пробежках (март 2022 — январь 2024), дату и время каждой активности, дистанцию в километрах, продолжительность тренировки и среднюю скорость и дополнительные метрики активностей.
Интерес анализа данных основан на личном интересе к бегу и какие показатели у пользователей этого приложения. Также наличие несколько взаимосвязанных переменных (дистанция, время, скорость) для комплексного анализа показалось не менее приятным критерием.
Для анализа и раскрытия различных аспектов были выбраны 4 типа визуализаций:
1. Линейный график накопленной дистанции — чтобы показать общий прогресс и рост общего километража во времени. Линейный график динамики дистанции — чтобы увидеть колебания длины отдельных пробежек, периоды пиков и спадов нагрузки.
2. Круговая диаграмма типов пробежек — чтобы показать, какую долю от всех тренировок занимают короткие, средние и длинные забеги и насколько сбалансирован план.
3. Точечная диаграмма «дистанция–скорость» — чтобы оценить, как меняется средняя скорость в зависимости от длины пробежки и есть ли между ними связь.
4. Гистограмма дистанций — чтобы понять, какие расстояния встречаются чаще всего и какая дистанция является типичной для пробежки.
5. Столбчатая диаграмма по дням недели — чтобы сравнить, в какие дни недели бегается больше или меньше всего и выявить привычный ритм тренировок.
Этапы работы
Первый этап включал импорт библиотек и загрузку датасета.
Проведённые операции: Загрузка 700+ записей о пробежках Проверка типов данных и наличия пропусков Анализ распределения переменных
Подготовка данных.
Создание единого визуального стиля со оранжевой палитрой:
Преобразование и обогащение датасета новыми переменными:
Визуализация данных
Динамика дистанции пробежек. Линейный график
График показывает, как менялась дистанция каждой пробежки во времени: видны периоды роста, спада, резкие скачки и «провалы» в активности. Он полезен для выявления трендов и волатильности: по нему можно заметить, когда тренировки становились регулярнее, когда начинались длинные забеги и как менялся режим в разные сезоны.
Типы пробежек по дистанции. Круговая диаграмма
Диаграмма показывает, какая доля всех тренировок приходится на короткие, средние и длинные дистанции (35.2%, 34,3%, 30,5%). Она полезна тем, что позволяет быстро оценить баланс нагрузок: видно, что тренировки распределены довольно равномерно между типами, а значит программа не перегружена только длинными или только короткими забегами.
Связь дистанции и средней скорости. Точечная диаграмма
Диаграмма рассеяния показывает каждую пробежку как точку с координатами «дистанция — средняя скорость», что визуализирует связь между длиной забега и скоростью. Она полезна для анализа корреляции: видно, что при увеличении дистанции скорость обычно немного падает, то есть более длинные пробежки выполняются медленнее, что подтверждает вывод о рациональном распределении усилий.
Распределение дистанций. Гистограмма
Гистограмма показывает, какие дистанции встречаются чаще всего и как в целом распределены длины забегов по диапазонам. Она полезна для понимания «типичной» тренировки: по ней видно, что основной массив пробежек лежит в районе 3–10 км, а длинные забеги на 20+ км встречаются редко и выполняют роль нагрузочных пиков.
Средняя дистанция по дням недели. Столбчатая диаграмма
Диаграмма демонстрирует различия в средней дистанции пробежек в зависимости от дня недели, что позволяет выявить поведенческие паттерны тренировок.
Накопленный тренировочный объём. Кумулятивная дистанция
Показывает накопленный тренировочный объём во времени и используется для оценки общего прогресса.
Описание применения генеративной модели
В процессе работы использовалась генеративная модель ChatGPT (OpenAI).
ИИ применялся для:
помощи в написании и оптимизации Python-кода, выбора подходящих типов визуализаций, объяснения статистических методов, формулирования текстов для презентации.
Источник
Выгрузка данных с сайта kaggle (URL: https://www.kaggle.com/datasets/ajitjadhav1/strava-running-activity-data/data), дата обращения 22.12.2025