Original size 1140x1600

Анализ данных беговых тренировок (Strava)

PROTECT STATUS: not protected
The project is taking part in the competition

Датасет, выбранный для проекта, содержит информацию об активности пользователей приложения Strava — популярной платформы для отслеживания физических упражнений, особенно бега и велоспорта.

В качестве исходных данных был выбран датасет Strava Running Data, представляющий собой комплексный набор данных о беговых тренировках. Данные были получены путём экспорта из сайта kaggle и представлены в формате Excel, что позволило удобно обрабатывать их с помощью языка программирования Python и стандартных библиотек анализа данных (Pandas, NumPy).

Структура датасета включает: 700+ записей о пробежках (март 2022 — январь 2024), дату и время каждой активности, дистанцию в километрах, продолжительность тренировки и среднюю скорость и дополнительные метрики активностей.

Интерес анализа данных основан на личном интересе к бегу и какие показатели у пользователей этого приложения. Также наличие несколько взаимосвязанных переменных (дистанция, время, скорость) для комплексного анализа показалось не менее приятным критерием.

Для анализа и раскрытия различных аспектов были выбраны 4 типа визуализаций:

1. Линейный график накопленной дистанции — чтобы показать общий прогресс и рост общего километража во времени. ​Линейный график динамики дистанции — чтобы увидеть колебания длины отдельных пробежек, периоды пиков и спадов нагрузки.

2. Круговая диаграмма типов пробежек — чтобы показать, какую долю от всех тренировок занимают короткие, средние и длинные забеги и насколько сбалансирован план.

3. Точечная диаграмма «дистанция–скорость» — чтобы оценить, как меняется средняя скорость в зависимости от длины пробежки и есть ли между ними связь.

4. Гистограмма дистанций — чтобы понять, какие расстояния встречаются чаще всего и какая дистанция является типичной для пробежки.

5. Столбчатая диаграмма по дням недели — чтобы сравнить, в какие дни недели бегается больше или меньше всего и выявить привычный ритм тренировок.

Этапы работы

Первый этап включал импорт библиотек и загрузку датасета.

Проведённые операции: Загрузка 700+ записей о пробежках Проверка типов данных и наличия пропусков Анализ распределения переменных

Original size 1920x1080

Подготовка данных.

Original size 1920x1080

Создание единого визуального стиля со оранжевой палитрой:

Original size 1920x1080

Преобразование и обогащение датасета новыми переменными:

Original size 1920x1080

Визуализация данных

0

Динамика дистанции пробежек. Линейный график

График показывает, как менялась дистанция каждой пробежки во времени: видны периоды роста, спада, резкие скачки и «провалы» в активности. ​Он полезен для выявления трендов и волатильности: по нему можно заметить, когда тренировки становились регулярнее, когда начинались длинные забеги и как менялся режим в разные сезоны.

0

Типы пробежек по дистанции. Круговая диаграмма

Диаграмма показывает, какая доля всех тренировок приходится на короткие, средние и длинные дистанции (35.2%, 34,3%, 30,5%). ​Она полезна тем, что позволяет быстро оценить баланс нагрузок: видно, что тренировки распределены довольно равномерно между типами, а значит программа не перегружена только длинными или только короткими забегами.

0

Связь дистанции и средней скорости. Точечная диаграмма

Диаграмма рассеяния показывает каждую пробежку как точку с координатами «дистанция — средняя скорость», что визуализирует связь между длиной забега и скоростью. ​Она полезна для анализа корреляции: видно, что при увеличении дистанции скорость обычно немного падает, то есть более длинные пробежки выполняются медленнее, что подтверждает вывод о рациональном распределении усилий.

0

Распределение дистанций. Гистограмма

Гистограмма показывает, какие дистанции встречаются чаще всего и как в целом распределены длины забегов по диапазонам. ​Она полезна для понимания «типичной» тренировки: по ней видно, что основной массив пробежек лежит в районе 3–10 км, а длинные забеги на 20+ км встречаются редко и выполняют роль нагрузочных пиков.

0

Средняя дистанция по дням недели. Столбчатая диаграмма

Диаграмма демонстрирует различия в средней дистанции пробежек в зависимости от дня недели, что позволяет выявить поведенческие паттерны тренировок.

0

Накопленный тренировочный объём. Кумулятивная дистанция

Показывает накопленный тренировочный объём во времени и используется для оценки общего прогресса.

Описание применения генеративной модели

В процессе работы использовалась генеративная модель ChatGPT (OpenAI).

ИИ применялся для:

помощи в написании и оптимизации Python-кода, выбора подходящих типов визуализаций, объяснения статистических методов, формулирования текстов для презентации.

https://chatgpt.com/

Источник

Выгрузка данных с сайта kaggle (URL: https://www.kaggle.com/datasets/ajitjadhav1/strava-running-activity-data/data), дата обращения 22.12.2025

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more