Original size 832x1248

Жизненный баланс в графиках

PROTECT STATUS: not protected
The project is taking part in the competition

Вводная часть

В этом проекте я анализирую датасет «Work-Life Balance and Longevity Dataset», найденный на сайте Kaggle.

Он содержит анонимные данные о 2,400 людях с информацией об их профессии, распорядке дня и продолжительности жизни. Эти данные включают среднее количество часов работы, отдыха, сна и физической активности в день, а также возраст на момент смерти.

Мне было интересно проанализировать именно эти данные, поскольку они позволяют исследовать фундаментальный вопрос современного общества: как баланс между работой и личной жизнью влияет на наше здоровье и долголетие. В эпоху, когда многие люди сталкиваются с проблемой переработок и недостатка сна, эти данные приобретают особую ценность для понимания оптимального распорядка дня.

Для помощи в составлении графиков я использовала нейросеть Qwen.

Типы графиков:

Гистограмма наглядно показывает, что распределение продолжительности жизни является нелинейным: одна группа людей умирает рано (40-60 лет), а другая доживает до старости (80-100 лет). Легко можжно пронаблюдать за вершинами графика. Диаграмма рассеяния с линией регрессии позволила выявить парадокс: положительная связь между сном и долголетием существует, но среди долгожителей есть и те, кто спит мало. Наблюдателю легко выявить случаи вне скоплений точек. Боксплоты по профессиям выявили ключевую разницу: менеджеры и предприниматели имеют самый большой разброс в возрасте смерти, в то время как ученые имеют высокие показатели смертности в более позднем периоде жизни. График позволяет отследить не только единичные случаи смертности, но и конкретные возрастные периоды. Группированная столбчатая диаграмма помогла четко увидеть дисбаланс: у техников и водителей время работы значительно превышает время отдыха, в отличие от артистов и фрилансеров. Легкий к чтению график, где легко наблюдается различия в величинах. Столбчатая диаграмма с планками ошибок позволяет продемонстрировать нелинейную зависимость между уровнем физической активности и долголетием. График иллюстрирует группы людей в легкой в чтении манере и наглядно демонстрирует различия между ними

Графики

post

Распределение продолжительности жизни

Основным фактором в исследовании является возраст. Данный график изображает смертность людей соответственно их возрасту.

Как мы можем видеть график выстроен не линейно и имеет две вершины. Мы можем пронаблюдать, что в датасет включены данные о смерти не связанной со старостью. Пик в период от 40 до 60 лет скорее всего отображает преждевременную смерть от болезней и несчастных случаев, в то время как дальнейший период от 60 лет скорее всего отображает смертность от недугов, напрямую связанных с возрастом.

Original size 667x441

Гистограмма

post

Влияние сна на продолжительность жизни

Здесь мы уже ближе подступаемся в главной теме анализа. Как различные жизненные факторы влияют на ее продолжительность. Начнем со сна, где имеется существенная корреляции качественного 8-ми часового сна с большей длительностью жизнь. Но так же нужно отметить, что статистически возможны случаи долголетия и среди людей с явно низким количеством часов сна, хоть они все еще остаются в меньшинстве.
Original size 544x434

Диаграмма рассеяния

post

Продолжительно жизни по профессиям

Датасет так же предлагает нам распределения групп людей по различным профессиям. Можно предположить, что высокая смертность в той или иной профессии зачастую связано с высоким уровнем стресса и загруженности или с высокими рисками для здоровья. Например менеджеры и предприниматели имеют довольно значительный разброс в продолжительности жизни, в то время как ученые фрилансеры имеют довольно кучную смертность ближе к периоду 80 лет. Так же профессией с самой низкой продолжительностью жизни является предприниматель, можно предположить, что это профессия имеет самый высокий уровень стресса.
Original size 663x434

Боксплоты

post

Баланс работы и отдыха по профессиям

Непосредственно связанный график с двумя предыдущими. Здесь мы можем изучить является ли отдых важным фактором в смертности различных профессий. Так же и на предыдущем графике предприниматель имеет самый низкий показатель, в данном случае — отдыха. Что может подтвердить гипотезу о том, что соотношение стресса к отдыху и сну напрямую влияет на продолжительность жизни.
Original size 577x435

Группированная столбчатая диаграмма

post

Влияние физической активности

Физическая активность может проявляться человеком как на месте работы, так и в рекреационных обстоятельствах. Датасет показывает, что статистически, чем выше уровень активности человека на протяжении жизни, тем дольше скорее всего он проживет. Хоть показатель очень высокой активности и имеет высочайшую продолжительность жизни, но так же в нем присутствуют высокий разброс данных, выше чем у справа стоящих категорий. Так что можно сделать предположение о том, что лучшей категорией можно считать ту, что с высоким уровнем физической активности, ведь она имеет наименьшее значение разброса.
Original size 742x474

Столбчатая диаграмма с планками ошибок

Этапы создания графиков

post

Для создания графиков я использовала библиотеки pandas, numpy, matplotlib.pyplot и seaborn. Весь текст в графиках написан шрифтом DejaVu Sans для удобного прочтения. Так же цвета выбранные для визуализации служат разным задачам в каждом из графиков.

Ключевые статистические методы

Фильтрация: df[df['occupation_type'].isin (list)] — выбор подмножества данных

Группировка: groupby () — агрегация данных по категориям

Категоризация: pd.cut () — преобразование непрерывных переменных в категориальные

Агрегация: agg (['mean', 'std', 'count']) — вычисление нескольких статистик одновременно

Сортировка: sort_values () — упорядочивание данных для лучшей визуализации

Корреляционный анализ: .corr () — вычисление взаимосвязей между переменными

Обработка категориальных данных: pd.Categorical () — задание порядка категорий

Original size 717x200

Методы статистики на основе шестого графика — Влияние физической активности на продолжительность жизни.

Изучающий и обучающий форматы визуализации

post

Изучающий формат визуализации

В изучающим формате основной целью является лишь показ всей доступной информации доступной на тему, он не несет за собой цели что-либо доказать или опровергнуть, лишь информирует. Как в примере показаны все возможные корреляции данных со всеми доступными параметрами доступными в датасете.
Original size 1684x692
post

Обучающий формат визуализации

В обучающем формате информация предоставляется наглядно и с целью показать конкретные корреляции, важные для изучения и рассмотрения. Как на примере столбчатая диаграмма позволяет визуально сравнить корреляции.
Original size 1189x590

Заключение

Проведенный анализ данных о качестве жизни выявил ключевые закономерности, имеющие практическую ценность для формирования здорового образа жизни. Исследование подтвердило, что профессия является критическим фактором здоровья. Менеджеры и предприниматели демонстрируют наибольший разброс в продолжительности жизни, что указывает на высокие риски, связанные со стрессом и переработками. При этом ученые и учителя показывают стабильно высокие результаты. Баланс времени оказался важнее абсолютных значений: сильная отрицательная корреляция между работой и отдыхом визуализирует важный выбор, стоящий перед каждым человеком. Сон, хотя и важен, не является определяющим фактором — его влияние перекрыто другими факторами. Эти выводы формируют основу для практических рекомендаций: оптимальный режим дня должен включать сбалансированное распределение работы и отдыха, регулярную умеренную физическую активность и осознанный выбор профессии с учетом ее влияния на здоровье.

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more