Исходный размер 2632x3644

No time to relax:

PROTECT STATUS: not protected

Описание проекта

Work–Life Balance and Longevity

Датасет:

Work-Life Balance and Longevity Dataset (10 000 строк, синтетические данные).

Источник:

Kaggle (Quality of Life Data).

Задача:

посмотреть, как распределение времени в сутках (работа, отдых, сон, спорт) связано с возрастом смерти.

Что я хочу получить в конце:

  1. гистограмма распределения возраста смерти
  2. boxplot по профессиям
  3. scatter (сон vs возраст смерти) + тренд
  4. тепловая карта корреляций
  5. stacked bar: средние часы (работа/отдых/сон/спорт) по профессиям
  6. «цена часа работы»: как меняется ожидаемый возраст смерти при +1 часу работы
  7. кластеризация образов жизни (режимы работы/сна)
Исходный размер 1536x1024

мудборд проекта, созданный с помощью нейросети ChatGPT.

Подготовка

Исходный размер 4392x1608

Работаем в Pandas, визуализация Matplotlib.

Загрузка данных

Исходный размер 4659x1712

Что лежит в таблице Ключевые поля:

  1. gender — пол
  2. occupation_type — тип профессии
  3. avg_work_hours_per_day, avg_rest_hours_per_day, avg_sleep_hours_per_day, avg_exercise_hours_per_day — средние часы в день
  4. age_at_death — возраст смерти

Проверки и обработка

Проверяю:

  1. пропуски
  2. дубликаты
  3. «правило суток»: сумма часов должна быть около 24

Дальше сделаю две версии данных:

  1. df — исходная таблица
  2. df_clean — строки, где сумма часов близка к 24
Исходный размер 2736x1592
Исходный размер 2736x2705
Исходный размер 2736x2383
Исходный размер 2736x1220

Статистические методы

Описательная статистика, чтобы понять диапазоны и типичные значения.

Корреляция Пирсона быстро показывает линейную связь между числовыми признаками.

t-test для сравнения двух групп (по полу). Проверяет, отличается ли средний age_at_death у двух групп.

ANOVA для сравнения нескольких групп (по профессиям). Проверяет, есть ли различия в среднем age_at_death между профессиями.

Полиномиальная регрессия (2-й степени) применяется для моделирования нелинейных зависимостей (например, между продолжительностью сна или рабочими часами и возрастом смерти).

Кластеризация K-means применяется для выделения устойчивых режимов образа жизни на основе времени работы и сна

Исходный размер 1329x698
Исходный размер 1329x488
Исходный размер 1329x418
Исходный размер 1329x229

Настройка оформления графиков

Для визуализации я использую только возможности Matplotlib: фон, линии, шрифт и сетку. Все параметры оформления задаются кодом, без постобработки.

При выборе стиля я опиралась на эстетику business punk, связанную с темой корпоративной среды, регламента и контроля. Такой визуальный язык хорошо подходит к данным о работе и распределении времени.

В качестве визуальных ориентиров использовались игра The Stanley Parable и сериал «Разделение» (Severance) — образы офисной среды, где работа становится замкнутой системой.

Исходный размер 1329x1289

Визуализации

Ниже — несколько разных типов графиков. Я строю их на df_clean, чтобы сумма часов была близка к 24.

Исходный размер 1318x1030
Исходный размер 889x490
Исходный размер 1318x883
Исходный размер 1089x590
Исходный размер 1318x1541
Исходный размер 889x590
Исходный размер 1318x1566
Исходный размер 724x589
Исходный размер 1318x1431
Исходный размер 1189x589
Исходный размер 1318x1058
Исходный размер 890x490
Исходный размер 1318x1077
Исходный размер 789x590

Выводы

  1. Гистограмма показывает, что большинство значений сосредоточено в диапазоне примерно 70–90 лет, при этом присутствуют крайние случаи с очень низким и очень высоким возрастом смерти. Это подтверждает наличие выбросов, заложенных в датасет.

  2. Boxplot по профессиям показывает различия в медианах и разбросе age_at_death. Результаты ANOVA (F = 42.325, p < 0.001) подтверждают, что различия между профессиями статистически значимы и не являются случайными.

  3. Scatter с полиномиальным трендом показывает, что максимальные значения возраста смерти наблюдаются в диапазоне примерно 7–8 часов сна. При меньшем и большем количестве сна ожидаемая продолжительность жизни снижается.

  4. График «цена часа работы» показывает, что при увеличении рабочего времени эффект на возраст смерти становится отрицательным. Это означает, что после некоторого количества рабочих часов каждый дополнительный час ассоциируется с уменьшением ожидаемой продолжительности жизни.

  5. Кластеризация по времени работы и сна выделяет несколько режимов образа жизни. Эти режимы различаются по балансу между работой и восстановлением, что указывает на существование типичных паттернов.

  6. Средний возраст смерти для женщин выше, чем для мужчин (81.36 против 78.28 лет). t-test показывает статистически значимое различие (t = 12.948, p < 0.001), при этом размер эффекта по Коэну (d = 0.259) указывает на небольшой, но устойчивый эффект.

Использование нейросети в работе

Нейросеть помогала в следующих задачах:

Нейросеть использовалась для генерации и уточнения цветовой палитры, соответствующей выбранной визуальной эстетике. Палитра затем была адаптирована и применена вручную при настройке графиков в Matplotlib.

prompt:

«Подбери ограниченную цветовую палитру для инфографики в эстетике business punk, связанной с темой работы, офиса и контроля.»

Нейросеть использовалась для получения простых, интуитивных объяснений статистических методов, которые затем были переформулированы и использованы при описании анализа.

Методы:

t-test ANOVA размер эффекта d Коэна

prompts:

«Объясни простым языком, что такое t-test и зачем он используется»

«Объясни, что показывает ANOVA»

«Что означает размер эффекта d Коэна и как его интерпретировать?»

Источники

Источники изображений

  1. Авторские визуализации данных и генерации (автор: Власкова София; дата обращения: 23.12.2025).
  2. Генерация изображений https://chatgpt.com/
No time to relax:
Проект создан 14.01.2026
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше