Исходный размер 1140x1600

Анализ данных по прогнозированию сердечной недостаточности

PROTECT STATUS: not protected

Сердечная недостаточность — это одно из самых распространённых и серьёзных заболеваний современности. По данным Всемирной организации здравоохранения, сердечно-сосудистые болезни остаются главной причиной смертности во всём мире, ежегодно унося миллионы жизней. Особенно уязвимыми оказываются пожилые люди и пациенты с хроническими заболеваниями, такими как диабет, гипертония и анемия.

Исходный размер 2048x1024

Промпт: Create an abstract image of white blood cells in a pastel pink and red palette.

Введение

Для своего проекта я выбрала данные о сердечной недостаточности — это медицинский датасет, содержащий информацию о пациентах, у которых были признаки сердечной дисфункции. Я нашла его в открытом доступе на платформе Kaggle, где он используется для анализа факторов, влияющих на выживаемость пациентов. В нём представлены такие характеристики, как возраст, пол, наличие хронических заболеваний (например, анемии, диабета), а также данные о том, наступил ли летальный исход.

Мне стало интересно поработать именно с этими данными, потому что сердечно-сосудистые заболевания остаются одной из главных причин смертности в мире. Хотелось посмотреть, какие факторы действительно оказывают влияние на исход болезни, и как это можно наглядно показать с помощью графиков.

Для визуализации я использовала несколько видов графиков:

Гистограммы — чтобы посмотреть распределение пациентов по возрасту и связь возраста с выживаемостью.

Столбчатые диаграммы — чтобы сравнить исход болезни в зависимости от пола, наличия анемии, диабета, высокого давления и курения.

Круговые диаграммы — для более наглядного сравнения долей выживших и умерших внутри отдельных групп.

Корреляционная тепловая карта — чтобы увидеть, какие числовые признаки сильнее всего связаны с выживаемостью (например, уровень натрия в крови и т. п.).

Визуальный стиль

Во время того, как я работала над данными связанными с темой сердечной недостаточности, ко мне пришла первая ассоциация — это оттенки красного. Однако, главным опасением стало то, что яркий красный, ассоциирующийся с образом крови, может выглядеть слишком агрессивно, поэтому я приняла решение использовать красный в контексте:

  1. Изображение лейкоцитов в виде абстрактных форм, напоминающих цветы или цветочные орнаменты.

  2. Активное использование пастельных оттенков красного, стремящихся к нежному розовому.

Исходный размер 2048x1024

Промпт: Abstract image of white blood cells using shades of red and pastel pink.

Для создания серии иллюстраций в едином стиле я обратилась к платформе Recraft AI. Использовалась функция «Create Style», благодаря которой я смогла добавить референсы, сформировавшие итоговый стиль.

Исходный размер 1623x1134

Использованные референсы.

post

Используя внутренние возможности Google Colab, я также применила красную цветовую палитру к графикам и диаграммам, визуализирующих исследуемые данные.

Кроме того, мною была задействована платформа Carbon Now, чтобы изменить цветовую палитру кода.

Визуализация данных

Для начала я загрузила необходимые библиотеки и сам датасет в формате csv, а также заранее определилась с цветовой палитрой для будущих графиков.

Исходный размер 1768x1012

После успешной загрузки данных я перешла к их визуализации.

Исходный размер 1936x692
Исходный размер 851x556

График: Гистограмма с разбивкой по возрасту и смертности.

Вывод: Смертность возрастает с увеличением возраста. Особенно заметно, что среди пациентов старше 60 лет доля смертей значительно выше, чем среди более молодых. Это подтверждает, что пожилой возраст является значимым фактором риска при сердечной недостаточности.

Исходный размер 1616x1172
Исходный размер 1173x559

График: Круговая диаграмма, сравнивающая мужчин и женщин по количеству смертей и выживаний.

Вывод: Мужчины составляют немного большую долю пациентов, и у них также наблюдается чуть более высокая смертность по сравнению с женщинами, однако процент не столь значительный. Это опровергает распространенный миф о том, что мужчины умирают от сердечной недостаточности чаще, чем женщины.

Исходный размер 1564x1332
Исходный размер 1135x1024

График: Тепловая карта корреляций между признаками.

Вывод: Наибольшая отрицательная корреляция с DEATH_EVENT наблюдается у ejection_fraction и serum_sodium, то есть чем выше фракция выброса и уровень натрия в крови, тем ниже вероятность смерти. Положительная корреляция — у serum_creatinine и возраста: более высокий креатинин и пожилой возраст связаны с повышенной смертностью. Это указывает на значимость этих признаков в прогнозе.

Исходный размер 1700x972
Исходный размер 1184x784

График: 4 диаграммы — анемия, диабет, высокое давление, курение.

Выводы по каждому фактору:

Анемия (anaemia) Среди пациентов с анемией заметна чуть более высокая доля смертности, чем среди тех, у кого анемии нет.

Диабет (diabetes) Разница между группами менее выражена, но у пациентов с диабетом доля смертности немного выше.

Высокое артериальное давление (high_blood_pressure) Здесь тоже наблюдается тенденция к более высокой смертности среди тех, у кого есть гипертония.

Курение (smoking) Несмотря на меньшую общую численность курящих в выборке, доля умерших среди них выше, чем среди некурящих.

Вывод

Исходный размер 1536x1024

Промпт: abstract image of anatomical heart in leukocyte ornament.

В ходе анализа были изучены данные о пациентах с сердечной недостаточностью, которые помогли понять, какие факторы могут быть связаны с повышенным риском смертельного исхода. Визуализации позволили увидеть закономерности в данных.

Кроме того, этот проект показал, как с помощью простых инструментов визуализации можно сделать важные выводы о состоянии здоровья и рисках пациентов.

Блокнот и файл с данными

Анализ данных по прогнозированию сердечной недостаточности
Проект создан 15.07.2025
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше