Исходный размер 1240x1750

Анализ и визуализация данных по депрессии у студентов

ВВЕДЕНИЕ

Данные для этого задания были взяты с сайта kaggle.com в разделе Datasets. Среди исследований с параметром Usability 10.0 мной было выбрано исследование под названием Student Depression Dataset (данные о студенческой депрессии), которое содержит следующие данные: • возраст; • пол; • город; • средний балл; • продолжительность сна; • профессия; • рабочее давление; • академическое давление.

Тема была выбрана в связи с интересом к области изучения расстройств депрессивного спектра, которые, как известно, особенно распространены среди представителей моего поколения.

Многие современные студенты, независимо от места проживания, сталкивались с данной проблемой лично или через близкое окружение, что делает изучение депрессии особенно актуальным.

Исходя из предоставленных данных я решила проследить взаимосвязь между депрессией и такими факторами, как продолжительность сна, пищевое поведение и академическое давление. Вышеперечисленные факторы актуальны для большинства студентов. Самым опасным проявлением депрессии является суицидальный риск, в связи с чем было интересно узнать, представители какого пола наиболее подвержены данному риску.

В работе мной были использованы следующие виды графиков: • горизонтальный и вертикальный барчарт — потому что он наилучшим образом демонстрирует соотношение разных величин между собой; • линейная диаграмма — лучше показывает зависимость одной переменной от другой; • пайчарт — потому что этот вид графика лучше показывает соотношение долей в исследованиях.

Изображение для обложки данной работы было сгенерировано с помощью нейросети Leonardo.AI

ЭТАПЫ РАБОТЫ

ПОДГОТОВКА СРЕДЫ К РАБОТЕ:

• импортирую библиотеку Pandas для работы с таблицами; • импортирую библиотеку Matplotlib для построения графиков; • загружаю данные в DataFrame из файла формата csv; • русифицирую название колонки Depression для отображения на графиках; • выборочно просматриваю записи в полученном фрейме, для понимания того, какие данные и в каком объёме у меня есть.

Исходный размер 1729x215

Просматриваю данные в первой строке для наглядного отображения структуры и содержания записей.

Исходный размер 1781x776

ОБЩИЕ АЛГОРИТМЫ

Для создания сводной таблицы я использовала алгоритм, которым вдохновилась в работах на сайте kaggle.com.

Далее группирую значения по полям с данными о наличии депрессии и исследуемым параметром. В качестве результирующего значения использую метод подсчета количества для каждой пары группировки «size», учитывающий пустые значения.

Преобразую таблицу в сводную таблицу методом unstack с заполнением пустых значений нулем.

Для перевода значений столбца на русский язык применяю алгоритм, который нашла на сайте stackoverflow.

Создаю словарь качества питания для перевода на русский язык, где ключ — это английское название, а значение — русское. При помощи метода replace заменяю в колонке английский текст на русский.

АНАЛИЗ ДАННЫХ

ВЛИЯНИЕ ДЕПРЕССИИ НА ПРОДОЛЖИТЕЛЬНОСТЬ СНА:

• переводим значения в колонке «Sleep Duration» на русский язык; • создаём новый DataFrame с нужными нам полями для анализа; • удаляем значения, которые нельзя интерпретировать (Others); • применяем алгоритм создания сводной таблицы.

Исходный размер 1604x446
Исходный размер 1680x699

ВЛИЯНИЕ ДЕПРЕССИИ НА ПИЩЕВОЕ ПОВЕДЕНИЕ:

• переводим значения в колонке «Dietary Habits» на русский язык; • создаём новый DataFrame с нужными нам полями для анализа; • удаляем значения, которые нельзя интерпретировать (Others); • применяем алгоритм создания сводной таблицы.

Исходный размер 1719x475
Исходный размер 1680x699

ВЛИЯНИЕ УРОВНЯ АКАДЕМИЧЕСКОГО ДАВЛЕНИЯ НА ДЕПРЕССИЮ:

• группируем данные в DataFrame по полю Academic Pressure; • рассчитываем какой процент студентов с депрессией выявлен для данного уровня академического давления в поле с результатом группировки.

Исходный размер 1699x244
Исходный размер 1680x699

ВЛИЯНИЕ ПОЛА НА СУИЦИДАЛЬНЫЕ МЫСЛИ:

• переводим значения в колонке «Gender» на русский язык; • переименовываем поле со значениями для удобства, оставляем только студентов с депрессией; • создаём новый DataFrame с нужными нам полями для анализа; • группируем по полю Gender и подсчитываем количество студентов для каждого пола.

Исходный размер 1709x459
Исходный размер 1680x699

РЕЗУЛЬТАТ

В итоге я получила 4 разных графика, для стилизации которых меняла цветовую палитру, расположение надписей, также добавляла сетку, где это было уместно.

Исходный размер 1680x429

ССЫЛКА НА DATASET И БЛОКНОТ

Анализ и визуализация данных по депрессии у студентов
Проект создан 30.12.2024
Подтвердите возрастПроект содержит информацию, предназначенную только для лиц старше 18 лет
Мне уже исполнилось 18 лет
Отменить
Подтвердить
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше