Исходный размер 1140x1600

Анализ данных выживаемости пассажиров на Титанике

PROTECT STATUS: not protected

Проект по анализу данных выживаемости пассажиров Титаника в рамках предмета «Программирование для креативных индустрий».

Я выбрала датасет Титаника, так как он является одним из самых известных наборов данных в анализе данных на предложенных платформах поиска и позволяет исследовать факторы, влияющие на выживаемость пассажиров.

Мне было интересно выяснить смогу ли я написать код и выстроить визуализацию верных данных. Ведь это легко проверить даже в открытых источниках.

Этапы работы

  1. Загрузка данных с помощью Pandas
  2. Обработка данных (удаление пропусков, кодировка)
  3. Преобразование категориальных данных
  4. Анализ данных
  5. Визуализация
  6. Перепроверка кода в Google Colab

Загрузка данных с помощью Pandas

Работа с графиками

Так же, для вывода визуализации данных (итоговых графиков) в едином стиле, я прописала некоторые стили:

plt.rcParams['figure.facecolor'] = '#0f0f0f' plt.rcParams['axes.facecolor'] = '#0f0f0f' plt.rcParams['text.color'] = 'white' plt.rcParams['axes.labelcolor'] = 'white' plt.rcParams['xtick.color'] = 'white' plt.rcParams['ytick.color'] = 'white'

Хотелось, чтобы общая гамма графиков уходила в чёрный/тёмно-синий, чтобы поддерживать тон глубины и тяжесть этой серьёзной темы.

Итого получилось 5 визуализаций:

  1. Выживаемость пассажиров
  2. Пол пассажиров и их выживаемость
  3. Выживаемость по классу
  4. Возраст пассажиров
  5. Корреляция признаков
0

Итоговые графики

Большинство графиков — это столбчатые диаграммы, потому что требовалось лишь две переменные. Последний график — шахматка с пересечением множества признаков.

Используемые методы

  1. Очистка данных (dropna)
  2. Кодирование категорий
  3. Агрегация (value_counts)
  4. Корреляционный анализ
  5. Визуализация (matplotlib, seaborn)

Выводы

  1. Выжило больше женщин, чем мужчин
  2. Пассажиры первого класса имели наибольшие шансы на выживание
  3. Возраст повлиял на выживаемость
  4. Большинство пассажиров не выжило
  5. Достаточно много признаков коррелируемы между собой.

Описание применения генеративной модели:

Код был написан самостоятельно, вручную. Нейросеть использовалась для проверки возникшей ошибки в последней визуализации, а так же, для уточнения того, как лучше назвать все вводные на английском, чтобы код был понятен для всех, а не только для автора.

Используемая модель: «Chat GPT» Ссылка: https://chatgpt.com

Анализ данных выживаемости пассажиров на Титанике
Проект создан 23.03.2026
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше