Проект по анализу данных выживаемости пассажиров Титаника в рамках предмета «Программирование для креативных индустрий».
Я выбрала датасет Титаника, так как он является одним из самых известных наборов данных в анализе данных на предложенных платформах поиска и позволяет исследовать факторы, влияющие на выживаемость пассажиров.
Мне было интересно выяснить смогу ли я написать код и выстроить визуализацию верных данных. Ведь это легко проверить даже в открытых источниках.
Этапы работы
- Загрузка данных с помощью Pandas
- Обработка данных (удаление пропусков, кодировка)
- Преобразование категориальных данных
- Анализ данных
- Визуализация
- Перепроверка кода в Google Colab
Загрузка данных с помощью Pandas
Работа с графиками
Так же, для вывода визуализации данных (итоговых графиков) в едином стиле, я прописала некоторые стили:
plt.rcParams['figure.facecolor'] = '#0f0f0f' plt.rcParams['axes.facecolor'] = '#0f0f0f' plt.rcParams['text.color'] = 'white' plt.rcParams['axes.labelcolor'] = 'white' plt.rcParams['xtick.color'] = 'white' plt.rcParams['ytick.color'] = 'white'
Хотелось, чтобы общая гамма графиков уходила в чёрный/тёмно-синий, чтобы поддерживать тон глубины и тяжесть этой серьёзной темы.
Итого получилось 5 визуализаций:
- Выживаемость пассажиров
- Пол пассажиров и их выживаемость
- Выживаемость по классу
- Возраст пассажиров
- Корреляция признаков
Итоговые графики
Большинство графиков — это столбчатые диаграммы, потому что требовалось лишь две переменные. Последний график — шахматка с пересечением множества признаков.
Используемые методы
- Очистка данных (dropna)
- Кодирование категорий
- Агрегация (value_counts)
- Корреляционный анализ
- Визуализация (matplotlib, seaborn)
Выводы
- Выжило больше женщин, чем мужчин
- Пассажиры первого класса имели наибольшие шансы на выживание
- Возраст повлиял на выживаемость
- Большинство пассажиров не выжило
- Достаточно много признаков коррелируемы между собой.
Описание применения генеративной модели:
Код был написан самостоятельно, вручную. Нейросеть использовалась для проверки возникшей ошибки в последней визуализации, а так же, для уточнения того, как лучше назвать все вводные на английском, чтобы код был понятен для всех, а не только для автора.
Используемая модель: «Chat GPT» Ссылка: https://chatgpt.com



