Вводная часть
В проекте анализируется классический набор данных о пассажирах Титаника. Этот датасет был скачан с открытого источника Kaggle, где он хранится в формате CSV и содержит информацию о 891 пассажире, включая пол, возраст, класс билета, порт посадки, стоимость билета и главный целевой показатель — выжил ли пассажир или нет.
Для визуализации было выбрала шесть различных типов графиков, каждый из которых наилучшим образом подходит для определенного типа анализа: Круговая диаграмма — для отображения общего соотношения выживших и погибших. Групповая столбчатая диаграмма — для сравнения влияния двух факторов одновременно (пол и класс). Гистограмма с кривой распределения (KDE) — для анализа распределения возраста. Столбчатая диаграмма — для сравнения выживаемости по категориальным признакам. Тепловая карта — для визуализации корреляций между числовыми признаками. Такой набор графиков позволяет как провести исследовательский анализ, так и создать объяснительную визуализацию.
Подготовка файла
Работа велась в Google Colab — облачной среде для выполнения кода на Python. В Colab уже предустановлены все необходимые библиотеки для анализа данных: Pandas для работы с таблицами, NumPy для численных операций, Matplotlib и Seaborn для визуализации.
Был настроен единый стиль для всех графиков, выбрана тема 'seaborn-v0_8-darkgrid', которая обеспечивает приятный для глаз дизайн с тонкой сеткой, помогающей точнее считывать значения с графиков. Особое внимание было уделено цветовой палитре — морская тематика с оттенками синего, что ассоциативно связано с океаном, где произошла трагедия Титаника.
Мудборд
Предобработка данных
Первичный осмотр данных показал, что датасет содержит 12 столбцов и 891 строку. Некоторые столбцы имели пропущенные значения, особенно возраст (177 пропусков) и каюта (687 пропусков). Был проведён базовый статистический анализ, используя методы df.describe () и df.info (), чтобы понять структуру данных и распределение значений.
Также созданы новые признаки для более глубокого анализа: FamilySize — общее количество членов семьи на борту. IsAlone — индикатор, путешествовал ли пассажир один. AgeGroup — категоризация возраста на группы: дети, подростки, взрослые, пожилые.
Статистический анализ
Применено несколько статистических методов: Описательная статистика — расчет средних, медиан, стандартных отклонений для числовых признаков. Сравнение долей — анализ процента выживших в различных группах. Корреляционный анализ — вычисление корреляций Пирсона между числовыми признаками. Анализ распределений — изучение распределения возраста с помощью гистограмм и KDE Особое внимание уделено сравнению не только абсолютных значений, но и относительных различий (во сколько раз одна группа имела больше шансов на выживание по сравнению с другой).
Итоговые графики и выводы
В результате анализа создано шесть различных графиков, каждый из которых раскрывает определенный аспект данных о выживаемости на Титанике.
На этом графике видно, что выжило лишь 38,4% пассажиров, а погибло 61,6%. В абсолютных числах это 342 выживших против 549 погибших.
Этот график наглядно демонстрирует два ключевых фактора выживания. Женщины имели значительно более высокие шансы на спасение по сравнению с мужчинами во всех классах. При этом внутри каждого пола четко прослеживается влияние класса: пассажиры первого класса выживали чаще, чем второго и третьего. Самые высокие шансы были у женщин первого класса (96.8%), самые низкие — у мужчин третьего класса (13.5%).
Анализ распределения возраста показал, что средний возраст выживших (28.3 года) был немного ниже, чем средний возраст погибших (30.6 лет). Кривые распределения демонстрируют, что среди выживших было относительно больше детей и молодых людей, что подтверждает принцип «женщины и дети первыми».
Пассажиры, севшие на корабль в Шербуре (Франция), имели наибольшую выживаемость (55.4%), затем следовали пассажиры из Саутгемптона (Англия, 33,7%) и Квинстауна (Ирландия, 39,0%). Это может быть связано с социально-экономическим составом пассажиров из разных портов.
Анализ показал, что оптимальный размер семьи для выживания составлял 2-4 человека. Одиночки и пассажиры из очень больших семей (5+ человек) имели меньшие шансы на спасение. Это может объясняться тем, что небольшие семьи могли эффективнее действовать в условиях катастрофы.
Тепловая карта корреляций показала, что выживаемость наиболее сильно коррелирует с классом билета (отрицательная корреляция -0.34, чем ниже класс, тем меньше шансов на выживание) и стоимостью билета (положительная корреляция 0.26, чем дороже билет, тем выше шансы). Корреляция с возрастом слабая отрицательная (-0.08), что подтверждает, что возраст сам по себе не был решающим фактором.
Ключевые выводы
- Гендерный фактор был наиболее значимым: женщины выживали в 4 раза чаще мужчин (74.2% против 18,9%).
- Социально-экономический статус сильно влиял на шансы: пассажиры первого класса выживали в 2.6 раза чаще, чем третьего класса.
- Возраст имел значение, но не абсолютное: дети (до 12 лет) имели выживаемость 59,0%, что выше среднего, но ниже, чем у женщин в целом.
- Семейный статус играл роль: пассажиры с семьей из 2-4 человек имели преимущество перед одиночками и большими семьями.
- Принцип «женщины и дети первыми» в целом соблюдался, но с существенными социальными ограничениями: женщины третьего класса имели меньшие шансы, чем мужчины первого класса.
Датасет «Titanic: Machine Learning from Disaster» Источник: Kaggle — платформа для соревнований по анализу данных Ссылка: https://www.kaggle.com/c/titanic/data
MidJourney: Использовался для создания декоративных визуальных элементов, не заменяющих сами данные и их визуализацию Официальный сайт: https://www.midjourney.com



