
Введение
«Тита́ник» — британский трансатлантический грузопассажирский и почтовый пароход, второй лайнер класса «Олимпик» компании «White Star Line».

Пароход «Титаник»

Отплытие Титаника
В ночь с 14 на 15 апреля 1912 года «непотопляемый» лайнер RMS Titanic ушёл под воду, унеся с собой более 1500 человеческих жизней. Но за этой ужасающей цифрой скрываются тысячи личных историй: надежд, трагедий, мужества и невероятного стечения обстоятельств.
Гибель «Титаника» давно перестала быть просто историческим фактом, превратившись в мощный культурный миф — символ роковой случайности и человеческой самонадеянности. В массовом сознании трагедия часто предстаёт как великий уравнитель, где перед лицом смерти стирались социальные границы, а спасение зависело от удачи и воли случая. Легенды воспевают героизм музыкантов, доигрывавших на тонущей палубе, и благородство джентльменов, уступавших места в шлюпках.
Этот проект представляет собой современный анализ данных который позволяет перевести трагическую ночь апреля 1912 года из области мифа в плоскость измеримых фактов.
Для этого анализа я использовала датасет о пассажирах Титаника, предоставленный Kaggle. Этот набор данных содержит информацию о 891 пассажире, включая их социально-демографические характеристики и главный исход — выжили они или нет в катастрофе 1912 года.
Титаник — это не просто историческое событие, а уникальная «естественная лаборатория» человеческого поведения в экстремальных условиях. Эти данные имеют непреходящую ценность.
Список использованных графиков 1)Sunburst Chart (Иерархия выживаемости) 2)Violin Plot (Распределение возраста) 3)Bubble Chart (Цена билета vs Возраст) 4)Box Plot (Распределение цен по классам) 5)Dashboard (Интерактивный дашборд) 6)Heatmap (Корреляционная матрица)
Выбор пал на диаграммы, наиболее наглядно визуализирующие разницу между данными, чтобы все было очевидно с первого взгляда!
Обработка данных
1)Диагностика и анализ пропущенных значений 2)Стратегическое заполнение пропусков 3)Создание новых аналитических признаков (Feature Engineering) 4)Категоризация непрерывных переменных 5)Русскоязычное кодирование и дополнительная информация 6)Дескриптивная статистика и проверка результатов


Статистические методы, использованные в анализе:
Визуализация
Диаграмма «Солнечные лучи»
Этот тип визуализации был выбран потому, что он идеально подходит для отображения вложенных категориальных данных. Sunburst показывает, как общая выборка пассажиров делится сначала по факту выживания, затем внутри этих групп — по полу, и далее — по классу обслуживания. Это позволяет сразу увидеть пропорциональный вклад каждой подгруппы в общую картину. Статистически это представляет собой многоуровневую агрегацию данных.
Диаграмма «Скрипичная»
График показывает, что среди выживших пассажиров Титаника было значительно больше детей. Возрастное распределение погибших имеет более выраженный «хвост» в сторону пожилого возраста. Это наглядно подтверждает, что при эвакуации соблюдался принцип «сначала дети». В целом, молодой возраст был ключевым фактором выживания.
Диаграмма «Пузырьковая»
Данный violin plot визуализирует распределение возраста пассажиров Титаника в зависимости от их статуса (выжил/погиб). График объединяет преимущества box plot (отображает медиану и межквартильный размах) и density plot (показывает форму распределения). Он позволяет сравнить не только средние значения, но и общую форму распределения, плотность данных по возрастам. Интерактивные элементы при наведении показывают детальную информацию об отдельных пассажирах.
Диаграмма «Размаха»
На диаграмме «ящик с усами» (box plot) показано статистическое распределение цен на билеты для каждого класса обслуживания. Первый класс демонстрирует самый широкий разброс цен — от 30 до почти 200 долларов, а также наибольшее количество «выбросов» (очень дорогих билетов). Второй класс имеет гораздо более узкий и низкий диапазон цен. Третий класс характеризуется самыми дешёвыми и однородными по стоимости билетами. Визуализация также показывает, что внутри каждого класса выжившие пассажиры в среднем платили за билет больше, чем погибшие.
Диаграмма «Дашборд»


Этот сет графиков показывает основные метрики выживаемости пассажиров «Титаника» по полу, классу каюты, возрасту и порту посадки, позволяя быстро понять, какие группы людей имели больше шансов выжить
Диаграмма «Тепловая»
Этот график — корреляционная матрица, которая показывает силу и направление линейной связи между различными признаками пассажиров «Титаника» (выживаемость, класс, возраст, количество братьев/сестер, детей/родителей, цена билета, размер семьи, наличие каюты). Цветовая шкала от темно-синего (-1, сильная отрицательная связь) до светло-бирюзового (+1, сильная положительная связь) помогает визуально оценить, какие признаки связаны друг с другом: например, выживаемость слабо коррелирует с полом и классом, а размер семьи сильно связан с количеством братьев/сестер и детей/родителей.
Вывод
Анализ данных пассаниров Титаника подтвердил решающее влияние социально-демографических факторов на выживаемость. Главными детерминантами оказались пол (женщины выживали в 4 раза чаще мужчин) и класс обслуживания (пассажиры 1-го класса имели в 2.5 раза больше шансов, чем 3-го). Принцип «сначала женщины и дети» соблюдался, но его реализация напрямую зависела от социального статуса. Дети и пассажиры с семьями из 2-4 человек также имели преимущество. Исследование наглядно показало, как в экстремальной ситуации проявились структурные неравенства общества начала XX века.
Макет парохода «Титаник»