Original size 860x1280

Анализ факторов выживаемости пассажиров «Титаника»

PROTECT STATUS: not protected

Вводная часть

Для анализа был выбран датасет Titanic Dataset, содержащий информацию о пассажирах лайнера «Титаник», потерпевшего крушение в 1912 году. Датасет был взят с платформы Kaggle — открытого ресурса с наборами данных для анализа и обучения Data Science.

В таблице представлены следующие данные: - пол пассажира - возраст - класс каюты - стоимость билета - порт посадки - информация о выживании

Почему эти данные представляют интерес?

- содержат реальные исторические данные; - хорошо подходят для исследовательского анализа; - позволяют выявить социальные и демографические факторы, влияющие на вероятность выживания.

Какие типы графиков были выбраны и почему

В проекте использованы разные виды визуализаций: - столбчатые диаграммы — для сравнения долей выживших; - гистограммы — для анализа распределения возраста; - круговые диаграммы — для визуализации пропорций; - сравнительные графики — для объяснения влияния нескольких факторов одновременно.

Этапы работы

Для начала загрузили первичные данные

big
Original size 1619x174
0
Original size 479x411

Очистка и подготовка данных В ходе анализа было выявлено: наличие пропущенных значений в столбце Age; категориальные переменные (Sex, Embarked). Были выполнены следующие действия: пропущенные значения возраста заменены на медианное значение; данные приведены к удобному формату для анализа.

Анализ данных Выживаемость в зависимости от пола

post

Результат показал, что женщины имели значительно более высокую вероятность выживания, чем мужчины.

Original size 567x489

Выживаемость в зависимости от класса каюты

post

Пассажиры первого класса выживали заметно чаще, чем пассажиры второго и третьего классов.

Original size 567x450

Распределение возраста пассажиров

post

Возраст пассажиров имеет правостороннее распределение, с наибольшей концентрацией в диапазоне 20–40 лет.

Original size 571x455

Визуализация данных

Для визуализации использовались библиотеки Matplotlib, а также сам Google colab Были построены: столбчатая диаграмма выживаемости по полу; столбчатая диаграмма выживаемости по классу; гистограмма распределения возраста; круговая диаграмма долей выживших и погибших

Использование нейросетей

В ходе выполнения проекта использовалась генеративная модель ChatGPT (OpenAI) для: объяснения методов анализа данных; помощи в написании кода на Python; формулировки текстовых описаний для презентации. Промпты включали запросы на: примеры анализа данных в Pandas; объяснение статистических методов; идеи для визуализации данных.

Используемые статистические методы

В проекте применялись следующие методы: описательная статистика (среднее, медиана); группировка данных (groupby); анализ распределений; сравнение долей между группами. Эти методы позволили выявить закономерности и объяснить влияние различных факторов на вероятность выживания.

Итоговые графики

В результате были построены минимум 4 разных типа графиков: Столбчатая диаграмма выживаемости по полу Столбчатая диаграмма выживаемости по классу Гистограмма распределения возраста Круговая диаграмма соотношения выживших и погибших Все графики представлены в итоговой презентации.

Заключение

В ходе проекта был проведён анализ данных о пассажирах «Титаника» с использованием библиотеки Pandas и инструментов визуализации. Анализ показал, что пол и класс пассажира оказали наибольшее влияние на вероятность выживания, в то время как возраст играл вторичную роль. Проект продемонстрировал возможности анализа данных, визуализации и интерпретации результатов в понятном и объясняющем формате.

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more