Original size 1080x1528

Анализ диалогов и персонажей из кино-трилогии LOTR

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

В рамках данного проекта был проведён анализ и визуализация табличного датасета по персонажам легендариума Дж. Р. Р. Толкина (формат CSV), включающего сведения о расе, поле, росте, а также отметки о рождении и смерти в привязке к эпохам.

big
Original size 1200x1200

Выбор темы обусловлен тем, что мир Средиземья представляет собой хорошо структурированную культурную вселенную с большим количеством персонажей и устойчивыми категориальными признаками (народы, эпохи, родословные), что делает его удобным материалом для учебного анализа данных и демонстрации методов описательной статистики и сравнительной визуализации.

С методологической точки зрения работа опиралась на базовые инструменты анализа данных в Pandas, группировки, сводные таблицы, а также на описательную статистику (частотные распределения, средние значения, сравнение групп).

Таким образом, проект демонстрирует, как на основе относительно простого табличного набора можно построить объясняющую аналитику: выделить доминирующие категории, сравнить распределения между группами и одновременно оценить качество данных через долю пропусков и дисбаланс заполненности. В качестве материала для анализа использован датасет персонажей по миру Толкина в формате CSV.

Гистограмма распределения персонажей по росту

Original size 735x880

Это гистограмма, показывающая распределение роста отдельно для мужских и женских персонажей.

На графике видно, что у мужских персонажей выборка заметно шире и выше по числу наблюдений, а распределение растянуто от 110 до 270 см, также есть редкий экстремум около 450 см.

Original size 1627x957

Для женских персонажей значений намного меньше, поэтому их показатели редкие и не образуют плотного распределения.

Пунктирные линии показывают средние значения: у мужских персонажей средний рост около 184.1 см, у женских около 141.5 см — но из-за малого героинь этот вывод нельзя считать полностью показательным.

Original size 1097x821

Кольцевая диаграмма общей доли рас среди персонажей

На данной диаграмме самые частые расы вынесены отдельно, остальные же собраны в «Other».

Original size 1199x506

Наибольшая группа — люди (42.6%), то есть почти половина всех записей.

Следом идет «Unknown» (15.4%) — это важный индикатор, указывающий на то, что у многих персонажей раса не указана или не распознана.

Далее — хоббиты (13.8%) и эльфы (11.3%), а затем гномы (4.6%).

Original size 990x966

Категория «Other» (7.1%) собирает мелкие группы.

А далее идут самые маленькие сегменты, относящиеся к расам Айнур и на половину эльфам.

Original size 1173x716

Линейная диаграмма, сравнивающая эпохи

Эта диаграмма иллюстрирует у скольких персонажей в датасете известен период рождения и смерти.

Ось X — эпохи, а ось Y — количество персонажей. Подписи рядом с точками показывают число и долю относительно всех «известных рождений» или «известных смертей» в данных.

Original size 736x920

Самый заметный пик — Третья эпоха: там наблюдается больше всего рождений (369, 52%) и смертей (234, 39%).

Это сходится с событиями Третьей Эпохи, которые больше всего описаны и чаще всех встречаются в источниках.

Original size 1627x938

Для Четвертой эпохи рождений почти нет, зато смертей заметно больше (49, 8%) — возможно, потому что многие линии персонажей «заканчиваются» уже после основных событий «Властелина Колец».

Original size 1240x885

Большая доля смертей, которые неизвестны, уходят в «Unknown» (129, 22%) — это след неполных/неструктурированных записей первоисточника, где смерть указана, но эпоха не распознана или записана нестандартно.

Таблица гендерного состава внутри шести рас

График сравнивает гендерный состав внутри шести самых многочисленных рас: люди, неизвестные виды, хоббиты, эльфы, гномы, Айнур.

Каждый столбик — это 100% персонажей данной расы, а цветные сегменты показывают долю мужского, женского и неизвестного гендеров.

Original size 1622x873

По таблице видно, что перевес идет в сторону мужских персонажей (334, 86%), женских заметно меньше (51, 13%).

Original size 948x1080

У хоббитов соотношение женского гендера к мужскому уже существенно больше относительно общей численности (36, 29%), у эльфов можно заметить похожий показатель (24, 23%), а у гномов, напротив, почти все записи — мужские (41, 98%).

Интересно, что у Айнур распределение больше уравновешено (примерно 14, 58% мужских и 10, 42% женских).

Original size 1107x931

Заключение

В ходе работы был выполнен разведочный анализ (EDA) датасета персонажей мира Толкина в формате CSV и построен набор сравнительных визуализаций в единой стилистике.

Использование методов группировки и сводных таблиц, расчёт долей и описательная статистика позволили выявить структуру данных и ключевые закономерности, а также оценить качество заполнения признаков. В целом проект демонстрирует, что даже при наличии пропусков и неоднородных полей табличные данные можно привести к аналитическому виду и использовать для объясняющих визуализаций.

Итоговые графики не только дают представление о распределении персонажей по расам, эпохам и полу, но и фиксируют ограничения датасета, что является важной частью корректной интерпретации результатов и возможной отправной точкой для дальнейшего расширения и очистки данных.

Нейросети

В работе над исследовательским проектом была использована модель Chat GPT 5.2 для стилизации проекта и исправления ошибок кода.

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more