
Концепция
В рамках данного проекта был проведён анализ и визуализация табличного датасета по персонажам легендариума Дж. Р. Р. Толкина (формат CSV), включающего сведения о расе, поле, росте, а также отметки о рождении и смерти в привязке к эпохам.

Выбор темы обусловлен тем, что мир Средиземья представляет собой хорошо структурированную культурную вселенную с большим количеством персонажей и устойчивыми категориальными признаками (народы, эпохи, родословные), что делает его удобным материалом для учебного анализа данных и демонстрации методов описательной статистики и сравнительной визуализации.
С методологической точки зрения работа опиралась на базовые инструменты анализа данных в Pandas, группировки, сводные таблицы, а также на описательную статистику (частотные распределения, средние значения, сравнение групп).
Таким образом, проект демонстрирует, как на основе относительно простого табличного набора можно построить объясняющую аналитику: выделить доминирующие категории, сравнить распределения между группами и одновременно оценить качество данных через долю пропусков и дисбаланс заполненности. В качестве материала для анализа использован датасет персонажей по миру Толкина в формате CSV.
Гистограмма распределения персонажей по росту
Это гистограмма, показывающая распределение роста отдельно для мужских и женских персонажей.
На графике видно, что у мужских персонажей выборка заметно шире и выше по числу наблюдений, а распределение растянуто от 110 до 270 см, также есть редкий экстремум около 450 см.
Для женских персонажей значений намного меньше, поэтому их показатели редкие и не образуют плотного распределения.
Пунктирные линии показывают средние значения: у мужских персонажей средний рост около 184.1 см, у женских около 141.5 см — но из-за малого героинь этот вывод нельзя считать полностью показательным.
Кольцевая диаграмма общей доли рас среди персонажей
На данной диаграмме самые частые расы вынесены отдельно, остальные же собраны в «Other».
Наибольшая группа — люди (42.6%), то есть почти половина всех записей.
Следом идет «Unknown» (15.4%) — это важный индикатор, указывающий на то, что у многих персонажей раса не указана или не распознана.
Далее — хоббиты (13.8%) и эльфы (11.3%), а затем гномы (4.6%).
Категория «Other» (7.1%) собирает мелкие группы.
А далее идут самые маленькие сегменты, относящиеся к расам Айнур и на половину эльфам.
Линейная диаграмма, сравнивающая эпохи
Эта диаграмма иллюстрирует у скольких персонажей в датасете известен период рождения и смерти.
Ось X — эпохи, а ось Y — количество персонажей. Подписи рядом с точками показывают число и долю относительно всех «известных рождений» или «известных смертей» в данных.
Самый заметный пик — Третья эпоха: там наблюдается больше всего рождений (369, 52%) и смертей (234, 39%).
Это сходится с событиями Третьей Эпохи, которые больше всего описаны и чаще всех встречаются в источниках.
Для Четвертой эпохи рождений почти нет, зато смертей заметно больше (49, 8%) — возможно, потому что многие линии персонажей «заканчиваются» уже после основных событий «Властелина Колец».
Большая доля смертей, которые неизвестны, уходят в «Unknown» (129, 22%) — это след неполных/неструктурированных записей первоисточника, где смерть указана, но эпоха не распознана или записана нестандартно.
Таблица гендерного состава внутри шести рас
График сравнивает гендерный состав внутри шести самых многочисленных рас: люди, неизвестные виды, хоббиты, эльфы, гномы, Айнур.
Каждый столбик — это 100% персонажей данной расы, а цветные сегменты показывают долю мужского, женского и неизвестного гендеров.
По таблице видно, что перевес идет в сторону мужских персонажей (334, 86%), женских заметно меньше (51, 13%).
У хоббитов соотношение женского гендера к мужскому уже существенно больше относительно общей численности (36, 29%), у эльфов можно заметить похожий показатель (24, 23%), а у гномов, напротив, почти все записи — мужские (41, 98%).
Интересно, что у Айнур распределение больше уравновешено (примерно 14, 58% мужских и 10, 42% женских).
Заключение
В ходе работы был выполнен разведочный анализ (EDA) датасета персонажей мира Толкина в формате CSV и построен набор сравнительных визуализаций в единой стилистике.
Использование методов группировки и сводных таблиц, расчёт долей и описательная статистика позволили выявить структуру данных и ключевые закономерности, а также оценить качество заполнения признаков. В целом проект демонстрирует, что даже при наличии пропусков и неоднородных полей табличные данные можно привести к аналитическому виду и использовать для объясняющих визуализаций.
Итоговые графики не только дают представление о распределении персонажей по расам, эпохам и полу, но и фиксируют ограничения датасета, что является важной частью корректной интерпретации результатов и возможной отправной точкой для дальнейшего расширения и очистки данных.
Нейросети
В работе над исследовательским проектом была использована модель Chat GPT 5.2 для стилизации проекта и исправления ошибок кода.