Введение

Я увлекаюсь типологиями личности, это мое хобби и я хочу развиваться в этой теме, ведь чувствую в ней потенциал. Даже дипломный проект я делаю на тему типологий. А значит анализ данных, связанный с этой тематикой, должен оказать мне помощь в столь важной работе.

В качестве датасета были взяты данные с сайта kaggle.com, где собрана информация с сайта personality-database.com.

раздел pdb со знаменитостями // как выглядят результат голосования на pdb

Сайт (кратко pdb) представляет собой гигантскую базу данных персонажей/людей/явлений/вещей и тд, которые типируются людьми (с помощью голосования) по различным типологиям. Голосовать может любой зарегистрированный пользователь.

В исследуемом датасете представлены только знаменитости, их типологии (из pdb), а также количество людей, проголосовавших за определенную типологию.

В типологическом сообществе результаты голосования с pdb обычно не считаются верными по причине поверхностного типирования большей части голосовавших. Поэтому мне будет интересно исследовать датасет со следующими задачами:

1. Выяснить уровень популярности различных типологий

2. Сравнить результаты голосования за MBTI и соционику

3. Проследить насколько типирования с сайта попадают в строгие типологические корреляции

4. Выявить типологии и типы, которые вызывают больше всего проблем в типировании

Исходный размер 2798x1730

мудборд визуализации // собран в Figma

Цвета для визуализации:

#280004 #3546F8 #9E9E9E #BAF6FF #EBF6FF

(создаем словарь с палитрой для удобства)

Шрифт для визуализации:

Установка шрифта — загружены все начертания и с помощью словаря присвоены имена для удобства.

Для исследования были построены несколько видов графиков, которые хорошо подходят для визуализации категориальных данных:

[1] Столбчатые диаграммы

[2] Круговые диаграммы

[3] Матрицы

А также один вид для числовых данных:

[4] Диаграмма рассеяния

Использованные библиотеки:

• pandas • matplotlib • numpy • seaborn

Обработка данных и поиск ценной информации

Ищем самую популярную типологию

Начнем с легкого — соберем статистику типологий, за которые проголосовали больше и меньше всего. Для этого нужно суммировать голоса со всех строк и столбцов, которые подсчитывают количество проголосовавших за типологию в целом.

Исходный размер 866x728

Выбрана столбчатая диаграмма, потому что с ее помощью легче всего отследить разницу количества голосов.

Из интересного в коде — максимальное значение выделяется визуально.

Узнаем как часто любители самой популярной типологии ошибаются

Есть две типологии — соционика и мбти. У них одна основа и по этой причине типы из одной типологии можно назвать эквивалентами типов из другой.

Я создала словарь, чтобы обозначить эти эквиваленты.

В сообществе соционика считается более весомой и качественной типологией, по этой причине можно утверждать, что голоса за соционику более валидные, чем за мбти. Но для начала я хочу узнать процент совпадающих эквивалентов.

После того как мы увидели какой небольшой процент совпадений, хочется узнать какие именно типы совпадают, а какие нет. Для этого прекрасно подойдет матрица.

Для любителей типологий будет очень интересно рассматривать эту матрицу, ведь тут можно увидеть кого, в кого и насколько часто люди мистайпят.

Из интересного в коде — я выделила черной обводкой линию по диагонали. Квадраты этой диагонали как раз указывают верный эквивалент, то есть, зачастую, правдивое попадание.

Давайте еще сделаем столбчатую диаграмму, чтобы точно увидеть какие типы с какими чаще всего путают.

Также мне стало интересно сравнить, насколько сильно перевес голосов по мбти влияет на разрыв голосов между мбти и соционикой (для того чтобы ее вычислить создадим новый признак)

Получается, когда за мбти голосуют больше людей, то количество голосов за соционику не меняется, а значит вероятность ошибиться в итоговом варианте мбти также растет. Именно по этой причине типированиям сайта pdb не доверяют.

Проверим на корреляции

В сообществе всегда идут споры насчет корреляций между разными типологиями — стоит им следовать или это просто ограничение.

Я считаю, что корреляции имеют место быть и итоговое типирование обязано им подчиняться.

Мы уже знаем, что на pdb могут приходить голосовать люди, которые не сильно разбираются в типологиях и типируют «по вайбу», а значит мистайпов с несочетающимеся типологиями должно быть много.

Чтобы проверить это, нужно опять создать словари.

Также у нас в таблице нет колонки с эннеаграммой в виде xxX (инстинкт+эннеа), поэтому придется создавать новый признак с помощью кодировки тритипа (берем первую цифру) и инстинкта (берем первые две буквы, которые обозначают инстинкт)

Исходный размер 546x81

Теперь мы с помощью словарей можем проверить соответствие корреляциям и построить на этом по два новых признака.

Давайте посмотрим какой процент типирований соответствует строгим корреляциям.

И давайте опять сделаем матрицы, через которые можно будет наблюдать как люди чаще всего мистайпят других (а значит могут и себя).

Темная обводка указывает на корреляционно верный вариант.

Покажем архетипы

Если уж у нас есть два словаря с корреляциями, то почему бы их не соединить и не получить таблицу с архетипами. Давайте это сделаем!

И визуализируем архетипы с помощью карточек.

Создадим три экрана по триадам эннеаграммы, а также каждой триаде дадим свой цвет. В этой типологии у каждого инстинкта тоже есть своя триада, поэтому на пересечении инстинкта и цифры эннеа можно получить градиент, а если триада цифры и триада инстинкта совпадают, то цвет будет ровным.

архетипы по подтипам эннеаграммы

Удобно, что при ошибке или переосмыслении корреляций можно просто подредактровать словарь, обновить ячейки с кодом и сразу получить готовые обновленные картинки с корреляциями.

Итоговые графики и выводы

Исходный размер 2080x1480

Как мы видим, самой популярной типологией в данный момент является MBTI. Это обусловлено ее гигантским распространением даже за пределами типологического сообщества.

Разница с другими типологиями громадна. Часто на сайт приходят люди, которые не разбираются, но все равно голосуют, по этой причине результаты голосования за нее крайне сомнительны.

Видно, что тема типов личности интересна людям, но дальше они не изучают, потому что разочаровываются в точности самой популярной системы.

Исходный размер 1930x1480

Соционика, идущая корнями в ту же систему что и MBTI, не имеет такого большого количества голосов. Более того, если голосов за MBTI становится больше, то количество голосов за соционику не растет, не смотря на то, что она является более точной и работающей системой.

Пусть системы и похожи, но по этому графику видно, что люди голосуют за разные типы и расхождений гораздо больше чем сходств.

Исходный размер 2080x1480

Здесь можно увидеть какие типы люди чаще всего путают и, тем самым, они также могут запутаться в типировании себя, что плохо влияет на репутацию типологий.

Исходный размер 2044x1180

Проблема заключается не только в MBTI, но и в неосведомленности людей в других системах, что также мешает протипировать других (и себя, что более важно) правильно.

Суть типологий в том, чтобы найти свои точки роста, наладить коммуникацию с людьми, которых ты не понимаешь. А с неправильным типированием работоспособность типологий снижается и люди могут делать выводы, что типологии в принципе не работают. Что опять же негативно сказывается на репутации в целом.

Исходный размер 2209x2080

По более подробной таблице можно увидеть, где люди чаще всего совершают ошибки при типировании.

В целом, можно сделать вывод, что путаница довольно сильная, если посмотреть как мало чисел в обведенных темным корреляционных квадратах. Два самых популярных мистайпа — VLFE sx8 и LVEF sp5.

Исходный размер 2210x2080

Похожая таблица, люди также совершают ошибки в других системах, не могут правильно протипировать. Здесь самые популярные мистайпы — IEI sx4, EIE sx4, ESE so3.

На основе обеих матриц можно составить общие рекомендации по типированию, которые помогут избежать ошибок новичкам.

Общий вывод

По этим данным можно сделать вывод, что тема типологий интересна людям, но многие из них совершают ошибки, что плохо влияет на репутацию типологий.

Данные были собраны с самой популярной площадки для обсуждения типологий (PDB). Площадка не выполняет задачи в осведомлении правильности типирования и корректировки, что в дальнейшем ведет к еще большим путаницам и отбивает у людей изучать эту сферу дальше.

Если исправить эти проблемы, люди станут более осведомленными и будут довольны результатом правильного определения и смогут рекомендовать типологии другим людям, что позволит привлекать больше людей в эту сферу и она получит своё развитие.

На основе матриц мистайпов можно создать базу рекомендательных заметок и использовать их на своей типологической платформе, которую я хочу разрабатывать в дальнейшем.

Нужно поэтапно рассказывать людям как работают типологии и как они могут им помочь, чтобы избежать поверхностного ознакомления. Как раз для этого я и планирую делать дипломный проект — типологическое сообщество + типологический журнал, который будет постепенно знакомить читателей с миром типологий.

Анализ этих данных подсветил конкретные проблемные точки, которые будут учтены в разработке дипломного проекта.

Описание применения генеративной модели

В качестве помощника при написании кода была использована нейросеть Perplexity.

В промптах я просила исправить ошибки в коде, узнавала как сделать то или иное действие, а также просила запомнить параметры стиля графиков, чтобы сохранить единый стиль.

Код и датасет

Исследование проблемы ошибок при типировании

Цвета для визуализации:

Шрифт для визуализации:

Использованные библиотеки: