
О проекте
Описание
В рамках майнора по социальным исследованиям медиа и коммуникаций мне захотелось изучить то, чем является конкурс Евровидение — какие у него особенности, как та или иная страна презентует себя на конкурсе, как те или иные характеристики стран-участниц, артистов и номеров влияют на победу, какие вообще ценности несет конкурс в общество и как его воспринимают зрители.
Одной из моих задач было провести контент анализ — проанализировать участников конкурса, их места, отношение к тому или иному блоку стран, узнать количество женщин и мужчин на конкурсе, а также изучить популярность тем песен.
Выборка данных
За основу былая взята история конкурса за последние 30 лет.
В 1994 году Россия стала участницей конкурса, и хотя больше не принимает в нем участие, за прошедшие годы в стране выросло целое поколение, следящее за конкурсом в том числе без прямых трансляций на российском телевидении.
Использование библиотек
Чтобы разобраться с задачами, которые стояли передо мной, я использовала возможности языка программирования Python и, в частности, библиотеки Pandas, Numpy, Matplotlib.
Также в проект были импортрованы google.colab, os для работы с Google Drive в Google Colab и re для работы с регулярными выражениями.
Виды графиков и анализ
Для проекта были использованы:
Подготовка базы данных
Поиск данных
Для разработки исследования мне нужно было составить кодировочную таблицу. Однако чтобы дойти до этапа ручной обработки колонок, необходимо было получить основные данные о каждом конкурсе, каждом участнике на нем и его песне.
Для этого я воспользовалась несколькими сайтами:
Сайт Евровидения С сайта Евровидения я взяла данные о странах-участницах, их артистах и песнях. Парсинг напрямую с сайта Евровидения запрещен, поэтому для ускорения работы пришлось сохранить HTML-страницы каждой страны.
Википедия Для определения места страны в целом на конкурсе был произведен парсинг общей суммы баллов, суммы баллов зрителей, жюри и количества стран, поставивших ту или иную оценку стране-участнице в Полуфиналах и Финале из Википедии.
CIA The World Factbook Данный сайт был использован для определения региона, к которому относится та или иная страна. Парсинг данных с сайта сложен из-за неконсистентных данных, поэтому список регионов был собран вручную и занесен в словарь.
Словари
Основная таблица с участниками
На март 2025 года на сайте Евровидения уже доступны частичные данные об участниках 2025 года. Однако сам конкурс пройдет в мае, места стран будут известны тогда же.
Поэтому финальная таблица была отфильтрована, в нее попали конкурсы с 1994 по 2024 включительно.
Дополнительные таблицы
Для того, чтобы определить место страны в Полуфиналах и языки песен, придется воспользоваться данными из Википедии — иначе пришлось бы вручную открывать страницу каждой страны на каждом конкурсе и смотреть на ее балл, количество стран, которые отдали тот или иной балл стране, а также на языки песни. Выбирая Википедию, мы сокращаем количество открытых страниц до 30.
Будут собраны: таблица языков песен, таблица баллов Первого полуфинала, таблица баллов Второго полуфинала, таблица баллов обоих Полуфиналов, таблица баллов Финала. Все они соберутся в единую таблицу баллов года.
Так как данные на каждой странице Википедии отличаются по местонахождению, для сохранения времени было решено вручную в Google Таблицах объединить:
Поэтому парсинг с Википедии представлен для одного года.
Часть кода (из-за объема не получается показать весь)
Работа с данными
Итоговая таблица
После парсинга данных и их объединения была собрана таблица. После контент-анализа часть колонок была удалена для упрощения работы с данными. Кроме того, появились колонки, которые были заполнены вручную во время контент-анализа.
Частичный вид финальной таблицы
Графики и анализ