Original size 1140x1600

Анализ базы данных Spotify

PROTECT STATUS: not protected
10

Введение

Я выбрала данные с сайта Kaggle о некоторых треках из 125 различных жанров в Spotify и проанализировала топ-20 треков в данном ресурсе.

Мне было интересно поработать с этими данными, так как я очень активно слушаю музыку именно на этой стриминговой платформе и я сама музыкант. Как может работать система чарта, какие треки являются наиболее прослушиваемыми и почему — эти вопросы были мне интересны как простому слушателю, так и как возможному будущему артисту, готовый работать с этой плаформой.

Виды графиков

- Столбчатая диаграмма - Круговая диаграмма - Столбчатая диаграмма с двумя категориями - Точечная диаграмма

Этапы работы

- Выбор данных - Загрузка CSV файла в Google Collab - Выбор интересующей информации - Аналитическая работа - Выведение визуализации

Визуализация

big
Original size 1254x642

Код № 1

big
Original size 1635x780

Для начала я извлекла данные о самых популярных жанрах, в которых написаны треки из топ-20. Это оказалась преимущественно поп-музыка с элементами других жанров. Поп-музыка является наиболее «открытым» жанром, который подразумевает под собой любое звучание, стиль и вид аранжировки, соответственно, понятие поп-музыки в данном анализе не ограничивает изучение остальной информации никакими рамками.

Original size 1306x498

Код № 2

Original size 1118x1008

Затем я попыталась сопоставить количество треков с нецензурной лексикой в топ-20 треков с треками без нее. В результате анализа моя теория о том, что количество треков с нецензурной лексикой будет превышать количество треков без нее, была опровергнута. Не подтвержден факт, в котором наличие такой лексики оказывает положительное влияние на попадание трека в чарт.

Original size 1372x456

Код № 3

Original size 956x790

После этого я попыталась выяснить соотношение темпа и длительности трека. Так как со времен радио «золотым стандартом длительности» поп-трека считается около 3,5 минут, я проанализировала топ-20 треков на данные характеристики и выяснила, что самые популярные композиции в анализируемой 20-ке находятся примерно в диапазоне от 125 до 130 bpm (чуть меньше чем обычный темп трека в жанре «Трэп», довольно популярного в современное время и часто появляющегося в поп-музыке) и обладают продолжительностью не более 3,2 минуты. Из этого я сделала вывод, что длительность и темп трека играют какую-то важную роль в прослушиваемости пользователями стриминговой платформы, раз «стандарты» соблюдаются до сих пор.

Original size 1586x874

Код № 4

Original size 978x550

«Валентность» (valence) = песни по шкале от 0.0 до 1.0, опираясь на «музыкальную позитивность, передаваемую композицией. Чем ниже значение, тем печальнее мелодия.

В конце я проанализировала топ-20 треков с большой долей акустики/в акустическом стиле с разной валентностью. Моя теория была в том, что количество треков в акустическом стиле (который сейчас довольно популярен у представителей молодежной поп-музыки), которые обладают меньшей валентностью (то есть „более грустные“), будут являться большей частью чарта. В целом, теория подтвердилась.

Выводы

Если попытаться составить некую формулу попадания треков в чарт исходя из всех полученных данных, то можно получить следующее: жанр «Поп» + наличие/отсутствие нецензурной лексики + 3 минуты хронометража + темп ≥140 bpm + (при акустической камерной стилизации более грустное настроение, «вайб»). Довольно стандартизированные известные нормы, которые не являются сенсационными, но визуализация этих данных помогла наглядно понять, что сейчас более популярно, а что нет.

Описание применения генеративной модели

Для совершенствования инфографики я обращалась за помощью к ChatGPT

https://chatgpt.com/

Анализ базы данных Spotify
10
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more