Original size 1140x1600

Анатомия успеха: статистический анализ музыкальных хитов

PROTECT STATUS: not protected
The project is taking part in the competition

Виды и источники данных

В рамках проекта были собраны данные о музыкальных треках и их популярности из открытых источников: публичных датасетов с метриками Spotify и стриминговой статистикой, а также чартов, фиксирующих попадание песен в категории «хит» (например, официальные плейлисты и хит-парады). Набор данных включает для каждого трека базовую информацию об артисте, жанре, дате релиза, а также количественные показатели: число прослушиваний, сохранений в плейлистах, позицию в чартах и ряд аудио‑характеристик (таких как танцевальность, энергичность, длительность трека и т. п.)

Почему эти данные ценны и интересны

Анализ именно этих данных позволяет перейти от субъективного впечатления о «хите» к проверяемой статистической модели, показывающей, какие факторы реально связаны с успехом трека. Кроме того, эти данные обладают практической ценностью для артистов, лейблов и продюсеров: понимание того, как часто у конкретного исполнителя появляются хиты и сколько «обычных» песен им обычно предшествует, помогает выстраивать более осознанную стратегию релизов и планировать творческие и маркетинговые решения на базе цифр, а не интуиции.

Виды графиков, которые я использовала

1. Сложенная столбчатая диаграмма 2. Диаграмма рассеяния 3. Горизонтальная столбчатая диаграмма 4. Линейный график

Я выбрала эти графики, чтобы рассмотреть успех с разных сторон: сложенная диаграмма показывает долю хитов в общем объеме творчества, диаграмма рассеяния выявляет связь между количеством песен и успехом, столбчатая служит для рейтинга эффективности, а линейный график демонстрирует развитие карьеры во времени.

1. Сложенная столбчатая диаграмма

Что показывает:

Сколько треков у каждого артиста и какую часть составляют хиты по выбранному порогу (например, popularity ≥ 70). Позволяет сравнить не только долю, но и абсолютный масштаб каталога (одинаковая доля хитов у артиста с 40 и 150 треками — разное количество успешных песен).

Original size 987x587
Original size 1710x936

2. Диаграмма рассеяния

Что показывает:

Каждая точка — артист, оси: средняя Energy и Danceability его треков. Размер/цвет точки кодирует долю хитов в каталоге, поэтому видна связь: какие сочетания параметров чаще встречаются у артистов с высокой долей хитов.

Original size 932x587

3. Горизонтальная столбчатая диаграмма

Что показывает:

Рейтинг артистов по показателю «доля хитов в каталоге, %» — у кого наиболее высокая концентрация успешных треков.Горизонтальный формат позволяет удобно читать подписи артистов и акцентировать значения (подписи процентов на барах).

Original size 986x687
Original size 1942x946

4. Линейный график

Что показывает:

Ось X — интервалы темпа (бины, например: ≤85, 86–100, 101–115, 116–130, >130 BPM). Ось Y — средняя доля хитов среди артистов, попадающих в каждый интервал; видно, в каких диапазонах темпа чаще встречаются успешные треки.

Original size 987x587
Original size 1930x946

Вывод

Анализ показал, что у большинства артистов доля хитов лежит в диапазоне примерно 10–18%, при этом выше среднего выглядят dance/EDM и поп‑исполнители (Filatov & Karas, DJ Smash, ANNA ASTI, Zivert), у которых одновременно высокие значения энергии, танцевальности и комфортный темп около 85–110 BPM, тогда как мрачный или экспериментальный звук с низким valence и более длинными треками (Скриптонит, Хаски, Boulevard Depo и часть трэп‑артистов) связан с меньшей долей хитов, что в сумме подтверждает: хит — это не один параметр, а комбинация высокой Energy и Danceability, удобного темпа, умеренной длительности и жанровой ориентации в сторону поп / pop‑rap / dance, дополненная масштабом каталога и частотой коллабораций.

Описание применения генеративной модели

Нейросетевые сервисы использовались точечно — для поиска релевантных открытых датасетов (Spotify / Yandex Music), уточнения списка российских исполнителей и генерации первоначальных идей по типам графиков и их текстовому сопровождению. Все ключевые этапы: формирование финального датасета по 30 артистам, расчёт доли хитов и средних аудиофич, написание кода анализа и построение визуализаций в Python с использованием Pandas и библиотек для графиков — реализованы автором самостоятельно.

Датасет

Блокнот с кодом

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more