
Виды и источники данных
В рамках проекта были собраны данные о музыкальных треках и их популярности из открытых источников: публичных датасетов с метриками Spotify и стриминговой статистикой, а также чартов, фиксирующих попадание песен в категории «хит» (например, официальные плейлисты и хит-парады). Набор данных включает для каждого трека базовую информацию об артисте, жанре, дате релиза, а также количественные показатели: число прослушиваний, сохранений в плейлистах, позицию в чартах и ряд аудио‑характеристик (таких как танцевальность, энергичность, длительность трека и т. п.)
Почему эти данные ценны и интересны
Анализ именно этих данных позволяет перейти от субъективного впечатления о «хите» к проверяемой статистической модели, показывающей, какие факторы реально связаны с успехом трека. Кроме того, эти данные обладают практической ценностью для артистов, лейблов и продюсеров: понимание того, как часто у конкретного исполнителя появляются хиты и сколько «обычных» песен им обычно предшествует, помогает выстраивать более осознанную стратегию релизов и планировать творческие и маркетинговые решения на базе цифр, а не интуиции.
Виды графиков, которые я использовала
1. Сложенная столбчатая диаграмма 2. Диаграмма рассеяния 3. Горизонтальная столбчатая диаграмма 4. Линейный график
Я выбрала эти графики, чтобы рассмотреть успех с разных сторон: сложенная диаграмма показывает долю хитов в общем объеме творчества, диаграмма рассеяния выявляет связь между количеством песен и успехом, столбчатая служит для рейтинга эффективности, а линейный график демонстрирует развитие карьеры во времени.
1. Сложенная столбчатая диаграмма
Что показывает:
Сколько треков у каждого артиста и какую часть составляют хиты по выбранному порогу (например, popularity ≥ 70). Позволяет сравнить не только долю, но и абсолютный масштаб каталога (одинаковая доля хитов у артиста с 40 и 150 треками — разное количество успешных песен).
2. Диаграмма рассеяния
Что показывает:
Каждая точка — артист, оси: средняя Energy и Danceability его треков. Размер/цвет точки кодирует долю хитов в каталоге, поэтому видна связь: какие сочетания параметров чаще встречаются у артистов с высокой долей хитов.


3. Горизонтальная столбчатая диаграмма
Что показывает:
Рейтинг артистов по показателю «доля хитов в каталоге, %» — у кого наиболее высокая концентрация успешных треков.Горизонтальный формат позволяет удобно читать подписи артистов и акцентировать значения (подписи процентов на барах).
4. Линейный график
Что показывает:
Ось X — интервалы темпа (бины, например: ≤85, 86–100, 101–115, 116–130, >130 BPM). Ось Y — средняя доля хитов среди артистов, попадающих в каждый интервал; видно, в каких диапазонах темпа чаще встречаются успешные треки.
Вывод
Анализ показал, что у большинства артистов доля хитов лежит в диапазоне примерно 10–18%, при этом выше среднего выглядят dance/EDM и поп‑исполнители (Filatov & Karas, DJ Smash, ANNA ASTI, Zivert), у которых одновременно высокие значения энергии, танцевальности и комфортный темп около 85–110 BPM, тогда как мрачный или экспериментальный звук с низким valence и более длинными треками (Скриптонит, Хаски, Boulevard Depo и часть трэп‑артистов) связан с меньшей долей хитов, что в сумме подтверждает: хит — это не один параметр, а комбинация высокой Energy и Danceability, удобного темпа, умеренной длительности и жанровой ориентации в сторону поп / pop‑rap / dance, дополненная масштабом каталога и частотой коллабораций.
Описание применения генеративной модели
Нейросетевые сервисы использовались точечно — для поиска релевантных открытых датасетов (Spotify / Yandex Music), уточнения списка российских исполнителей и генерации первоначальных идей по типам графиков и их текстовому сопровождению. Все ключевые этапы: формирование финального датасета по 30 артистам, расчёт доли хитов и средних аудиофич, написание кода анализа и построение визуализаций в Python с использованием Pandas и библиотек для графиков — реализованы автором самостоятельно.
Датасет
Блокнот с кодом