Исходный размер 1140x1600

Звук двух десятилетий

PROTECT STATUS: not protected

Описание

Какие данные я выбрала и где их нашла

В данном проекте анализируется открытый датасет Spotify Tracks с платформы Kaggle. Он содержит информацию о треках, представленных в каталоге Spotify: год релиза, популярность, длительность, темп, а также вычисленные аудио-характеристики — valence (эмоциональная окраска), energy, danceability, acousticness, instrumentalness и др.

Для исследования была сформирована выборка треков, выпущенных в период 2000–2020 годов. Такой временной диапазон позволяет сфокусироваться на современной музыкальной эпохе — времени доминирования стриминговых сервисов и стабильных цифровых метрик.

0

импорт данных и первичная проверка

Почему именно эти данные

Музыка — редкий пример культурного феномена, который одновременно эмоционален и хорошо формализуем. Spotify предоставляет числовые метрики для треков, что позволяет рассматривать музыку как массив данных, а не только как художественный объект.

Этот датасет ценен тем, что:

— репрезентирует глобальную музыкальную среду, а не локальную выборку; — содержит объективные числовые характеристики, которые можно анализировать статистически; — позволяет изучать долгосрочные тренды — как изменяются эмоциональность, энергичность и структура музыки во времени.

Фактически речь идёт о попытке прочитать музыкальную историю двух десятилетий через данные.

Какие виды графиков я использую и зачем

В исследовании применяются несколько типов визуализаций, каждый из которых решает свою аналитическую задачу:

— Линейный график — анализ временных рядов (динамика средней эмоциональности valence по годам). — Гистограмма — исследование распределения длительности треков и выявление скрытых стандартов. — Диаграмма рассеяния — изучение связи между valence и popularity, а также между tempo и energy. — Boxplot — анализ распределения valence по десятилетиям и оценка вариативности эмоциональной палитры.

Такой набор позволяет сочетать изучающий формат (поиск паттернов) и объясняющий (иллюстрация уже сформулированных выводов).

Оформление графиков

В оформлении графиков я опиралась на визуальный язык ночной музыкальной сцены и неоновой эстетики начала 2000-х — культурного фона, в котором формировались ключевые жанры и технологические решения эпохи стриминга. Такой визуальный выбор не является декоративным: он выполняет аналитическую функцию и связывает абстрактные числовые параметры с их реальным культурным контекстом.

Неоновая палитра, построенная на глубоких синих и холодных светящихся оттенках, воспроизводит атмосферу клубного света, экранов ранних медиаплееров и цифровой эстетики 2000-х. Эти образы служат мостом между данными и средой, в которой эти данные возникают, — именно в клубах, студиях и цифровых платформах начала нулевых формировались звуковые решения, определяющие сегодняшнюю популярную музыку.

Исходный размер 1920x1080

Кроме того, выбранная палитра подчёркивает аналитический характер работы: контрастные линии и светлые акцентные точки позволяют более чётко фиксировать изменения временных рядов, распределения и плотность облаков наблюдений. Благодаря этому визуализация выполняет двойную задачу — сохраняет академическую читаемость и одновременно резонирует с эстетикой анализируемой эпохи.

Стилизация была выполнена через код, а не постобработку: все цвета заданы программно через настройки matplotlib и seaborn.

Исходный размер 1920x842

код стилизации графиков

Этапы работы

Отбор релевантных признаков

Первый шаг обработки данных — формирование аналитической выборки, то есть выделение только тех признаков, которые непосредственно участвуют в исследовании. Изначальный датасет Spotify содержит множество служебных полей (например, URI, идентификаторы или описательные строки), не имеющих ценности для анализа музыкальных характеристик.

Выбор признаков отражает аналитическую стратегию проекта:

— valence, energy, danceability, tempo — ядро аудио-характеристик Spotify, позволяющее количественно моделировать эмоциональные и структурные свойства музыки; — popularity — социальная метрика, необходимая для проверки гипотез о связи между художественными параметрами и массовым успехом; — duration_ms → источник будущей метрики длительности в минутах; — acousticness, loudness, speechiness, instrumentalness — дополнительные параметры, позволяющие уточнять звуковую картину и учитывать вариативность продакшена.

На этом этапе происходит сепарация «данных для анализа» от шумовых столбцов, что является обязательным компонентом любой исследовательской методологии.

Исходный размер 1920x842

формирование аналитической выборки

Фильтрация по годам и очистка пропусков

Цель проекта — изучение музыкальных трендов 2000–2020 годов, то есть эпохи активного формирования цифровой музыкальной среды. Поэтому фильтрация по годам является не просто техническим действием, а концептуальным сужением исследовательского горизонта.

Выбор диапазона обусловлен:

— переходом индустрии к цифровым форматам и стримингу — стандартизацией аудио-метрик (именно в этот период появляются автоматические характеристики: valence, energy и др.) — возможностью исследовать целостный двадцатилетний цикл с достаточно большой выборкой

Удаление пропусков (dropna ()) — обязательный этап, необходимый для корректности всех дальнейших статистических операций: пропущенные значения искажают выборочные средние, корреляции и распределения.

Повторный вызов df.info () позволяет убедиться, что очищенная структура данных соответствует требованиям анализа.

Исходный размер 1920x842

фильтрация по годам и очистка пропусков

Создание новых признаков

Этот шаг формирует вторичные признаки, которые невозможно получить напрямую из датасета, но которые играют ключевую роль в аналитике:

  1. Преобразование длительности Длительность в миллисекундах — технический формат, неудобный для интерпретации.

Перевод в минуты: — делает данные максимально читабельными, — позволяет строить распределения, — помогает выявлять индустриальные стандарты.

Это важное исследовательское решение: теперь длительность трека — не машинная единица измерения, а интерпретируемый параметр, связанный с производственными и форматными практиками музыкальной индустрии.

  1. Вычисление десятилетия

Признак десятилетия нужен для анализа долгосрочных структурных тенденций. На уровне отдельных лет данные могут колебаться, но на временном горизонте десятилетий можно увидеть:

— изменения эмоциональной палитры — изменение структуры темпа — вариативность энергичности — эволюцию композиционных стандартов

Создание decade переводит исследование с уровня локальных флуктуаций к уровню макротенденций, что важно для интерпретации результатов.

Исходный размер 1920x842

создание новых признаков

Описательная статистика

describe () формирует количественный профиль каждого признака:

— среднее значение (mean) показывает «типичное» состояние переменной — стандартное отклонение (std) отражает вариативность и внутреннюю неоднородность музыкального материала — квартильные значения (25%, 50%, 75%) позволяют увидеть распределение внутри выборки — минимумы и максимумы демонстрируют диапазоны художественных и технических параметров

Описательная статистика — это фундамент нижнего уровня, на котором строится всё дальнейшее исследование. Она позволяет:

— проверить корректность данных — увидеть outliers — определить, какие параметры имеют узкие, а какие — широкие распределения — понять, какие переменные потенциально коррелируют или влияют на популярность

Например: — высокая вариативность valence укажет на то, что эмоциональная палитра внутри эпохи разнообразна — низкая вариативность duration_min подтвердит индустриальную стандартизацию длительности треков — характер распределения tempo может указывать на музыкальные предпочтения эпохи

Исходный размер 1920x842

описательная статистика

Аналитические направления данных Spotify

Распределение аудио-характеристик (valence, energy, tempo)

Мне было важно понять, как распределены ключевые параметры треков в общей выборке — существует ли доминирующий тип звучания, или современные музыкальные практики формируют более разнородную звуковую среду. Такое распределение позволяет увидеть «ландшафт» музыки: её эмоциональные предпочтения, уровень энергичности и структуру темпа.

Динамика эмоциональности музыки по годам

Это один из наиболее информативных графиков. Он отражает, как менялась средняя эмоциональная окраска (valence) музыки с 2000 по 2020 год. Такая динамика показывает не просто художественные изменения, но и возможные культурные сдвиги: тенденции к меланхолии, мрачности или, наоборот, к более светлым, оптимистичным звучаниям.

Через анализ временного ряда можно уловить ритм музыкальной эпохи — периоды стабильности, всплески, разрывы, точки перехода.

Энергичность и танцевальность музыки

Параметры energy и danceability оказались более структурно сложными, чем кажется. Мне было важно увидеть, как они соотносятся между собой внутри выборки: формируют ли они единый тип «современного звучания», или музыкальная среда гораздо более многослойна.

Диаграмма рассеяния помогает увидеть скрытые кластеры — например, медленные, но насыщенные по энергии треки, или наоборот — быстрые, но «лёгкие» по интенсивности.

Длительность треков

Анализ длительности выявляет негласные индустриальные стандарты: существуют ли устойчивые форматы, например, «трек на 3–4 минуты», или диапазон шире, чем принято думать.

Форма гистограммы здесь особенно важна: она визуально показывает, как устроены производственные рамки музыки и насколько они жёстко определяют структуру релизов.

Структура звучания по десятилетиям

Когда данные группируются по десятилетиям, меняется сам масштаб анализа. Такой подход позволяет отойти от локальных колебаний и увидеть долгосрочные тенденции — эволюцию эмоционального фона, динамику темпа, смещение энергетических характеристик.

Десятилетний разрез показывает не просто то, какая музыка выпускалась, а какой она становилась — куда двигалась индустрия, какие звуковые паттерны закреплялись и какие уходили.

Итоговые графики

График 1 Динамика эмоциональной окраски 2000–2020

Линейный график демонстрирует изменение средней эмоциональной окраски треков во времени. Плавные колебания значения valence отражают сдвиги в доминирующих настроениях массовой музыки. Локальные минимумы можно интерпретировать как периоды усиления интереса к более мрачным или напряжённым звучаниям.

0

Динамика эмоциональной окраски (valence) 2000–2020

График 2 Распределение длительности треков

Гистограмма длительности показывает, что основная масса треков укладывается в диапазон 3–4 минут. Это подтверждает существование негласного индустриального стандарта: музыка форматируется под ожидания стриминговых платформ и слушателей.

0

распределение длительности треков

График 3 Связь эмоциональности и популярности

Диаграмма рассеяния и значение коэффициента корреляции Пирсона показывают, что линейная связь между valence и popularity практически отсутствует. Популярные треки распределены по всей шкале valence, что означает: успех композиции не сводится к её «радостности» или «грусти».

0

Связь эмоциональности и популярности

График 4 Эмоциональная палитра по десятилетиям

Boxplot по десятилетиям позволяет оценить не только изменение среднего значения valence, но и разброс внутри временных интервалов. Рост ширины «ящика» и числа выбросов в поздний период указывает на расширение эмоционального диапазона: сосуществование крайне мрачных и очень светлых треков.

0

Эмоциональная палитра по десятилетиям

График 5 Темп и энергичность

Диаграмма рассеяния tempo–energy визуализирует «портрет» современного звучания. Большинство треков находится в области умеренного или повышенного темпа при высокой энергичности. Это соответствует представлению о современной поп- и электронной музыке как о насыщенной и динамичной.

0

Темп и энергичность

Заключение

Проведённый анализ аудио-характеристик треков, выпущенных в период 2000–2020 годов, позволил выявить несколько структурных тенденций, определяющих звучание современной музыкальной эпохи. Исследование показало, что эмоциональная палитра популярной музыки постепенно смещается в сторону более приглушённых и меланхоличных настроений: средние значения valence демонстрируют плавное снижение, а распределение внутри десятилетий становится всё более вариативным. Это указывает не только на изменение стилистических предпочтений, но и на усложнение эмоционального диапазона массовой музыки.

Получилось установить связи между ключевыми параметрами, представленными в Spotify Audio Features. Корреляционный анализ показал, что популярность трека практически не зависит от его эмоциональной окраски (valence), что опровергает распространённые бытовые представления о «весёлой музыке как более успешной». В то же время распределение tempo и energy демонстрирует устойчивое преобладание треков с умеренным темпом и высокой энергичностью — характерной особенностью продакшна 2000–2020 годов.

Не менее интересной оказалась структура длительности треков. Гистограмма показала выраженный пик в диапазоне 3–4 минут, что подтверждает существование стабильного индустриального стандарта, воспроизводимого вне зависимости от жанра и контекста. Длинные и короткие форматы присутствуют, но занимают маргинальное положение относительно основного массива данных.

В совокупности результаты исследования позволяют утверждать, что современная музыка сочетает в себе эмоциональное многообразие, высокую плотность звучания и строгую форматность длительности. Музыкальная индустрия оказалась одновременно гибкой в плане художественных решений и удивительно стабильной в структурных параметрах производства.

Таким образом, данное исследование демонстрирует, что цифровые метрики Spotify способны не только описывать трек, но и фиксировать культурные сдвиги, происходящие в музыкальной среде. Через данные видно то, что обычно слышится интуитивно: музыка становится более эмоционально сложной, более энергичной и при этом по-прежнему подчинённой форматной логике стриминговой эпохи.

Описание применения генеративных моделей

ChatGPT

Применялась как текстовая нейросеть для консультаций и поддержки аналитической части проекта.

С её помощью были получены: — инструкции по обработке данных и корректной имплементации функций — рекомендации по выбору библиотек и структурированию кода — аналитические комментарии, помогающие интерпретировать результаты визуализаций.

Модель использовалась исключительно как вспомогательный инструмент для повышения точности и прозрачности вычислительных процедур

Adobe Color

Служила для получения и уточнения цветовой палитры проекта. На основе загруженного изображения была сформирована палитра, отражающая визуальный язык исследования, после чего оттенки были вручную скорректированы для использования в графиках.

Krea

Использовалась для генерации обложки.

Промпт: «Create a cover for a data analysis project about Spotify music trends from 2000 to 2020. Visual style inspired by early-2000s digital culture, night-time music scenes, and the iridescent glow of stacked CDs. Show abstract reflections, bluish holographic highlights, and scattered discs forming a dynamic composition. Add minimalistic data-viz elements (thin grid lines, waveform silhouettes) subtly blended into the background. The mood is analytical, futuristic, nostalgic, and clean. No text. Ultra-detailed, cinematic lighting, soft gradients, high resolution»

Звук двух десятилетий
Проект создан 17.01.2026
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше