Описание проекта
Вводная часть:
Для анализа я выбрала датасет с информацией о ценах на одежду, включающий такие параметры, как категория товара, материал, размер, бренд и стоимость, который может быть использован для прогнозирования стоимости одежды. Я учусь на дизайнера и мне это близко и интересно. Эта тема актуальна, так как она даёт не только понимание вкусов и трендов, но и экономическую информацию: какие категории одежды будут востребованы и, соответственно, где цены могут вырасти или упасть. Анализ таких данных позволяет выявить закономерности и сделать прогнозирование цен, что актуально для онлайн-магазинов и маркетологов. В этом проекте затрагивается не самый широкий спектр нюансов для полноценных прогнозов, но он уже является достаточно показательным. Данные для анализа я нашла на платформе Kaggle. .В анализе используются разные виды графиков.
- Столбчатая диаграмма — для сравнения средней цены по категориям одежды
- Скрипичная диаграмма — транслирует информацию о распределении как у гистограммы и компактность как у диаграммы размаха. Для изучения распределения цен по материалам
- Линейный график — для анализа зависимости средней цены от размера
- Ящик с усами/Диаграмма размаха — для сравнения медианных цен разных брендов, анализа разброса цен по брендам
- Гистограмма — для изучения общей структуры цен на одежду
Такой набор графиков позволяет сочетать наглядность с глубиной анализа: мы видим не только средние значения, но и распределение цен.
Этапы работы
1. Поиск и обработка данных
В качестве анализируемого материала я выбрала базу данных Clothes Price Prediction с сайта Kaggle.Данные загружались с помощью библиотеки pandas. Я проверяла датасет на пропуски и дубликаты, группировала данные для анализа средней цены и подготовила их для визуализации. Для анализа распределений использовались функции violinplot и boxplot.
Пример кода для обработки и визуализации средней цены по категориям:
2. Стилизация графиков
Для визуализации я использовала библиотеку seaborn с настройкой темы whitegrid и палитры розовых оттенков. Цвета были выбраны так, чтобы графики выглядели гармонично и современно. Вдохновение для стиля графиков было взято из современных дашбордов аналитики в e-commerce и fashion-индустрии.
Пример настройки:
3. Формат визуализации
Каждый график оформлен с подписями осей и заголовком, что делает их удобными для понимания. Используются разные виды диаграмм для разных целей: сравнение средних значений, изучение распределений и выявление выбросов.
4. Используемые статистические методы
— Среднее значение (mean) — для анализа средней цены по категориям и размерам. — Распределение (distribution) — для изучения разброса цен и выявления аномалий. — Сравнение категорий (groupby) — для выявления зависимости цены от бренда, материала или размера.
Итоговые графики
Чтобы расширить свои представления о возможных итоговых графиках и анализе данных, я обратилась к ChatGPT за идеями о том, какие взаимосвязи в данном датасете было бы интересно изучить. На основе его ответа я выбрала наиболее подходящие виды графиков.
1. Средняя цена по категориям одежды
Наибольшая средняя цена наблюдается у верхней одежды и дизайнерских коллекций, а самые доступные категории — базовые футболки и аксессуары.
2. Распределение цен по материалу
Цены на одежду из натуральных материалов, таких как шерсть и хлопок, выше, чем на синтетические ткани. Кроме того, видны выбросы для люксовых тканей, что говорит о наличии премиальных товаров.
3. Средняя цена в зависимости от размера
Цена слегка увеличивается с ростом размера, что может объясняться большим расходом материала для больших размеров.
4. Распределение цен по брендам
Некоторые бренды имеют широкий разброс цен, включая как бюджетные, так и премиальные позиции. Это полезно для анализа брендинга и позиционирования товаров.
5. Общая структура цен
Большинство товаров находятся в среднем ценовом сегменте, а премиальные позиции встречаются реже.
Вывод
Анализ данных показал, что на цену одежды влияют категория товара, материал, размер и бренд. Верхняя одежда и дизайнерские коллекции дороже базовых товаров, натуральные ткани стоят больше синтетических, а увеличение размера слегка повышает цену. Разброс цен по брендам указывает на наличие как бюджетных, так и премиальных позиций. В целом, большинство товаров находятся в среднем ценовом сегменте.
Эти выводы помогают понять закономерности ценообразования и использовать данные для прогнозирования и маркетинговой стратегии.