Исходный размер 1140x1600

WINE DATASET ANALYSIS

PROTECT STATUS: not protected

Описание

Я выбрала винный датасет, с сайта kaggle, потому что он идеально балансирует между научной строгостью и эстетической привлекательностью. Химический анализ вин превращает искусство виноделия в точную науку. Мне было важно показать, как работа с реальными данными позволяет находить скрытые закономерности там, где кажется, что правит только субъективное восприятие, даже во вкусе вина можно обнаружить математическую точность.

Реализация кода была в среде colab.google с использованием Pandas

Загрузка файла формата csv.

big
Исходный размер 409x387

Подключение библиотек.

big
Исходный размер 373x149
Исходный размер 615x360

Стилизация

Палитра подбиралась по винным оттенкам.

Исходный размер 545x623

{1} Круговая диаграмма и барплот

Исходный размер 1349x589

Всего образцов: 178 Количество классов: 3

{2} Боксплот

Исходный размер 675x791
Исходный размер 1589x1025

Класс 1 показывает стабильно высокое содержание алкоголя (13-14.5%), Класс 3 — самое низкое (12-13%), а Класс 2 занимает промежуточное положение. Это чёткое ранжирование позволяет использовать алкоголь как первичный маркер для классификации вин.

{3} Корреляция характеристик

Исходный размер 753x570
Исходный размер 1132x997

Флавоноиды, общие фенолы и антоцианы образуют тесный корреляционный кластер (0.6-0.9), что указывает на их совместное присутствие и взаимное влияние — изменение одного компонента систематически отражается на других.

{4} Scatter plot

Исходный размер 678x835
Исходный размер 657x271
Исходный размер 1190x790

Все три класса образуют визуально различимые кластеры с минимальным перекрытием, демонстрируя, что всего две главные компоненты (PC1 и PC2) сохраняют достаточно информации для уверенного различения вин — 66,1% общей дисперсии.

{5} Сравнение средних значений

Исходный размер 659x902
Исходный размер 1389x790

Градиентные столбцы визуализируют последовательное снижение всех ключевых показателей от Класса 1 к Классу 3: алкоголь (14.2 — 13.0), флавоноиды (3.0 — 1.7), интенсивность цвета (5.5 — 3.3). Это доказывает системность различий, а не случайные отклонения по отдельным параметрам.

Выводы

СТАТИСТИКА ПО КЛАССАМ:

Класс 1: • Образцов: 59 (33.1%) • Алкоголь: 13,74% • Флавоноиды: 2.98

Класс 2: • Образцов: 71 (39.9%) • Алкоголь: 12,28% • Флавоноиды: 2.08

Класс 3: • Образцов: 48 (27.0%) • Алкоголь: 13,15% • Флавоноиды: 0.78

КЛЮЧЕВЫЕ РАЗЛИЧИЯ:

  1. Класс 1: Высокий алкоголь и флавоноиды
  2. Класс 2: Средние значения, самая многочисленная группа
  3. Класс 3: Наименьший алкоголь, более светлый цвет

Использование генеративной модели

DeepSeek — помощь с кодом Sora — генерация обложки

WINE DATASET ANALYSIS
Проект создан 16.01.2026
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше