Исходный размер 2280x3198

Анализ данных о бананах

Описание

Более 100 миллиардов бананов съедают на нашей планете каждый год, что делает их одним из самых популярных сельскохозяйственных продуктов.

И я в числе тех, кто покупает бананы круглый год!

post

Датасет данных с качеством бананов (почему он?)

Данный набор данных был выбран по той причине, что в дальнейшем с ним можно будет проводить интересную работу по классификации бананов, а также предсказывать качество бананов, используя регрессию, чтобы покупать только вкусные бананы!

Источник данных — kaggle.com

Описание данных

sample_id: Уникальный идентификатор, присвоенный каждому образцу банана в датасете. Это позволяет отслеживать и уникально ссылаться на образцы.

variety: Сорт или порода банана, например, Кавендиш, Красный Дакка или Леди Фингер. Знание конкретного сорта банана дает контекст для физических характеристик образца и условий его выращивания.

region: Географическое происхождение банана, например, Эквадор, Филиппины или Коста-Рика. Регион может влиять на такие факторы, как климат, почва и методы выращивания, которые сказываются на качестве банана.

post

quality_score: Числовой балл, вероятно, в диапазоне от 1 до 4, который оценивает общее качество образца банана. Это может включать такие факторы, как внешний вид, текстура и отсутствие дефектов.

quality_category: Текстовая метка, которая классифицирует балл качества в более широкие категории, такие как «Отличное» и т. д. Это облегчает восприятие оценки качества.

ripeness_index: Числовой индекс, представляющий уровень зрелости банана, возможно, в диапазоне от 1 (зеленый/незрелый) до 10 (перезрелый). Это количественно оценивает зрелость фрукта.

ripeness_category: Текстовая метка, такая как «Зеленый», «Желтый», «Созревший» или «Перезрелый», соответствующая индексу зрелости. Это дает четкую качественную классификацию зрелости.

sugar_content_brix: Содержание сахара в банане, измеряемое в градусах Брикса. Это распространенный способ оценки сладости и качества фрукта.

firmness_kgf: Твердость банана, измеряемая в килограммах-силе. Это показывает текстуру и зрелость образца.

length_cm: Физическая длина банана в сантиметрах. Этот показатель может варьироваться в зависимости от сорта и условий выращивания.

Исходный размер 1102x526

Графики

Было решено построить распределение качества бананов по категориям и по зрелости в виде гистограмм, поскольку именно гистограммы отображают количество данных каждого класса для понимания возможности дальнейшего обучения.

Графики зависимости качества банана от региона, содержания сахара и возраста дерева были представлены в качестве линейных чтобы посмотреть на возможность предсказания качества бананов, используя регрессию.

(1)

Исходный размер 848x548

Гистограмма Распределение качества бананов по категориям

plt.figure () sns.countplot (x='quality_category', data=df, order=df['quality_category'].value_counts ().index, palette="viridis») plt.title ('Распределение качества бананов по категориям', fontsize=14) plt.xlabel ('Категория качества', fontsize=12) plt.ylabel ('Количество', fontsize=12) plt.show ()

((2))

Исходный размер 848x548

Гистограмма Распределение зрелости бананов

plt.figure () sns.countplot (x='ripeness_category', data=df, order=df['ripeness_category'].value_counts ().index, palette="plasma») plt.title ('Распределение зрелости бананов', fontsize=14) plt.xlabel ('Категория зрелости', fontsize=12) plt.ylabel ('Количество', fontsize=12) plt.show ()

(((3)))

Исходный размер 852x592

Линейный график Зависимость качества бананов от региона

plt.figure () df.groupby ('region')['quality_score'].mean ().sort_values ().plot (kind='line', marker='o', color='teal') plt.title ('Зависимость качества бананов от региона', fontsize=14) plt.xlabel ('Регион', fontsize=12) plt.ylabel ('Средний балл качества', fontsize=12) plt.xticks (rotation=45) plt.show ()

((((4))))

Исходный размер 844x548

Линейный график Зависимость качества бананов от содержания сахара

plt.figure () sns.lineplot (x='sugar_content_brix', y='quality_score', data=df, ci=None, color='orange') plt.title ('Зависимость качества бананов от содержания сахара', fontsize=14) plt.xlabel ('Содержание сахара (Brix)', fontsize=12) plt.ylabel ('Балл качества', fontsize=12) plt.show ()

(((((5)))))

Исходный размер 852x548

Линейный график Зависимость качества бананов от возраста

plt.figure () sns.lineplot (x='tree_age_years', y='quality_score', data=df, ci=None, color='purple') plt.title ('Зависимость качества бананов от возраста дерева', fontsize=14) plt.xlabel ('Возраст дерева (лет)', fontsize=12) plt.ylabel ('Балл качества', fontsize=12) plt.show ()

Список источников

Блокнот и датасет

Анализ данных о бананах
Проект создан 29.01.2025
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше