Описание
Я выбрала датасет по интересной мне тематике — сельскому хозяйству.
Стилистика

Мудборд

Цветовая палитра проекта
Используемый шрифт для кода — Farm House Regular
Подготовка данных
Используемые библиотеки:
pandas Основная библиотека для работы с таблицами (DataFrame). Позволяет загружать, обрабатывать, фильтровать и анализировать данные.
numpy Библиотека для работы с массивами и числовыми операциями. Она быстрее и эффективнее, чем списки Python, особенно при больших объемах данных.
matplotlib.pyplot Библиотека для построения графиков. Позволяет строить линии, столбцы, диаграммы, настраивать их внешний вид и отображать в файле.
seaborn Продвинутая библиотека визуализации на основе matplotlib. Позволяет создавать красивые и информативные графики с минимальным кодом.
kagglehub Используется для загрузки моделей и данных с платформы Kaggle
matplotlib.colors Позволяет создавать кастомные цветовые схемы (градиенты), которые можно использовать графиках.
Хочется добавить в датасет не только числовые, но и категориальные признаки, в частности круто было бы различать высокие/низкие показатели сбора урожая.
Из описания нового признака достанем перцентиль 75 = 455 и установим как аномально высокое значение урожая на 1 га.
Аналогично перцентиль 25 = 199 будем считать низким значением.
Визуализация данных
График № 1: попарные корреляции
Очевидно, что величины: количество осадков, индекс качества почвы, количество солнечных часов, количество удобрений — не коррелируют.
В этом можно убедиться посмотрев на попарные графики — абсолютное отсутствие зависимости этих величин.
Более точная метрика — вычисление точной корреляции между признаками, отличная визуализация в таком случае — хитмапа.
График № 2: хитмапа корреляций
График № 3: джоинт плоты
Нас интересует прежде всего зависимость количества урожая от остальных признаков. Как видно из хитмапы — ярковыраженных зависимостей нет, однако больше всего (~ на 10%) коррелируют признаки количество выпавших осадков и индекс качества удобрений. Изучим подробней:
График № 4: скрипки
График № 5: бар плот
Вывод
Ярковыраженных простых линейных зависимостей от отдельных признаков не наблюдается, что неочевидно на первый взгляд — казалось, что чем больше количество осадков, Солнца, качественных удобрений, тем больше будет урожай. Однако это оказалось не совсем так.
Я считаю, что так происходит потому, что для получения хорошего урожая необходимо лишь достаточное количество Солнца, удобрений и его качества, а не как можно больше. Среди признаков мы не наблюдаем экстремальных разбросов — например, минимальное количество часов Солнца в представленных данных — 4 часа, что, как я предполагаю, является достаточным для большинства агро-культур.
Также причина отсутствия зависимостей от внешних факторов (Солнца, дождя) может быть в том, что производство урожая автоматизировано: автополив, верхнее покрытие (теплицы, пленки). Кроме того, большинство культур, выращиваемых массово в полях, достаточно неприхотливы, поэтому и стали популярны, что также может объяснить причину низкой корреляции, наблюдаемой на графиках выше.
Используемые нейросети и программы
Leonardo.AI: — генерация изображений для обложки
Adobe Color: — генерация цветовой палитры на основе мудборда
Chat GPT: — генерация промпта для обложки — генерация кода определенных типов диаграмм и графиков для последующей модернизации их вручную
Adobe Photoshop: — оформление кода








