
Вводная часть
Я интересуюсь Таиландом, культурой этой страны, языком, традициями и многим другим, что связано с этой страной. В том числе, кухней. Поэтому когда я вбила в Kaggle «Таиланд» при поиске баз данных, я выбрала базу данных, которая содержит в себе информацию по блюдам Таиланда: тайское название, ингредиенты, к какому виду относится блюдо (главное блюдо, десерт, салат или снэк), в какой провинции блюдо появилось и к какому району относится.
Я использовала для визуализации столбчатые, сгруппированные столбчатые и круговые диаграммы, а также множественные графики. Они проще всего для визуального восприятия, на мой взгляд. Самые знакомые и понятные.

Тайские блюда. Prompt: an image of a table with national Thai dishes, beautiful hearty dishes, in simple dishes Сделано в Qwen
Этапы работы
Я использовала pandas, Counter, matplotlib и seaborn. Это основные библиотеки Python для анализа данных и визуализации. Pandas загружает и подготавливает данные, Counter помогает анализировать распределения, matplotlib и seaborn визуализируют результаты анализа, seaborn улучшает стандартные графики matplotlib.
Код я писала в Visual Studio Code и потом скопировала его в Google Colab.

Отрывок из кода
Для начала, я изучила базу данных. Я обратила внимание, что очень большой объем информации отмечен в базе данных как «Unknown», а еще есть «Various», что явно усложняет анализ этих данных. Поэтому мной было принято решение убрать из анализа эти пункты и анализировать только то, что конкретно и известно. Возможно, такой анализ будет не таким точным (относительно той информации, которая содержится в этой базе данных), но такой анализ будет красивее и визуализации будут содержать только известную и точную информацию, не вызывающую вопросов.
Пример
В стилизации графиков я не использовала ничего особенного: обычные варианты цветов, которые я нашла на каком-то из сайтов с палитрами для окрашивания графиков. Параметр palette задает цветовую схему ('viridis', 'rocket', 'mako'). Это предустановленные градиентные палитры seaborn. Параметр hue определяет группировку данных для цветового кодирования. В моём коде используется для автоматического окрашивания разных категорий.
Пример окрашивания с помощью «palette»
С помощью визуализаций в виде графиков я хочу проанализировать тайскую кухню: составы блюд и где я могу попробовать их, а также то, что чаще едят сами тайцы.
Итоговые графики
Данные столбчатые диаграммы предоставляют информацию о том, как распределяются блюда по регионам Таиланда. Можно заметить, что здесь есть central (центральный), south (южный), north (северный) и northeast (северо-восточный). Отсутствует запад. Я подозреваю, что этот и остальные территории находятся где-то в скрытых мной Unknown или Various. Большая часть блюд находится в центре — предполагаю, это потому что именно в центральных территориях нынешнего Таиланда еще много лет назад развивалось государство — в древних царствах Сукхотаи и Аюттхайя. И именно оттуда имеют происхождения большая часть блюд. Кроме того, в центре находится столица — Бангкок. Далее по количеству идёт юг. Именно на юге находится второй по величине город Таиланда — Чиангмай. Менее 10 блюд принадлежат к северо-востоку. Возможно это связано с тем, что рядом находится другое государство — Лаос, и на этих территориях может быть влияние этой страны.
Данный круговой график отражает распределение блюд по категориям. Не трудно заметить, что больше всего основных блюд. Это может быть связано с тем, что основные блюда дешевле в производстве, быстрее готовятся, сытные и калорийные, что важно для трудового населения. Меньше всего супов и десертов. Думаю, часть супов могла попасть в статистику как основные блюда, так как многие супы содержат рис и уже могут считаться, как основное блюдо (так как рис считается в Таиланде основой, важной составляющей для всех блюд), а десертов мало, как как традиционно в Таиланде не принято завершать прием пищи десертом.
Удивительно, но среди самых распространённых ингредиентов нет риса. Возможно, в этой базе данных используются только дополнительные ингредиенты, которые делают именно это блюдо уникальным. Самый большой показатель у чеснока (garlic), следом за ним идут травы (herbs), при этом они дублируются еще в самом конце, потому что где-то указаны с большой буквы. Самое популярное мясо — свинина.
На первом месте по количеству блюд Бангкок, столица. Что не удивительно. Мы уже видели по графикам, что больше всего блюд находятся в центре, и Бангкок это именно центр.
Основные блюда есть везде. А вот супы и десерты — только в центре. Northeast (Северо-восток) снова скуден на количество блюд и их разнообращие.
Чеснок больше всего используют в центре. Травы больше всего используют на в центре и чуть меньше на севере, но в сравнении с другими регионами, травы больше всего популярны именно там.
Вывод
Больше всего разнообразных блюд можно попробовать в центре Таиланда, в Бангкоке. Но нужно быть готовым, что множество блюд содержат в себе чеснок. Если нравятся блюда с травами, можно ехать на север. Нужно быть готовым, что выбор будет большой среди основных блюд, но скудный среди десертов. Самое популярное мясо — свинина, это тоже нужно учитывать.
Описание применения генеративной модели
ChatGPT https://chatgpt.com/ Обращения с целью помощи при возникающих ошибках. Также обращалась за помощью в правильной табуляции.
Qwen https://chat.qwen.ai/s/78c48ecb-24d4-4b18-8374-01b8d2fa9a55?fev=0.0.114 / Генерация изображений для проекта