
Выбор данных
Для анализа были выбраны данные о доходах бюджета Московской области. Эти данные включают информацию о доходах от налогов, трансфертов и других источников.
Информация взята с (этой страницы) / текст кликабельный
Причины анализа
Эти данные представляют собой важную информацию для анализа финансовых процессов региона. Изучение доходов бюджета позволяет понять финансовое состояние Московской области, оценить эффективность налоговой политики и распределение средств на различные проекты и программы.
Мне было интересно проанализировать именно эти данные, так как они напрямую влияют на развитие региона и качество жизни его жителей.

Основной тип визуализации данных
Тип визуализации
Для анализа данных о доходах бюджета был выбран граф в виде дерева (или иерархической структуры). Этот тип графа подходит для отображения вклада в общий доход каждого отдельного источника.
Помимо этого, в качестве дополнительных типов визуализации были выбраны такие типы как: столбцевой, круговой и рассеяния. Благодаря ним данные можно представить в более привычном для восприятия виде
1. Загрузка и подготовка данных
Этот блок импортирует необходимые библиотеки: - numpy: для работы с массивами и математическими операциями. - pandas: для чтения и обработки данных в таблицах (DataFrame). - matplotlib.pyplot: для построения графиков и диаграмм. - pyvis.network: для создания интерактивных графов с помощью библиотеки PyVis.
2. Узловая диаграмма
- Функция читает данные из CSV файла. - Преобразует столбец RevenueVolumeActual в числовой формат и заменяет все ошибки на нули.
- Создается граф с использованием библиотеки PyVis. - Параметры графа включают фоновый цвет, размеры и направленность (граф не направленный). - Для каждого администратора (кроме строки с «Доходы, всего») добавляется узел в граф. - Размер узла зависит от фактического дохода. - Цвет узла зависит от величины дохода (зеленый для положительных значений, красный для нулевых).
- Добавляется узел для общего дохода по всем администраторам для каждой даты. - Этот узел будет соединять все другие узлы, относящиеся к этой дате. - Для каждого администратора, у которого дата совпадает с общей, создается ребро между ним и узлом «Доходы, всего».


Как выглядит узловая диаграмма
3. Горизонтальная столбчатая диаграмма
- Функция загружает данные и очищает столбец RevenueVolumeActual, преобразуя его в числовой формат. - Оставляются только те строки, где доход больше или равен 1.0. - Строки с «Доходы, всего» удаляются.
- Строится горизонтальная столбчатая диаграмма, где по оси Y отображаются администраторы, а по оси X — их фактические доходы. - Настройка внешнего вида графика: цвет фона, шкала оси X (логарифмическая), оформление подписей и заголовков.
Отображение горизонтальной столбчатой диаграммы
4. Круговая диаграмма
- Эта функция фильтрует данные, оставляя только те строки, где доход превышает заданный порог threshold. - Аналогично предыдущей функции, удаляются лишние слова и обрезаются длинные названия администраторов. - Строки с доходом ниже порога группируются в одну категорию «Другие». - Создается новый DataFrame для графика, включая данные для «Других».
- Строится круговая диаграмма для распределения доходов между администраторами, включая категорию «Другие».
Отображение круговой диаграммы
5. График рассеяния
- Преобразует столбцы RevenueVolumeActual и RevenueVolumePlanned в числовой формат и заменяет ошибки на нули. - Отбираются только строки, где как фактический, так и планируемый объем дохода больше или равен 0.01. - Убираются дубликаты по администратору (сохраняется последняя строка). - Исключаются строки с «Доходы, всего».
- Строится график рассеяния, где ось X отображает планируемый доход, а ось Y — фактический. - Выбираются 5 точек с наибольшим фактическим доходом. - Обе оси (X и Y) переводятся в логарифмическую шкалу, чтобы лучше визуализировать данные с большими различиями между значениями. - Устанавливаются цвета фона для осей (основной и графика), заголовок и подписи для осей.
Как выглядит график рассеяния