Выбор данных
Для анализа были выбраны данные о доходах бюджета Московской области. Эти данные включают информацию о доходах от налогов, трансфертов и других источников.
Информация взята с (этой страницы) / текст кликабельный
Причины анализа
Эти данные представляют собой важную информацию для анализа финансовых процессов региона. Изучение доходов бюджета позволяет понять финансовое состояние Московской области, оценить эффективность налоговой политики и распределение средств на различные проекты и программы.
Мне было интересно проанализировать именно эти данные, так как они напрямую влияют на развитие региона и качество жизни его жителей.

Основной тип визуализации данных
Тип визуализации
Для анализа данных о доходах бюджета был выбран граф в виде дерева (или иерархической структуры). Этот тип графа подходит для отображения вклада в общий доход каждого отдельного источника.
Помимо этого, в качестве дополнительных типов визуализации были выбраны такие типы как: столбцевой, круговой и рассеяния. Благодаря ним данные можно представить в более привычном для восприятия виде
1. Загрузка и подготовка данных
Этот блок импортирует необходимые библиотеки: — numpy: для работы с массивами и математическими операциями. — pandas: для чтения и обработки данных в таблицах (DataFrame). — matplotlib.pyplot: для построения графиков и диаграмм. — pyvis.network: для создания интерактивных графов с помощью библиотеки PyVis.
2. Узловая диаграмма
— Функция читает данные из CSV файла. — Преобразует столбец RevenueVolumeActual в числовой формат и заменяет все ошибки на нули.
— Создается граф с использованием библиотеки PyVis. — Параметры графа включают фоновый цвет, размеры и направленность (граф не направленный). — Для каждого администратора (кроме строки с «Доходы, всего») добавляется узел в граф. — Размер узла зависит от фактического дохода. — Цвет узла зависит от величины дохода (зеленый для положительных значений, красный для нулевых).
— Добавляется узел для общего дохода по всем администраторам для каждой даты. — Этот узел будет соединять все другие узлы, относящиеся к этой дате. — Для каждого администратора, у которого дата совпадает с общей, создается ребро между ним и узлом «Доходы, всего».


Как выглядит узловая диаграмма
3. Горизонтальная столбчатая диаграмма
— Функция загружает данные и очищает столбец RevenueVolumeActual, преобразуя его в числовой формат. — Оставляются только те строки, где доход больше или равен 1.0. — Строки с «Доходы, всего» удаляются.
— Строится горизонтальная столбчатая диаграмма, где по оси Y отображаются администраторы, а по оси X — их фактические доходы. — Настройка внешнего вида графика: цвет фона, шкала оси X (логарифмическая), оформление подписей и заголовков.
Отображение горизонтальной столбчатой диаграммы
4. Круговая диаграмма
— Эта функция фильтрует данные, оставляя только те строки, где доход превышает заданный порог threshold. — Аналогично предыдущей функции, удаляются лишние слова и обрезаются длинные названия администраторов. — Строки с доходом ниже порога группируются в одну категорию «Другие». — Создается новый DataFrame для графика, включая данные для «Других».
— Строится круговая диаграмма для распределения доходов между администраторами, включая категорию «Другие».
Отображение круговой диаграммы
5. График рассеяния
— Преобразует столбцы RevenueVolumeActual и RevenueVolumePlanned в числовой формат и заменяет ошибки на нули. — Отбираются только строки, где как фактический, так и планируемый объем дохода больше или равен 0.01. — Убираются дубликаты по администратору (сохраняется последняя строка). — Исключаются строки с «Доходы, всего».
— Строится график рассеяния, где ось X отображает планируемый доход, а ось Y — фактический. — Выбираются 5 точек с наибольшим фактическим доходом. — Обе оси (X и Y) переводятся в логарифмическую шкалу, чтобы лучше визуализировать данные с большими различиями между значениями. — Устанавливаются цвета фона для осей (основной и графика), заголовок и подписи для осей.
Как выглядит график рассеяния




