Исходный размер 1140x1600

Визуализация данных дохода бюджета Московской области

Выбор данных

Для анализа были выбраны данные о доходах бюджета Московской области. Эти данные включают информацию о доходах от налогов, трансфертов и других источников.

Информация взята с (этой страницы) / текст кликабельный

Причины анализа

Эти данные представляют собой важную информацию для анализа финансовых процессов региона. Изучение доходов бюджета позволяет понять финансовое состояние Московской области, оценить эффективность налоговой политики и распределение средств на различные проекты и программы.

Мне было интересно проанализировать именно эти данные, так как они напрямую влияют на развитие региона и качество жизни его жителей.

big
Исходный размер 1280x1019

Основной тип визуализации данных

Тип визуализации

Для анализа данных о доходах бюджета был выбран граф в виде дерева (или иерархической структуры). Этот тип графа подходит для отображения вклада в общий доход каждого отдельного источника.

Помимо этого, в качестве дополнительных типов визуализации были выбраны такие типы как: столбцевой, круговой и рассеяния. Благодаря ним данные можно представить в более привычном для восприятия виде

1. Загрузка и подготовка данных

Исходный размер 534x226

Этот блок импортирует необходимые библиотеки: — numpy: для работы с массивами и математическими операциями. — pandas: для чтения и обработки данных в таблицах (DataFrame). — matplotlib.pyplot: для построения графиков и диаграмм. — pyvis.network: для создания интерактивных графов с помощью библиотеки PyVis.

2. Узловая диаграмма

— Функция читает данные из CSV файла. — Преобразует столбец RevenueVolumeActual в числовой формат и заменяет все ошибки на нули.

Исходный размер 1286x466

— Создается граф с использованием библиотеки PyVis. — Параметры графа включают фоновый цвет, размеры и направленность (граф не направленный). — Для каждого администратора (кроме строки с «Доходы, всего») добавляется узел в граф. — Размер узла зависит от фактического дохода. — Цвет узла зависит от величины дохода (зеленый для положительных значений, красный для нулевых).

Исходный размер 1084x388

— Добавляется узел для общего дохода по всем администраторам для каждой даты. — Этот узел будет соединять все другие узлы, относящиеся к этой дате. — Для каждого администратора, у которого дата совпадает с общей, создается ребро между ним и узлом «Доходы, всего».

Как выглядит узловая диаграмма

3. Горизонтальная столбчатая диаграмма

Исходный размер 982x278

— Функция загружает данные и очищает столбец RevenueVolumeActual, преобразуя его в числовой формат. — Оставляются только те строки, где доход больше или равен 1.0. — Строки с «Доходы, всего» удаляются.

Исходный размер 1154x478

— Строится горизонтальная столбчатая диаграмма, где по оси Y отображаются администраторы, а по оси X — их фактические доходы. — Настройка внешнего вида графика: цвет фона, шкала оси X (логарифмическая), оформление подписей и заголовков.

Исходный размер 1280x768

Отображение горизонтальной столбчатой диаграммы

4. Круговая диаграмма

Исходный размер 2160x532

— Эта функция фильтрует данные, оставляя только те строки, где доход превышает заданный порог threshold. — Аналогично предыдущей функции, удаляются лишние слова и обрезаются длинные названия администраторов. — Строки с доходом ниже порога группируются в одну категорию «Другие». — Создается новый DataFrame для графика, включая данные для «Других».

Исходный размер 1116x248

— Строится круговая диаграмма для распределения доходов между администраторами, включая категорию «Другие».

Исходный размер 1280x1280

Отображение круговой диаграммы

5. График рассеяния

Исходный размер 1774x250

— Преобразует столбцы RevenueVolumeActual и RevenueVolumePlanned в числовой формат и заменяет ошибки на нули. — Отбираются только строки, где как фактический, так и планируемый объем дохода больше или равен 0.01. — Убираются дубликаты по администратору (сохраняется последняя строка). — Исключаются строки с «Доходы, всего».

Исходный размер 1102x748

— Строится график рассеяния, где ось X отображает планируемый доход, а ось Y — фактический. — Выбираются 5 точек с наибольшим фактическим доходом. — Обе оси (X и Y) переводятся в логарифмическую шкалу, чтобы лучше визуализировать данные с большими различиями между значениями. — Устанавливаются цвета фона для осей (основной и графика), заголовок и подписи для осей.

Исходный размер 1280x960

Как выглядит график рассеяния

Папка с файлами

Визуализация данных дохода бюджета Московской области
Проект создан 29.01.2025
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше