Введение
Рак поджелудочной железы остаётся одним из самых агрессивных и смертоносных онкологических заболеваний. Пятилетняя выживаемость при поздней диагностике составляет менее 10%, однако при обнаружении на ранних стадиях шансы на успешное лечение значительно выше. Главная проблема — отсутствие ярких симптомов на начальных этапах, из-за чего болезнь часто выявляют слишком поздно.
А теперь представьте: вместо КТ, МРТ и инвазивных процедур — обычный анализ мочи, который за минуты показывает тревожный сигнал. Именно такую возможность исследовали авторы статьи 2020 года, опубликованной в журнале PLOS Medicine. Для проекта я выбрала их открытый датасет с платформы Kaggle.
В датасете — данные о 590 пациентах: возраст, пол, диагноз (здоровые, доброкачественные заболевания, рак поджелудочной железы), стадия рака, уровни биомаркеров в моче (LYVE1, REG1B, TFF1, REG1A, креатинин) и маркер CA19-9 в плазме.
Эта тема мне интересна тем, что она показывает реальный потенциал неинвазивной диагностики — простого и доступного теста, который мог бы радикально изменить прогноз при одном из самых агрессивных видов рака. Я решила превратить сырые медицинские данные в визуальные сигналы и понять, насколько чётко биомаркеры в моче различают рак от нормы и доброкачественных состояний.
Визуализация
Стиль проекта вдохновлён классическими тест-полосками для анализа — теми, что меняют цвет в зависимости от показателей. Я выбрала яркую и понятную палитру:
Ярко-синий (#00BFFF) — норма (здоровые пациенты) Золотисто-жёлтый (#FFD700) — зона внимания (доброкачественные заболевания) Оранжево-красный (#FF4500) — тревога (рак)
Фон графиков светло-серый, как лабораторный стол. Все визуализации выполнены в едином стиле, чтобы создать ощущение диагностического отчёта. Я использовала 9 разных типов графиков: гистограмму, столбчатую диаграмму, боксплоты, линейный график, scatter plot, тепловую карту с кастомной палитрой, столбчатую диаграмму по стадиям и круговую диаграмму. Это позволило сначала исследовать данные (exploratory analysis), а затем объяснить ключевые закономерности (explanatory analysis).
Этапы работы
Загрузка и обработка данных
Работа выполнена в Google Colab с библиотеками pandas, matplotlib, seaborn и numpy. Загрузка датасета и базовая предобработка:
Стилизация графиков
Единый стиль для всех визуализаций:
Для тепловой карты создана кастомная colormap на основе той же палитры.
Итоговые графики
Распределение возраста пациентов (Гистограмма)
Большинство пациентов в возрасте 50–70 лет — типичный профиль риска для заболеваний поджелудочной железы.
Распределение по полу и диагнозу (Столбчатая диаграмма)
Мужчины и женщины представлены во всех группах, с небольшим преобладанием мужчин в группе рака.
Уровни креатинина по диагнозам (Боксплот)
Креатинин относительно стабилен и служит для нормализации других биомаркеров.
Уровни LYVE1 по возрастным группам (Линейный график)
LYVE1 повышается с возрастом, особенно резко в группе с раком.
Корреляция REG1B и TFF1 (Scatter plot)
Видна сильная положительная связь между двумя ключевыми биомаркерами.
Матрица корреляций биомаркеров (Тепловая карта)
Кастомная палитра подчёркивает высокую корреляцию REG1B и REG1A (>0.7).
Средние уровни CA19-9 по стадиям рака (Столбчатая диаграмма)
Классический маркер растёт на поздних стадиях, подтверждая прогрессию.
Доля пациентов по диагнозам (Круговая диаграмма)
Около 31% пациентов с раком — сбалансированная выборка для анализа.
Сравнение REG1B по происхождению образцов (Группированный боксплот)
Уровни биомаркера различаются в зависимости от центра сбора данных (BPTB, LIV, ESP, UCL).
Заключение
Анализ показал, что биомаркеры LYVE1, REG1B и TFF1 значительно повышены у пациентов с раком поджелудочной железы по сравнению со здоровыми и доброкачественными случаями. Сильные корреляции между биомаркерами и рост CA19-9 на поздних стадиях подтверждают их высокую диагностическую ценность. Этот проект стал для меня настоящим «лабораторным экспериментом»: я превратила сырые медицинские данные в понятную визуальную историю. Результаты исследования подчёркивают огромный потенциал простого анализа мочи как инструмента раннего скрининга — доступного, неинвазивного и способного радикально изменить прогноз при одном из самых опасных видов рака.
Описание применения генеративной модели
Perplexity AI (в режиме «лучший») — помощь в исправлении ошибок в коде.
Google Colab — основная среда для загрузки датасета, обработки данных и построения всех графиков.



