Исходный размер 1140x1600

Биомаркеры в моче для выявления рака поджелудочной железы

PROTECT STATUS: not protected

Введение

Рак поджелудочной железы остаётся одним из самых агрессивных и смертоносных онкологических заболеваний. Пятилетняя выживаемость при поздней диагностике составляет менее 10%, однако при обнаружении на ранних стадиях шансы на успешное лечение значительно выше. Главная проблема — отсутствие ярких симптомов на начальных этапах, из-за чего болезнь часто выявляют слишком поздно.

А теперь представьте: вместо КТ, МРТ и инвазивных процедур — обычный анализ мочи, который за минуты показывает тревожный сигнал. Именно такую возможность исследовали авторы статьи 2020 года, опубликованной в журнале PLOS Medicine. Для проекта я выбрала их открытый датасет с платформы Kaggle.

В датасете — данные о 590 пациентах: возраст, пол, диагноз (здоровые, доброкачественные заболевания, рак поджелудочной железы), стадия рака, уровни биомаркеров в моче (LYVE1, REG1B, TFF1, REG1A, креатинин) и маркер CA19-9 в плазме.

Эта тема мне интересна тем, что она показывает реальный потенциал неинвазивной диагностики — простого и доступного теста, который мог бы радикально изменить прогноз при одном из самых агрессивных видов рака. Я решила превратить сырые медицинские данные в визуальные сигналы и понять, насколько чётко биомаркеры в моче различают рак от нормы и доброкачественных состояний.

Визуализация

Стиль проекта вдохновлён классическими тест-полосками для анализа — теми, что меняют цвет в зависимости от показателей. Я выбрала яркую и понятную палитру:

Ярко-синий (#00BFFF) — норма (здоровые пациенты) Золотисто-жёлтый (#FFD700) — зона внимания (доброкачественные заболевания) Оранжево-красный (#FF4500) — тревога (рак)

Фон графиков светло-серый, как лабораторный стол. Все визуализации выполнены в едином стиле, чтобы создать ощущение диагностического отчёта. Я использовала 9 разных типов графиков: гистограмму, столбчатую диаграмму, боксплоты, линейный график, scatter plot, тепловую карту с кастомной палитрой, столбчатую диаграмму по стадиям и круговую диаграмму. Это позволило сначала исследовать данные (exploratory analysis), а затем объяснить ключевые закономерности (explanatory analysis).

Исходный размер 3840x992

Этапы работы

Загрузка и обработка данных

Работа выполнена в Google Colab с библиотеками pandas, matplotlib, seaborn и numpy. Загрузка датасета и базовая предобработка:

Исходный размер 3840x992
Исходный размер 3840x992

Стилизация графиков

Единый стиль для всех визуализаций:

Исходный размер 3840x992

Для тепловой карты создана кастомная colormap на основе той же палитры.

Итоговые графики

Распределение возраста пациентов (Гистограмма)

Исходный размер 841x547

Большинство пациентов в возрасте 50–70 лет — типичный профиль риска для заболеваний поджелудочной железы.

Исходный размер 3840x992

Распределение по полу и диагнозу (Столбчатая диаграмма)

Исходный размер 850x547

Мужчины и женщины представлены во всех группах, с небольшим преобладанием мужчин в группе рака.

Исходный размер 3840x992

Уровни креатинина по диагнозам (Боксплот)

Исходный размер 846x547

Креатинин относительно стабилен и служит для нормализации других биомаркеров.

Исходный размер 3840x992

Уровни LYVE1 по возрастным группам (Линейный график)

Исходный размер 841x547

LYVE1 повышается с возрастом, особенно резко в группе с раком.

Исходный размер 3840x992

Корреляция REG1B и TFF1 (Scatter plot)

Исходный размер 868x547

Видна сильная положительная связь между двумя ключевыми биомаркерами.

Исходный размер 3840x992

Матрица корреляций биомаркеров (Тепловая карта)

Исходный размер 869x528

Кастомная палитра подчёркивает высокую корреляцию REG1B и REG1A (>0.7).

Исходный размер 3840x1486

Средние уровни CA19-9 по стадиям рака (Столбчатая диаграмма)

Исходный размер 859x547

Классический маркер растёт на поздних стадиях, подтверждая прогрессию.

Исходный размер 3840x992

Доля пациентов по диагнозам (Круговая диаграмма)

Исходный размер 1682x1094

Около 31% пациентов с раком — сбалансированная выборка для анализа.

Исходный размер 3840x992

Сравнение REG1B по происхождению образцов (Группированный боксплот)

Исходный размер 859x547

Уровни биомаркера различаются в зависимости от центра сбора данных (BPTB, LIV, ESP, UCL).

Исходный размер 3840x992

Заключение

Анализ показал, что биомаркеры LYVE1, REG1B и TFF1 значительно повышены у пациентов с раком поджелудочной железы по сравнению со здоровыми и доброкачественными случаями. Сильные корреляции между биомаркерами и рост CA19-9 на поздних стадиях подтверждают их высокую диагностическую ценность. Этот проект стал для меня настоящим «лабораторным экспериментом»: я превратила сырые медицинские данные в понятную визуальную историю. Результаты исследования подчёркивают огромный потенциал простого анализа мочи как инструмента раннего скрининга — доступного, неинвазивного и способного радикально изменить прогноз при одном из самых опасных видов рака.

Описание применения генеративной модели

Perplexity AI (в режиме «лучший») — помощь в исправлении ошибок в коде.

Google Colab — основная среда для загрузки датасета, обработки данных и построения всех графиков.

Биомаркеры в моче для выявления рака поджелудочной железы
Проект создан 17.01.2026
Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше