Введение
Какие данные?
В качестве датасета был выбран набор данных Steam Store Games (Clean Dataset) — один из популярных и широко используемых датасетов, опубликованных на платформе Kaggle.
Хоть датасет содержит записи до 2019, в рамках учёбы, я хочу показать, как я могу работать с данными.
Данный датасет содержит информацию о более чем 27 000 играх, собранную с использованием API Steam и сервиса SteamSpy. Он включает данные из магазина Steam — ведущей платформы цифровой дистрибуции видеоигр — и охватывает большинство игр, выпущенных на платформе.
Почему именно эти данные?
Как будущий разработчик, я планирую активно взаимодействовать с платформой цифровой дистрибуции видеоигр Steam. Выбор данного набора данных обусловлен несколькими ключевыми факторами.
Во-первых, Steam является крупнейшей платформой в своей области, а количество представленных на ней проектов превышает 120 000 единиц. Каждая игра сопровождается большим числом метрик и пользовательских взаимодействий, таких как оценки, обзоры, жанры, ценовая политика и показатели популярности. Это позволяет моделировать реальные задачи игровой индустрии и работать с большими объёмами данных.
Во-вторых, датасет Steam Store Games обладает структурированной и очищенной формой, что делает его удобным для предварительного анализа, визуализации и применения методов машинного обучения. Наличие как числовых, так и категориальных признаков позволяет решать широкий спектр задач, включая анализ факторов успешности игр, кластеризацию проектов по характеристикам, а также построение моделей прогнозирования пользовательского интереса и коммерческого потенциала.
Диграммы: Круговая — визуализирует популярность платформ Treemap — показывает объём жанров на рынке Небоскробы — сравнение популярностей жанров со временем Радиальная путина — показывает преимущества категорий.
Ход работы
- Выбор дата сет и импорт библиотек.

- Для начала я решил какие платформы чаще всего используются.
Для этого я решил создать круговую диаграмму, где указаны платформы и их сочетания, а всё что меньше 3% записано в
Other
В результате была получена диаграмма, представленная ниже. Из неё видно, что подавляющее большинство игр разрабатывается для платформы Windows.
Вместе с тем около трети круговой диаграммы показывает, что игры также выпускаются и для других платформ, таких как macOS и Linux. Платформу macOS стоит учитывать при разработке потенциальной игры.
Linux занимает примерно 1/6 от общего числа игр. Возможно, затраты ресурсов на поддержку данной платформы будут нерентабельны.
- Далее я решил оценить, какие жанры игр являются наиболее популярными, представив объём жанров в Steam в виде диаграммы типа treemap.
Как видно из данной диаграммы, жанры инди, экшен, казуальные игры и приключения занимают более половины общего объёма игрового рынка.
Жанры стратегии, симуляторы и RPG целесообразно рассматривать как дополнительные к основным, но не в качестве ключевых направлений.
Остальные жанры можно отнести к категории высокорисковых.
- Дальше я решил оценить развитие 5 крупных жанров со временем.
Как было указано во введении, датасет охватывает 2019 год. Однако по графику видно, что данные за данный период собраны не за весь год, а примерно за его половину.
Несмотря на это, в данных прослеживается определённая динамика. Наблюдается бурный рост инди-игр, а также незначительный рост казуальных проектов. Такие жанры, как экшен и приключения, хотя и продолжают расти, постепенно начинают уступать позиции.
В перспективе предполагаемый проект целесообразно разрабатывать либо в жанре инди, поскольку он демонстрирует наибольшую популярность, либо в жанрах экшен или приключения, с учётом того, что в будущем уровень конкуренции в них может снизиться.
- Для потенциальной игры последнее, что стоит учитывать из базы данных — категорию.
Из диаграммы следует, что в подавляющем числе игр, главной категории является single-player.
Так же можно отметить steam achievements, они тоже занимают существенную долю.
Остальные категории ничтожны малы.
Заключение
В ходе исследования и анализа данных было выявлено, что потенциальную игру целесообразно разрабатывать в жанре инди с категориями single-player и Steam Achievements, ориентируясь на платформу Windows, а при наличии ресурсов — также на macOS.
Полученные результаты могут быть полезны для оценки рисков, анализа рынка и прогнозирования экономической выгоды проекта. Кроме того, для меня как для будущего разработчика данное исследование является эффективным инструментом для обоснования и продвижения игровой идеи перед инвесторами.
Нейросети
Chatgpt Текст я писал сам, но для проверки ошибок использовал нейросеть. Также я накидывал текст, а gpt структурировал его.
Для анализа и исправления ошибок кода, так же использовал chatgpt.
Примеры промптов: «Исправь ошибку в тексте» «Вот мне нужно чтобы в коде всё что меньше 3%, было other [код]» «Мой код берёт из базы данных категории среди жанра инди за весь период, мне нужно только за 2019»
Также эту же нейросеть я использовал для создания обложки.
«Сгенерируй картинку про распродажу видеоигр 1140×1600 пикслей»



