Так как я работаю в одной из главных ИИ компании страны страны, мне стало интересно, а как люди относятся к искусственному интеллекту
Люди боятся его? Любят? Или на самом деле они спокойны к разивитию ИИ?
В качестве основы для анализа я взял открытый датасет AI Reddit Dataset на почти 1,5 гб с комментариями и постами с Reddit, в которых упоминается ИИ.
Посты: 366,392 записи Комментарии: 1,033,600 записей Период: январь 2021 — май 2023
Исходные данные представляли собой csv с ячейками: автор, дата, содержимое комментария или поста.
То есть работать можно было с body (сам текст) и date (дата мнения).
Этот датасет также интересен, потому что в его период выходили самые первые крупные релизы и анонсы в сфере ИИ: Stable Diffusion (август 2022), ChatGPT (ноябрь 2022), DALL-E 2 (апрель 2022). Некоторые из них я дальше тоже проанализирую.
Типы графиков
Я использовал следующие типы:
Обычные линейные графики и линейные с пересечением области. Для показа динамики отношения к ИИ по месяцам. Круговые графики в горизонтальном и вертикальных форматах, для наглядного распределения мнений. Столбчатые, для сравнения отношения в постах и комментариях. Сгруппированные столбчатые графики для сравнений сразу двух типа мнений в динамике.
План проекта
- Загрузка датасета с Kaggle
- Подготовка данных (uid для мэтча анализа от Gigachat и Sentiment модели с HF, даты, месяцы)
- HuggingFace Sentiment анализ (20к единиц данных)
- GigaChat API анализ (2к единиц данных)
- Визуализация (через библиотеку matplotlib)
Почему именно такой план?
После консультации с преподавателем я понял, что для хорошего анализа мне нужно прогнать данные через LLM.
Я начал тестировать промпт в Gigachat Playground. Первые результаты мне не понравились. Я сделал промпт более жестким. Но Гига все равно путалась с Sentiment-определением Негатив/Позитив/Нейтрально (далее HF). Она либо определяло все неправильно, путать между собой определения, либо начинала выдумывать свои параметры.
Преподаватель отправил кейс Яндекса с анализом отзывов вокзалов Москвы, и для анализа HF они использовали обученную под эту задачу модель с HuggingFace. Я понял, что они наткнулись на похожую проблему и взял для HF готовую модель.
По итогу: Модель с HF — анализирует по простому принципу негатив, позитив или нейтрально. Gigachat API: определяет 1) как видит ИИ пользователь 2) какие эмоции он испытывает к ИИ
1. Загрузка данных
2. Подготовка данных
Подготвока данных для мэтча между двумя LLM анализами, а также для создания равномерного сэмла по дате. Так как весь объем данных я бы не смог обработать из-за ограничения в виде GPU и токенов.
uid — уникальный идентификатор для мэтча результатов month — для равномерного семплирования по времени
3. HuggingFace Sentiment анализ
4. Анализ по GigaChat API
Батчинг для GigaChat
Стилизация графиков
Токены на создание промпта
Токены на анализ данных
Статистические методы
Стратифицированная выборка: равномерное распределение по месяцам Value counts: подсчёт частот категорий Normalize: приведение к процентам Groupby + aggregation: группировка по месяцам Кросс-табуляция: связь между HF и GigaChat результатами
Форматы
Анализ конкретных чисел и фактов: Распределения sentiment и attitude Поиск паттернов в данных Сравнение submissions и comments
Субъективный анализ: Динамика негатива до/после релизов ИИ-продуктов Связь между страхом и восприятием ИИ как угрозы Ответы на конкретные вопросы об отношении к ИИ
Негатив в комментариях стабильно выше, чем в постах.
Большинство текстов имеют нейтральное отношение. Страх и критика составляют небольшую долю.
В комментариях больше негатива, а в постах преобладает нейтральный тон
Чаще всего люди относятся нейтрально к ИИ. Также популярно восприятие ИИ как инструмента
Те, кто боится ИИ, чаще всего видят его как угрозу человечеству, а не как замену работы
После релиза Stable Diffusion (август 2022) виден рост негатива в комментариях. Возможно, это связано с разговорами о замене художников и дизайнеров. Позитив также присутствует, но его меньше.
67% текстов нейтральные, негатив (22.9%) превышает позитив (10.2%)
Оптимизм преобладает над страхом на протяжении всего периода.
Пики восприятия ИИ как угрозы совпадают с крупными релизами ИИ-продуктов. Например на графике розовой линией отмечен анонс DALL-E 2.
Выводы
Негатив преобладает и растет после релизов крупных ИИ-продуктов.
Комментарии эмоциональнее постов, можно заметить, что в них люди выражают свое мнение сильнее.
Страх это не про замену работы. Люди, которые боятся ИИ чаще воспринимают его как угрозу, а не как замену. Что более критично.
Важно заметить, что зачастую преобладает нейтральный тон. Большинство обсуждений просто информативны.
Оптимизм есть. Вместе на ростом негатива, позитивное отношение растет пропорционально.
Ссылки
Исходный датасет: https://www.kaggle.com/datasets/nikitaanand/ai-reddit
Папка с созданными датасетами и кодом (для повторного анализа нужно будет подгрузить их): https://drive.google.com/drive/folders/1kTqRnxsp0gM6xmWFF08-uT7VhdkJ_HgJ?usp=sharing
GigaChat: https://developers.sber.ru
HuggingFace Sentiment модель: https://huggingface.co/tabularisai/multilingual-sentiment-analysis
При создании проекта пользовался помощью ИИ (Claude Opus 4.5)
Во время создания идеи едином uid, при подключения модели с HF и GigaChat. При анализе позже возникали проблемы с мэтчем датасетов и правильном будущем анализе, в такие моменты тоже пользовался помощью ИИ.
P.S. В целом проект делать мне понравилось, но один раз чуть не сжег 200к токенов, упал бесплатный GPU во время анализа и пришлось делать заново. Но было интересно.



