Отношение людей к искусственному интеллекту на Creative city

Так как я работаю в одной из главных ИИ компании страны страны, мне стало интересно, а как люди относятся к искусственному интеллекту

Люди боятся его? Любят? Или на самом деле они спокойны к разивитию ИИ?

В качестве основы для анализа я взял открытый датасет AI Reddit Dataset на почти 1,5 гб с комментариями и постами с Reddit, в которых упоминается ИИ.

Посты: 366,392 записи Комментарии: 1,033,600 записей Период: январь 2021 — май 2023

Исходные данные представляли собой csv с ячейками: автор, дата, содержимое комментария или поста.

То есть работать можно было с body (сам текст) и date (дата мнения).

Этот датасет также интересен, потому что в его период выходили самые первые крупные релизы и анонсы в сфере ИИ: Stable Diffusion (август 2022), ChatGPT (ноябрь 2022), DALL-E 2 (апрель 2022). Некоторые из них я дальше тоже проанализирую.

Типы графиков

Я использовал следующие типы:

Обычные линейные графики и линейные с пересечением области. Для показа динамики отношения к ИИ по месяцам. Круговые графики в горизонтальном и вертикальных форматах, для наглядного распределения мнений. Столбчатые, для сравнения отношения в постах и комментариях. Сгруппированные столбчатые графики для сравнений сразу двух типа мнений в динамике.

План проекта

Загрузка датасета с Kaggle
Подготовка данных (uid для мэтча анализа от Gigachat и Sentiment модели с HF, даты, месяцы)
HuggingFace Sentiment анализ (20к единиц данных)
GigaChat API анализ (2к единиц данных)
Визуализация (через библиотеку matplotlib)

Почему именно такой план?

После консультации с преподавателем я понял, что для хорошего анализа мне нужно прогнать данные через LLM.

Я начал тестировать промпт в Gigachat Playground. Первые результаты мне не понравились. Я сделал промпт более жестким. Но Гига все равно путалась с Sentiment-определением Негатив/Позитив/Нейтрально (далее HF). Она либо определяло все неправильно, путать между собой определения, либо начинала выдумывать свои параметры.

Преподаватель отправил кейс Яндекса с анализом отзывов вокзалов Москвы, и для анализа HF они использовали обученную под эту задачу модель с HuggingFace. Я понял, что они наткнулись на похожую проблему и взял для HF готовую модель.

По итогу: Модель с HF — анализирует по простому принципу негатив, позитив или нейтрально. Gigachat API: определяет 1) как видит ИИ пользователь 2) какие эмоции он испытывает к ИИ

1. Загрузка данных

Исходный размер 1498x632

2. Подготовка данных

Подготвока данных для мэтча между двумя LLM анализами, а также для создания равномерного сэмла по дате. Так как весь объем данных я бы не смог обработать из-за ограничения в виде GPU и токенов.

uid — уникальный идентификатор для мэтча результатов month — для равномерного семплирования по времени

Исходный размер 1530x968

3. HuggingFace Sentiment анализ

Исходный размер 1244x894

4. Анализ по GigaChat API

Исходный размер 2048x2122

Батчинг для GigaChat

Исходный размер 1480x1006

Стилизация графиков

Исходный размер 1936x2346

Исходный размер 1710x775

Токены на создание промпта

Исходный размер 1710x791

Токены на анализ данных

Статистические методы

Стратифицированная выборка: равномерное распределение по месяцам Value counts: подсчёт частот категорий Normalize: приведение к процентам Groupby + aggregation: группировка по месяцам Кросс-табуляция: связь между HF и GigaChat результатами

Форматы

Анализ конкретных чисел и фактов: Распределения sentiment и attitude Поиск паттернов в данных Сравнение submissions и comments

Субъективный анализ: Динамика негатива до/после релизов ИИ-продуктов Связь между страхом и восприятием ИИ как угрозы Ответы на конкретные вопросы об отношении к ИИ

Негатив в комментариях стабильно выше, чем в постах.

Исходный размер 2618x1297

Большинство текстов имеют нейтральное отношение. Страх и критика составляют небольшую долю.

Исходный размер 1060x1105

В комментариях больше негатива, а в постах преобладает нейтральный тон

Исходный размер 2617x1297

Чаще всего люди относятся нейтрально к ИИ. Также популярно восприятие ИИ как инструмента

Исходный размер 2617x1297

Те, кто боится ИИ, чаще всего видят его как угрозу человечеству, а не как замену работы

Исходный размер 2617x1297

После релиза Stable Diffusion (август 2022) виден рост негатива в комментариях. Возможно, это связано с разговорами о замене художников и дизайнеров. Позитив также присутствует, но его меньше.

Исходный размер 2617x1297

67% текстов нейтральные, негатив (22.9%) превышает позитив (10.2%)

Исходный размер 1363x1108

Оптимизм преобладает над страхом на протяжении всего периода.

Исходный размер 2617x1297

Пики восприятия ИИ как угрозы совпадают с крупными релизами ИИ-продуктов. Например на графике розовой линией отмечен анонс DALL-E 2.

Исходный размер 2617x1297

Выводы

Негатив преобладает и растет после релизов крупных ИИ-продуктов.
Комментарии эмоциональнее постов, можно заметить, что в них люди выражают свое мнение сильнее.
Страх это не про замену работы. Люди, которые боятся ИИ чаще воспринимают его как угрозу, а не как замену. Что более критично.
Важно заметить, что зачастую преобладает нейтральный тон. Большинство обсуждений просто информативны.
Оптимизм есть. Вместе на ростом негатива, позитивное отношение растет пропорционально.

Ссылки

Исходный датасет: https://www.kaggle.com/datasets/nikitaanand/ai-reddit
Папка с созданными датасетами и кодом (для повторного анализа нужно будет подгрузить их): https://drive.google.com/drive/folders/1kTqRnxsp0gM6xmWFF08-uT7VhdkJ_HgJ?usp=sharing
GigaChat: https://developers.sber.ru
HuggingFace Sentiment модель: https://huggingface.co/tabularisai/multilingual-sentiment-analysis

При создании проекта пользовался помощью ИИ (Claude Opus 4.5)

Во время создания идеи едином uid, при подключения модели с HF и GigaChat. При анализе позже возникали проблемы с мэтчем датасетов и правильном будущем анализе, в такие моменты тоже пользовался помощью ИИ.

P.S. В целом проект делать мне понравилось, но один раз чуть не сжег 200к токенов, упал бесплатный GPU во время анализа и пришлось делать заново. Но было интересно.