«Соврать о себе в соцсетях не получится». Дискуссия о Big Data

«Сноб» организовал встречу участников проекта с экспертами в области анализа больших данных — вместе они обсудили влияние Big Data на политическую жизнь страны и частную жизнь человека и выяснили, как именно нас анализируют, используя открытые данные, которые мы сами оставляем в соцсетях, и что потом с этими данными происходит

+T -
Поделиться:

Участники дискуссии:

Владимир Филиппов — заместитель руководителя Департамента культуры Москвы

Валерий Федоров — генеральный директор ВЦИОМ

Артур Хачуян — генеральный директор SocialDataHub, сервиса социальной медиааналитики и сбора открытых данных

Валерий Кашин — сооснователь компании Auditorius, занимающейся анализом данных и аукционных торгов на рекламном рынке

Майя Стравинская — эксперт в области журналистики данных, куратор дата-группы JSKT

Ведущий дискуссии — писатель и журналист Дмитрий Глуховский

Дмитрий Глуховский: До того как появилась возможность измерять с помощью современных технологий разные показатели, связанные с поведением людей, социологи были вынуждены опираться на опросы небольших групп. Было неизвестно, говорят ли опрашиваемые правду, поэтому в таких данных всегда была определенная погрешность. Когда люди говорят что-либо о себе, это не дает нам полной картины их поведения и предпочтений. Big Data анализирует поведение людей в соцсетях, их покупки, сделанные с помощью кредитных карт, и отслеживает перемещение людей с помощью геотаргетинга в смартфонах. Существует возможность собирать даже данные об их состоянии здоровья и анализировать (правда, это пока реалии США), как соотносятся между собой возраст, национальность и благосостояние человека с его политическим выбором. Это открывает огромные возможности: государство может повысить эффективность услуг, предоставляемых населению, обнаружить риски, связанные со здоровьем людей, предотвратить надувание финансовых пузырей и тем самым способствовать развитию экономической стабильности. Конечно, государство может использовать анализ больших данных и для завинчивания гаек, усиления контроля и подавления протестной активности. Внедрение Big Data так же сильно изменит наше общество, как появление письменности, грамотности и интернета. 

Мне хотелось бы обсудить с нашими экспертами, как эти данные собираются, что с ними потом делают и насколько хорошо люди понимают, что они всюду оставляют свои следы, просто пользуясь благами современной цивилизации — смартфонами, кредитными картами, браузерами и соцсетями, — и становятся объектом как изучения, так и манипуляции.

Чтобы сразу не скатываться в паранойю, хотелось бы сперва поговорить о том, что хорошего государство может привнести в нашу жизнь, пользуясь анализом больших данных.

Валерий Федоров: Big Data бросают социологам вызов: благодаря им монополия опросных служб на право интерпретировать мнение народа закончится. Сейчас специалисты по сбору больших данных приходят к нам, как бедные родственники, и просят объяснить, что им с этими данными делать. Мы молчим, бубним, они устают ждать от нас помощи и создают собственные лаборатории.

Дмитрий Глуховский: Насколько факты, полученные анализом Big Data, точнее тех, что дает традиционная социология?

Валерий Федоров: Эксперты по Big Data не говорят, слава богу, о том, что мы вводим народ в заблуждение, но мы сами понимаем, что в некоторых отношениях Big Data точнее. Для того чтобы узнать что-то о людях, нам нужно войти с ними в контакт. Чаще всего контакт социологов с человеком побуждает его вести себя иначе, чем в жизни. Например, на вопрос «Какое радио вы слушали сегодня?» он ответит, назвав две-три радиостанции. Об остальных он забудет. Что-то выдумает. Скажем, не всем легко признаться, что они слушают «Милицейскую волну». Некоторые опрашиваемые будут называть радио «Культура» или «Орфей», потому что это престижно. Мы знаем, что женщины часто занижают свой возраст, когда участвуют в соцопросах: никакой осознанной цели у них нет, но есть некий социальный стандарт, которому они следуют. Социолог, задавая вопросы, тем самым наводит респондента на тот или иной ответ — например, когда предлагает выбрать один из вариантов ответа.

Чем привлекает Big Data? Тем, что в данных, полученных, скажем, от сотовых операторов, вот эта «грязь» — элемент наводки — отсутствует. Социологи страшно рады, что появилась возможность анализировать большие данные, но мы боимся, что нам не найдется места в этой сияющей новой реальности. Для нас основная проблема, связанная с Big Data, — они нерепрезентативны, и сколько мы ни бьемся над этим, пока не можем понять, как это поменять. 

Дмитрий Глуховский: Теперь я бы хотел обратиться к Владимиру Филиппову. Как Департамент культуры может применять Big Data?

Владимир Филиппов: Мы пока в основном опираемся на социологические методы, потому что для оптимизации работы маленьких московских музеев анализ больших данных не нужен — зато нужен для планирования новых автобусных маршрутов. Возможно, в течение этого разговора и станет ясно, как применять большие данные в культурной политике города. Потому что Москва сегодня, будучи самым большим городом Европы, по уровню потребления культурного контента отстает от других мегаполисов. Хотя по количеству культурных институций, финансируемых государством, мы лидируем. Москвичи хотят быть причастными к «правильным» культурным практикам, ходят в парки…

Дмитрий Глуховский: Вы снимаете данные мобильного биллинга, чтобы понять, сколько людей ходят в парки? 

Владимир Филиппов: Смотрим количество чекинов в инстаграме и фейсбуке, хотя, конечно, это не очень репрезентативные данные.

Дмитрий Глуховский: В мире, где нет прозрачности, люди вольны себя представлять кем хотят: еврей — русским, гомосексуал — гетеросексуалом, либералы — патриотами, и так далее. Но в мире, где за тобой ведется слежка, ты не можешь притворяться частью большинства, фактически являясь меньшинством. Вопрос в том, насколько наше поведение изменит осознание того, что мы не можем больше притворяться. Думаю, грядет смена этики.

Артур Хачуян: В мире с повсеместно развивающимся интернетом вещей телефон человека может за ним шпионить, а его машина будет ограничивать скорость движения там, где это требуется правилами. Когда люди в полной мере осознают, что они находятся под колпаком, где любой их жест и помысел может быть выяснен, общество станет честнее. Пользователи соцсетей все меньше пытаются что-то скрывать: за последний год количество закрытых аккаунтов в фейсбуке и VK снизилось на 8%. В 2015 году каждый восьмой пользователь соцсетей лайкал порно, а в 2016-м — каждый шестой.

Дмитрий Глуховский: Какие конкретно данные ваша компания может собирать?

Артур Хачуян: Данные, которые человек оставляет в открытых источниках. Состав семьи, возраст, сексуальную ориентацию, примерную зарплату. История лайков людей в соцсетях — это тоже Big Data. Мой любимый кейс — поиск уклонистов от армии. Вот, получает человек повестку, удаляет свой аккаунт в социальных сетях и уезжает в другой город. Там он попадает на вечеринку, где его фотографируют друзья и выкладывают его фото в интернете. Мы по этой фотографии устанавливаем личность, по фону фотографии определяем, какой это ночной клуб.

Валерий Кашин: Мы анализируем историю посещения людьми разных сайтов Рунета. Информацию об этом можно купить у ряда крупных сайтов, например, «Авито» продает. Профиль одного пользователя будет стоить меньше копейки. Продавец может сегментировать профили по интересам, например, указать на то, что люди продают и покупают. Официально эти данные обезличены, однако продавцы могут нелегально привязать профиль пользователя к его соцсети, к его устройству. В России действует закон о защите персональных данных, но мы несколько месяцев были в контакте с одним из операторов сотовой связи с целью придумать юридический метод обхода конституции и сделать так, чтобы извлечение данных о пользователе не было незаконным. Нам удалось это сделать. Российское законодательство в этой сфере сильно отстает от европейского. Если вы заходили на европейские сайты, то помните, что там всплывает уведомление: «Мы хотим записать о вас такие-то данные. Согласны ли вы на это?» В России такого нет — у нас сейчас царит анархизм и полная доступность данных. Наверняка многие слышали историю о том, как с помощью рекламы в интернете агентства способствовали победе Трампа на выборах. 

Дмитрий Глуховский: Это пример того, как при относительно небольшом бюджете (по сравнению со штабом Хиллари Клинтон) люди, отвечавшие за предвыборную кампанию Трампа, смогли добиться успеха. Пара слов о президентских выборах в США, если вы не в курсе: там применялся метод автоматического профилирования людей и микротаргетинга. Каждому небольшому сегменту аудитории показывали определенный контент, подходящий под запросы этой группы, — не было усредненного, размазанного послания. Людям говорили только о тех вещах, использовали ту часть лозунгов Трампа, которые были для них важны и вызывали эмоциональный отклик. Тому, кого волновали мексиканцы, продвигали тему мексиканцев, тому, кого интересовали налоги, рассказывали о налоговой политике, и так далее. Таким образом, не пытаясь переубедить колеблющихся, политтехнологи мобилизовали тот электорат, который мог проголосовать за Трампа. Люди, которые были вот так подзаведены эмоционально, в итоге дошли до избирательных участков и проголосовали за кого надо. Демократы использовали более конвенциональные способы продвижения своего кандидата, покупали ТВ-рекламу и были уверены в своей победе. Интересно, может ли все это работать в наших реалиях? Объясняется ли большая статистика просмотров фильма «Он вам не Димон» тем, что ФБК применил метод микротаргетинга? 

Артур Хачуян: У нас такое еще не скоро будет. При всей моей нелюбви к Навальному могу сказать, что ролик ФБК набрал просмотры честно. Ролик был вирусный: не было многих точек распространения контента, которые бы свидетельствовали о вбросе, «засеве». Что касается микротаргетинга в России: в принципе нам ничто не мешает его применять, но мне кажется, что никто этого делать не будет. Почему? Да потому, что результат выборов в нашей стране уже сейчас известен.

Дмитрий Глуховский: Кремль не будет использовать эту технологию, а оппозиция?

Артур Хачуян: Не знаю. Я бы на их месте не тратил деньги впустую, потому что результат предопределен.

Валерий Федоров: А я уверен, что микротаргетинг будет использоваться. Пускай имя победителя уже известно — все равно ничего пока нельзя сказать о демографии, количестве и качестве аудитории, которая его изберет. Если за него проголосует село и Кавказ — понятно, как ему будет работаться ближайшие шесть лет. Если же за него проголосуют в мегаполисах, в молодежной среде, в среде интеллигенции — это будет победа совсем другого качества.

Дмитрий Глуховский: Сегодня либеральная пресса с уклоном в демшизу в связи со столетним юбилеем известных событий пытается выяснить всевозможные революционные сценарии и заодно рассуждает о том, насколько внезапными могут быть социальные изменения. Можно ли применить Big Data для того, чтобы спрогнозировать ситуацию вроде той, что была 26 мая, когда внезапно очень много людей вышли на улицы?

Артур Хачуян: Мы сейчас занимаемся распознаванием лиц людей, которые были на митинге, и строим графики взаимодействия этих людей между собой. Данные собираем по хештегам и геолокациям снимков. Мы увидели, что посетители митинга довольно четко поделены на несколько групп: есть оппозиционеры, есть ватники, есть аполитичные обыватели, которые просто смотрят мемасики в паблике МДК, есть школьники. Школьников объективно мало, далеко не 50% участников митингов 26 мая. Какую-то цифру, конечно, можно будет прикинуть на будущее, но зачем?

Дмитрий Глуховский: Чтобы понять, сколько омоновцев в следующий раз выводить на площадь. 

Валерий Федоров: Накануне события мы говорили с одним консультантом, который сказал, что во многих пабликах идет активная агитация. По его прогнозам, должно было выйти 8 тысяч человек. И эта цифра была близка к реальности.

В США много кто прогнозировал победу Трампа. Есть примеры социологов, результаты опросов которых предсказывали победу Трампа, есть прогнозисты, которые ужасались от собственной аналитики и, рискуя собственной репутацией, заявляли, что ряд факторов делает очевидной победу Трампа. Одним словом, прогнозировать выборы все-таки научились, поэтому скоро, я думаю, мы с помощью анализа больших данных научимся прогнозировать количество людей, которые выйдут на улицы. Но вот революцию, если она произойдет, мы предсказать не сможем. Потому что революция — это скачок в сторону от намеченного вектора развития. 

Дмитрий Глуховский: Вопрос к Валерию Кашину. Большими данными могут интересоваться не только власти, но и предприниматели. Как анализ большого массива данных может способствовать развитию бизнеса? 

Валерий Кашин: В развитии известных брендов можно заметить одну общую тенденцию: все они сейчас стремятся быть более персональными, их коммуникация с людьми становится более адресной. Для достижения этого применяют разные приемы: от ставших традиционными карт лояльности до покупки данных о том, что потребитель делает в интернете, какие он любит цвета, у каких конкурентов покупает, какой у него уровень дохода. Это позволяет компании сделать коммуникацию с потребителем более эффективной и модифицировать продукт под нужды покупателей. 

Дмитрий Глуховский: А если говорить не про Adidas и водку «Журавли», а про мелкий и средний бизнес — про владельцев маленького ресторана, например?

Валерий Кашин: Небольшие компании используют как минимум контекстную рекламу, в основе которой лежит анализ больших данных. Владелец ресторана может купить рекламу, которая будет показываться в радиусе 500 метров от его заведения людям с определенным уровнем дохода. Грубо говоря, идет человек где-то здесь, по Патриаршим, полез за чем-то в телефон и увидел рекламу.

Дмитрий Глуховский: Вопрос залу. Поднимите руки те из присутствующих, кто не против того, чтобы собирали ваши данные, связанные с кредитными картами, отслеживали перемещение по смартфону (руки поднимает большинство сидящих). А теперь — кто не против того, чтобы это дальше перепродавалось (снова большинство).

Артур Хачуян: Я заметил, что сначала человек кликает на таргетированную рекламу и не чувствует дискомфорта, но когда компании, занимающиеся подборкой контента на основе обработки данных о пользователях, знают о человеке слишком много, его начинает это пугать. У меня была мечта нащупать эту грань — например, поработать с каким-нибудь секс-шопом: вот человек авторизуется в онлайн-магазине, используя свои соцсети, и ему показывается выборка товаров, составленная на основе его предпочтений в интернете. У меня есть один знакомый, с которым мы провели такой опыт. Знаете, насколько вырос уровень вовлеченности людей в покупки на его сайте? Нинасколько. Потому что после того, как человек проходил авторизацию на сайте с помощью своего аккаунта в соцсетях и видел сообщение: «Привет, Марина, рекомендуем тебе купить вот это и вот это, потому что ты лайкала такие-то вещи», человек с ужасом закрывал сайт, уходил и не возвращался. Хотя информация, которую получил от него сайт, находится в открытом доступе, просто не все это осознают. Когда люди ставят лайк какому-то контенту, они думают, что эта информация никогда не всплывет, — как бы не так, все уже посчитано.

Редакция благодарит ресторан Saxon + Parole за помощь в организации мероприятия и создание прекрасной атмосферы во время нашей дискуссии.