Data Mining: виртуальный Шерлок нашего времени

В России06 июля
комментарии
Андрей Сатин
Фото: Андрей Сатин
«COO ADSG.PRO»

Посредством интеллектуального анализа данных, или, иначе говоря, датамайнинга (англ. data mining — «добыча, вскрытие данных»), можно не только найти личную информацию о пользователях, но и эксплуатировать ее в маркетинговых целях, что продвинутые компании уже давно и делают. О том, как собрать информацию о человеке в Интернете, зная лишь номер его мобильника и e-mail, безопасно ли хранить свою личную информацию в социальных сетях и как это может быть использовано для персонализированной рекламы, рассказывает Андрей Сатин, COO ADSG.PRO.

— Андрей, поясните, пожалуйста, что такое датамайнинг и как это работает в социальных сетях?

— Data Mining в социальных сетях позволяет собирать огромный объем узко персонализированной информации — когда мы узнаем о людях то, чего порой они и сами о себе не знают.

Ведькак найти информацию о человеке в Интернете?Начнем с самого тривиального. Чем в данный момент является сотовый телефон: это и мобильный платежный терминал, и ID в социальных сетях, и средство паролирования в банке, и непосредственный выход на самого человека. А большинство пользователей социальных сетей держат в открытом доступе прямые номера своих личных телефонов. Вы даже представить себе не можете, какое количество информации можно выяснить, зная лишь е-мейл и номер мобильного телефона. Например, для того чтобы зарегистрироваться на сайтах типа «Госуслуги», нужно ввести адрес электронной почты, а затем номер телефона, на который вам придет SMS с кодом подтверждения. Соответственно, зная эту связку, можно вычислить сайты, на которых человек зарегистрирован. 

— То есть компании, использующие технологии Data Mining, активно эксплуатируют информацию, которую мы так непредусмотрительно оставляем о себе в Сети.  А нам-то, простым пользователям, есть от этого прок?

— Несомненно. Так компании могут не перегружать вас ненужной рекламой и информацией, концентрируя свои рекламные сообщения только на актуальных для вас.

Расскажу вам про один кейс. У нас была задача — решить проблему с покупкой одежды для мужчин. Известно, что большинство мужчин, во-первых, ненавидят ходить по магазинам и подбирать одежду; во-вторых, редко знают, что с чем можно носить. Мы разрабатывали систему для интернет-магазина, позволяющую делать онлайн-подборку одежды. А потом, на базе этого механизма, решили попробовать поработать с женщинами. Тут выяснилась интересная статистика: оказалось, что когда мужчина заказывает вещи в интернет-магазине, то из 10 вещей он покупает 7–8, женщина же, дай бог, если купит одну. И мы придумали такой ход для решения задачи Data Mining: женщинам предлагалось заполнить подробную анкету о себе и своих предпочтениях, после чего бесплатно рекомендовалось четыре готовых лука на текущий сезон. При этом порядка 30% женщин радостно заполняли эти анкеты, и мы могли сделать для них готовый лук-бук: с макияжем, цветотипами, готовым образами на сезон, ссылками на вещи и т. д.  Таким образом, на сайте интернет-магазина женщины могли бы не смотреть все вещи подряд, а выбирать из предложенных стилистами.

Попутно хочу заметить, что история с мужчинами у нас не пошла: выяснилось, что они морально не готовы обращаться к онлайн-стилистам. Так что проект для мужчин пришлось закрыть.

— А может ли поиск информации о человеке в Интернете с помощью системы Data Mining  представлять опасность для человека, которого ищут?

— Опасность не в самой информации, а в том, кто и как ее использует. Если ваши персональные данные лежат в открытом доступе, то я могу, не нарушая закона, совершенно спокойно ими воспользоваться — например, персонально вам предложить какой-то товар или услугу. Допустим, мы видим, что человек часто публикует в социальных сетях информацию об автомобилях марки «Фольксваген». Плюс к этому в открытом доступе есть его имя-фамилия, телефон, е-мейл; к тому же мы точно знаем, где человек проживает (это легко определяется по тегу с геолокацией). В итоге — у нас есть прекрасные данные для того, чтобы продать их какому-нибудь автосалону, торгующему фольксвагенами, для персонализированной рекламы.

— То есть самая первая рекомендация людям, которая напрашивается: не оставлять бездумно свои номера телефонов…

— Можно, конечно, сказать всем: «Прекратите постить в Facebook», но ясно, что это утопия. Поэтому наиболее простой и разумный совет — не нужно выкладывать в социальных сетях данные, которые могут быть использованы для валидации на каких-либо серьезных финансовых или государственных ресурсах: номера мобильных телефонов, личные (не рабочие) е-мейлы. Многие люди, к примеру, вообще не заморачиваются тем, чтобы сделать свой аккаунт доступным только для друзей — их страница видна всем: «заходи, кто хочешь, бери, что хочешь»…

Пока интеллектуальный анализ данных Data Miningв кейсах типа Р2Р (англ. peer to peer — «равный равному») не работает, до этого еще далеко. Поясню, что подразумеваю под своими словами. C помощью Р2Р работает, например, любой торрент-трекер — это сеть, основанная на равноправии участников, «пиров», которые сообщаются между собой без центрального сервера. Соответственно, в децентрализованной сети использовать методы Data Mining нельзя, поскольку каждый из многочисленных узлов является как клиентом, посылающим сигналы к серверу, так и выполняет функции самого сервера. Их слишком много, чтобы отследить и собрать информацию.

Для сохранения анонимности в Интернете можно еще посоветовать использовать программы типа TOR, которые позволяют сохранять анонимность в Интернете при посещении сайтов и отправке сообщений.

— А могут ли сами люди пользоваться принципами датамайнинга? Проверить, например, чистоту сделки по недвижимости или историю квартиры, или компанию, продающую автомобили?

— Конечно. Это делать необходимо. Все, что лежит в открытых источниках, можно «пробивать», нужно лишь знать, где и как. По квартирам очень много информации. Прежде всего, на официальном сайте компании должны быть все юридические данные. Во-вторых, есть огромное количество ресурсов в Сети, которые дают выписку по ЕГРЮЛ (Единый государственный реестр юридических лиц): можно получить выписку и посмотреть, кто учредитель организации. Например, это можно сделать с помощью программы «СПАРК-Интерфакс». Подписка на нее платная, но в принципе с ее помощью можно узнать размер уставного капитала, где фирма зарегистрирована, финансовую отчетность компании по годам, просмотреть учредителей и то, как они изменялись, выяснить наличие аффилированных фирм.  При покупке квартиры эта информация поможет убедиться в финансовой чистоте застройщика и, соответственно, принять решение, покупать у него недвижимость или нет.

В-третьих, можно выяснить, нет ли у компании делопроизводства у судебных приставов или просто судебной тяжбы — это тоже открытая информация, которую можно посмотреть в картотеке арбитражных дел. На сайте картотеки необходимо вбить ИНН или название компании и по запросу «вылезут» все те судебные дела, в которых фирма участвовала.  

Андрей Сатин
Андрей Сатин
«COO ADSG.PRO»
Оценить публикацию:
Ваша оценка будет первой!
комментарии
Сообщений: 0
В России
В Мире
История
Загрузка...