Офтоп


Алексей Халецкий,

Одна из дополнительных опций в Twitter позволяет помечать твиты геометками. Это полезно, если вы хотите, к примеру, чтобы ваши Twitter-друзья знали, где вы сейчас находитесь. Или просто как напоминание для вас самого. Кроме того, это ценный инструмент для исследователей - например, географического распределения твитов.

Изображение: indianexpress.com
Изображение: indianexpress.com

Но есть и такая вещь, как частная жизнь. Особенно если пользователи не знают или забывают, что приложение помечает их посты геотегами. Скажем, некоторые знаменитости таким образом рассекретили свои домашние адреса. А в 2007 году четыре вертолета Apache, принадлежавших армии США, были уничтожены в Ираке, когда повстанцы вычислили их по геотегам, коими были помечены фотографии, размещенные в соцсетях американскими солдатами.

Видимо, именно поэтому так мало твитов помечается геометками: несколько исследований показали, что лишь менее 1% постов в Twitter содержат метаданные о местоположении.

Как оказалось, отсутствие геотегов не поможет сохранить в тайне ваше местопребывание на планете Земля. Джалал Махмуд (Jalal Mahmud) и его коллеги из IBM Research уверяют, что они разработали алгоритм, который способен проанализировать последние 200 твитов любого человека - и определить его город с точностью в 70%.

Это может быть полезно для исследователей, журналистов, маркетологов и других, которые любят везде совать свой нос. Но это также поднимает вопросы приватности для тех, кто убежден, что его дом все еще его крепость.

Метод г-на Махмуда и компании относительно прост. С июля по август 2011 года исследователи фильтровали и анализировали твиты, которые были помечены геотегами в 100 крупнейших городах США, пока в базе не собралось по 100 пользователей для каждого города. Затем они загрузили последние 200 твитов, размещенных каждым человеком, (кроме тех, конечно, что не имели общего доступа). В итоге получилось более 1,5 млн координат из твитов почти 10 тысяч пользователей.

После этого ученые разделили эти данные на две части: 90% твитов было использовано для обучения ПО, а оставшиеся 10% - для проверки.

Основная идея алгоритма в том, что твиты содержат информацию о возможном местоположении человека. Скажем, более 100 тысяч твитов в наборе данных было получено на основе определения местопребывания в социальной сети Foursquare, а поэтому они содержали ссылки на точные координаты в момент отправки твита. А в почти 300 тысяч постов назывались города, перечисленные в геосправочнике Геологической службы США.

В других твитах присутствовали ключевые слова. К примеру, "пойдем на Red Sox" - это отсылка к бостонской бейсбольной команде. Исследователи считают, что распределение твитов в течение дня примерно постоянно в США, и лишь сдвигается с часовым поясом. Следовательно, временной шаблон отправки пользователем твитов даст практически точное попадание в тот часовой пояс, в котором он живет.

Но вопрос ведь в том, можно ли, используя всю эту информацию, найти дом пользователя с минимальной ошибкой. Свое ПО специалисты IBM проверяли методом сравнения результатов с пользовательскими данными. Г-н Махмуд и Ко использовали алгоритм обучения, известный как "Наивный байесовский классификатор". Затем они испытали алгоритм на оставшихся 10% данных, чтобы увидеть, сможет ли он предсказать местопребывание человека.

Результаты получились интересными. Если исключить из выборки людей, которые, очевидно, в данный момент не находятся на одном месте, а путешествуют, то алгоритм правильно предсказывает родной город в 68% случаев, родной штат - в 70%, а часовой пояс - в 80%. И на это требуется одна секунда!

Это может оказаться очень полезным механизмом. Журналисты, например, могут использовать его для определения твитов, отправленных из определенного региона, - скажем, во время землетрясения. А маркетологи - чтобы популяризировать свою продукцию в конкретных локациях.
Нужные услуги в нужный момент