Twitter — находка для шпиона Печать
Новости науки
25.03.2014
Одна из дополнительных опций в Twitter позволяет помечать твиты геометками. Это полезно, если вы хотите, к примеру, чтобы ваши Twitter-друзья знали, где вы сейчас находитесь. Или просто как напоминание для вас самого. Кроме того, это ценный инструмент для исследователей — например, географического распределения твитов.

Но есть и такая вещь, как частная жизнь. Особенно если пользователи не знают или забывают, что приложение помечает их посты геотегами. Скажем, некоторые знаменитости таким образом рассекретили свои домашние адреса. А в 2007 году четыре вертолёта Apache, принадлежавших армии США, были уничтожены в Ираке, когда повстанцы вычислили их по геотегами, коими были помечены фотографии, размещённые в соцсетях американскими солдатами.

Видимо, именно поэтому так мало твитов помечаются геометками: несколько исследований показали, что лишь менее 1% постов в «Твиттере» содержат метаданные о местоположении.

«Заправлены в планшеты космические карты», — пел Владимир Трошин. Сегодня в планшеты заправлены геотеги!


На, как оказалось, отсутствие геотегов не поможет сохранить в тайне ваше местопребывание на планете Земля. Джалал Махмуд (Jalal Mahmud) и его коллеги из IBM Research уверяют, что они разработали алгоритм, который способен проанализировать последние 200 твитов любого человека — и определить его город с точностью в 70%.

Это может быть полезно для исследователей, журналистов, маркетологов и пр., которые любят везде совать свой нос. Но это также поднимает вопросы приватности для тех, кто убеждён, что его дом всё ещё его крепость.

Метод г-на Махмуда и компании относительно прост. С июля по август 2011 года исследователи фильтровали и анализировали твиты, которые были помечены геотегами в 100 крупнейших городах США, пока в базе не собралось по 100 пользователей для каждого города. Затем они загрузили последние 200 твитов, размещённых каждым человеком, (кроме тех, конечно, что не имели общего доступа). В итоге получилось более 1,5 млн координат из твитов почти 10 тыс. пользователей.

После этого учёные разделили эти данные на две части: 90% твитов было использовано для обучения ПО, а оставшиеся 10% для проверки.

Основная идея алгоритма в том, что твиты содержат информацию о возможном местоположения человека. Скажем, более 100 тыс. твитов в наборе данных были получены на основе определения местопребывания в социальной сети Foursquare, а поэтому содержали ссылки на точные координаты в момент отправки твита. А в почти 300 тыс. постов были названы города, перечисленные в геосправочнике Геологической службы США.

В других твитах присутствовали ключевые слова. К примеру, «пойдем на Red Sox» — это отсылка к бостонской бейсбольной команде. Исследователи считают, что распределение твитов в течение дня примерно постоянно в США, и лишь сдвигается с часовым поясом. Следовательно, временной шаблон отправки пользователем твитов даст практически точное попадание в тот часовой пояс, в котором он живёт.

Но вопрос ведь в том, можно ли, используя всю эту информацию, найти дом пользователя с минимальной ошибкой. Своё ПО специалисты IBM проверяли методом сравнения результатов с пользовательскими данными. Г-н Махмуд и Ко использовали алгоритм обучения, известный как «Наивный байесовский классификатор». Затем они испытали алгоритм на оставшихся 10% данных, чтобы увидеть, сможет ли он предсказать местопребывание человека.

Результаты получились интересными. Если исключить из выборки людей, которые, очевидно, в данный момент не находятся на одном месте, а путешествуют, то алгоритм правильно предсказывает родной город в 68% случаев, родной штат в 70%, а часовой пояс в 80%. И знаете, сколько времени на это требуется? Одна секунда!

Это может оказаться очень полезным механизмом. Журналисты, например, могут использовать его для определения твитов, отправленных из определённого региона, — скажем, во время землетрясения. А маркетологи — чтобы популяризировать свою продукцию в конкретных локациях.

Грустным следствием из этого текста является то, что наше представление о частной жизни всё сильнее размывается, под оком многочисленных камер и социальных сетей становится чем-то архаичным... Хорошо это или плохо, надо бы выяснить с помощью, предположим, широкого публичного обсуждения.

Подготовлено по материалам Technology Tell.

Источник - http://compulenta.computerra.ru/tehnika/security/10012171/