Расследование Wired. Как утечка Яндекса раскрыла, что именно компания знает про нас и делает с этими данными

Когда мы пользуемся Яндексом, такси, кaртами и другими сервисами, мы часто не задумываемся о том, какой цифровой след мы оставляем. Мы доверяем компании свои запросы, маршруты и интересы, и ожидаем, что это сделает услуги удобнее. Однако в большинстве случаев мы не знаем, что происходит на самом деле с этой огромной массой данных, как ее анализируют и используют.

Эта завеса была открыта в результате расследования журнала Wired, основанного на утечке внутренних документов Яндекса. Оно демонстрирует, что объем сбора и изучения данных о пользователях гораздо глубже, чем может показаться на первый взгляд. В этом случае речь идет не только о показе соответствующей рекламы, но и о сложных системах профилирования, которые могут предсказывать поведение людей, определять их социальный статус и даже предсказать их будущие действия.

Эта история заставляет нас по-новому взглянуть на привычный обмен «удобство в обмен на данные». Она поднимает острые вопросы о приватности, прозрачности работы технологических гигантов и невидимых границах, которые мы можем пройти, пытаясь монетизировать и персонализировать наше цифровое поведение.

Яндекс собирает огромное количество данных для показа рекламы

Сервисы Яндекса собирают огромные объемы информации о людях. Когда они «сопоставляются и анализируются» со всей информацией компании, их можно использовать для выявления интересов пользователей. Об этом говорит исследование Кейли МакКри, инженера по конфиденциальности в кибербезопасной компании Confiant.

По словам Яндекса, код содержит расистские оскорбления, в основном на русском и английском языках, и был изменен в июле 2022 года. Компания заявила, что это не влияет на работу сервисов, но носит «глубоко оскорбительный и совершенно неприемлемый характер».

МакКри изучила коды Метрики и Крипты. Яндекс Метрика, подобный Google Analytics, позволяет владельцам сайтов отслеживать статистику и поведение пользователей. Крипту — это сервис, который использует данные Метрики для создания индивидуальной рекламы.

Эта технология позволяет рекламодателям максимально точно таргетировать свою целевую аудиторию, наблюдая за поведением пользователя в Интернете.

Согласно компании, Крипта анализирует около 300 факторов с помощью различных стратегий машинного обучения.

Кейли МакКри, инженер по конфиденциальности Яндекса, уверена, что все приложения и услуги компании, которых, как предполагается, более 90, передают данные в Крипту для создания рекламных сегментов.

Когда пользователи используют сервисы Яндекса, например, они передают данные, чтобы они могли увидеть свое местоположение на карте.


Часть информации собирается автоматически. Например, компания может увидеть местоположение, данные об устройстве, историю поиска, домашний и рабочий адрес, данные электронной почты, историю прослушивания музыки и просмотра фильмов и многое другое.

Использование входного кода Метрики позволяет сервису получать точные данные о геопозиции, которые включают высоту, направление и скорость движения. Метрика также запоминает имена всех сетей Wi-Fi, к которым подключаются люди.

Утечка внутренних данных Яндекса, о которой сообщили журналисты Wired, продемонстрировала, насколько тщательно компания собирает и использует данные о своих пользователях. Оказалось, что Яндекс не только знает ваши поисковые запросы и маршруты, но и может создавать более подробные профили, включая пол, возраст, интересы, доход и даже возможные диагнозы по вашим поисковым запросам. Пользователи часто не знают, насколько много информации Яндекс хранит о них, поскольку эти данные активно используются для таргетированной рекламы и аналитики. Расследование показало, насколько тонко и широко работает слежение с помощью удобных сервисов.

Яндекс объединяет пользователей в сегменты. Их бесчисленное множество

После того, как Метрика собирает данные, Крипта связывает их с общими идентификаторами, которые затем хэшируются.

Потребитель Крипты — это не конкретный человек с именем и фамилией; это набор идентификаторов. Кроме того, почему набор? Это связано с тем, что файлы cookie создаются каждым браузером или устройством, подключенным к Интернету. Сайты используют эти файлы для идентификации пользователей, что позволяет им избегать необходимости каждый раз запрашивать пароль. Кроме того, приложения имеют собственные идентификаторы. Крипта также учитывает данные, переданные приложениями, такими как Карты или Навигатор, на сервера Яндекса. «Яндекс»

Крипта определяет, что один пользователь имеет несколько идентичных идентификаторов. Затем он разделяет пользователей на сегменты, которые относятся к разным темам, и позволяет им показывать одну и ту же рекламу.

Крипта оценивает поведение пользователя в Интернете и «вычисляет вероятность» того, что он принадлежит к определенному сегменту.

Григорий Бакунов, бывший директор по распространению технологий в Яндексе, говорит, что создание любой группы или сегмента аудитории невозможно благодаря использованию Мeтрики.

Хотя сегменты, созданные Криптой, кажутся чрезвычайно сложными, они в то же время демонстрируют, насколько мощны данные о нашей онлайн-жизни, когда они объединяются. Среди них есть люди, которые пользуются Яндекс-станциями, киноманы могут быть разделены по жанру, а некоторые используют ноутбуки, чтобы найти отель Radisson на карте.

Примерное значение сегментов в Крипте.

Часть кода предназначалась для получения данных из приложения Почта и включала поля «отели» и «посадочные талоны». Группа «курильщиков» отслеживает людей, которые покупают товары, связанные с курением, такие как электронные сигареты, а группа «дачников» использует данные о местоположении для поиска людей, у которых есть дачи.

Если IP-адреса идентификаторов «пересекаются», Яндекc может собирать данные о «семье», которые могут включать количество, пол и возраст.

По словам директора по защите данных Яндекса Ивана Черевко, сервисы Яндекса могут предсказать, есть ли у пользователя дети, например, позволяя заказывать такси с детскими сиденьями, что может указывать на то, что контент может быть интересен родителям.

Как все эти данные могут быть объединены, можно увидеть в одном элементе кода Crypta. Пользовательский интерфейс идентичен профилю пользователя. В этом интерфейсе показывается семейное положение человека, прогнозируемый доxод, наличие детей и три увлечения, которые связаны с общими темами, такими как бытовая техника, еда, одежда и отдых.

По словам Черевко, это «внутренний инструмент Яндекса», который позволяет сотрудникам видеть, как алгоритмы Крипты классифицируют их, и позволяет им получить доступ только к своей собственной информации.

Сбор данных в таком количестве — стандартная практика для интернет-компаний

Интерфейс Google Analytics, похожий на интерфейс Яндекс Метрики.

Иван Черевко согласен с МакКри в том, что определенная часть этой информации «не кажется чем-то необычным» для интернет-рекламы.

Говоря о группировке пользователей по интересам, он заявил, что это «стандартная отраслевая практика», которая позволяет собирать информацию, чтобы показывать конкретную рекламу, такую как «товары для сада пользователям, которые интересуются дачами и автозапчасти — тем, кто посещает АЗС». Однако все данные Яндекса обезличены.

Иван Черевко, директор по защите данных Яндекса, сказал: «В криптовалюте каждый пользователь представляется в виде набора идентификаторов, и из-за их вероятности система не может связать эти идентификаторы с реальным человеком».

Кроме того, Черевко сообщил, что Яндекс удалил геолокацию пользователей, собранную Метрикой, через 14 дней после того, как Крипта получила доступ к электронной почте пользователей; это было экспериментом, и Крипта получала от Почты только обезличенную информацию. С 2019 года этот метод не используется.

Многие люди были шокированы утечкой внутренних документов Яндекса, о которой сообщило издание Wired. Она продемонстрировала, что механизмы сбора и анализа данных могут быть скрытыми от пользователей даже у крупнейшей российской IT-компании, которой мы привыкли доверять. Это не просто показ рекламы; это сложные алгоритмы, которые могут создавать тщательные цифровые портреты.

Данные о наших поисковых запросах, перемещениях, интересах и социальных связях превратились в мощный инструмент, который может использоваться не только для улучшения услуг, но и для манипуляции, цензуры или передачи информации третьим лицам. Границы между удобным сервисом и полной слежки стали очевидными.

Эта история дает нам повод задуматься о нашей цифровой гигиене, поскольку каждому из нас нужно более осознанно относиться к услугам, на которые мы соглашаемся, и где проходит граница между персонализацией и нарушением приватности. Ответ на этот вопрос во многом определяет наше цифровое будущее.

Поделиться с друзьями
Павел Романов

Разработчик ПО для мобильных, фокус на безопасности. Ценю приватность превыше всего.

Оцените автора
Добавить комментарий