Веб-трекинг

Веб-трекинг (англ. web tracking) — практика, при которой операторы сайтов и третьи стороны собирают, сохраняют и обмениваются информацией о действиях посетителей в Интернете. Анализ поведения пользователей используется для персонализации контента, а также для того, чтобы владельцы веб-платформ могли делать выводы о предпочтениях аудитории. Эта информация интересна, например, для рекламодателей[1].[2]

Использование веб-трекинга

Использование веб-трекинга включает:

  • Рекламные агентства активно собирают информацию о пользователях и составляют профили, используемые для персонализации рекламы. Отслеживаются посещения веб-сайтов, просмотры видео, социальная активность и онлайн-транзакции. Такие сайты, как Netflix и YouTube, собирают данные о том, какие шоу смотрит пользователь, чтобы рекомендовать подобный контент. Поисковые системы (например, Google) могут сохранять поисковые запросы пользователя для дальнейшего улучшения релевантности результатов поиска[3].
  • Правоохранительные органы могут использовать веб-трекинг для слежки за лицами и раскрытия преступлений[4].
  • Веб-аналитика больше сконцентрирована на общей производительности сайта. Веб-трекинг даёт представление о способе использования и времени пребывания пользователя на определённых страницах, а также позволяет узнать, что больше всего интересует посетителей[5].
  • Юзабилити-тестирование— практика оценки удобства пользовательских интерфейсов через наблюдение за выполнением заданий пользователями[6]. Это позволяет выявить проблемы с удобством использования, чтобы их можно было устранить.

Методы веб-трекинга

IP-адрес

Каждое устройство, подключённое к Интернету, имеет свой уникальный IP-адрес, что необходимо для обмена информацией между устройствами. Программное обеспечение на сервере сайта может регистрировать IP-адреса посетителей и использовать их для определения географического положения пользователя[7].[8] Отслеживание IP-адресов помогает выявить повторные действия пользователя, например, повторное голосование, а также определять страну подключения и автоматически изменять валюту цен, условия и доступность товаров. Иногда сайты полностью блокируют трафик из определённых стран. Пользователи могут обходить цензуру и геоблокировки или сохранять анонимность, используя VPN-подключение.

HTTP cookie — небольшой текстовый файл, который сохраняется на устройстве пользователя при посещении сайта[9]. При последующих посещениях сайт читает информацию из куки-файла — для персонализации интерфейса и показа целевой рекламы[10]. Типичные действия пользователя, которые могут сохраняться:

  • страницы и контент, которые просматривал пользователь,
  • поисковые запросы,
  • клики по рекламе,
  • время посещения сайта.

Собственный куки-файл создаёт сам посещаемый пользователем сайт. Такие файлы считаются «хорошими», так как помогают сайту сохранять настройки пользователя, не отслеживая его за пределами ресурса. Основная цель — узнавание пользователя и хранение его предпочтений[11].

Сторонние куки записываются другими сайтами, которые размещают свой контент в пределах просматриваемых страниц. Такой код отслеживания фиксирует онлайн-активность пользователя. Сторонняя аналитика может использоваться для сбора статистики и оценки аспектов взаимодействия с сайтом, например, количества заходов[12].

Существуют компании, обходящие ограничения на сторонние куки, внедрённые веб-браузерами, методом «маскировки CNAME»: сторонней службе отслеживания присваивается запись DNS в основном домене, и она выглядит как часть сайта, хотя фактически принадлежит другой организации. Этот метод блокируется некоторыми браузерами и блокировщиками рекламы за счёт списков известных трекеров[13].[14]

Другие методы

  • Цифровой отпечаток с использованием Canvas позволяет сайтам идентифицировать пользователей по особенностям рендеринга Canvas HTML5 без использования куки[15].
  • Кросс-девайсное отслеживание позволяет рекламодателям анализировать, через какие устройства пользователь переходит к покупке[16].
  • Трекер кликов используется для подсчета кликов по рекламным объявлениям.
  • Отслеживание мыши регистрирует перемещения курсора на экране.
  • Цифровой отпечаток устройства позволяет идентифицировать устройство пользователя по параметрам браузера и системы, что даёт возможность отслеживания без куки[17].
  • Supercookies или evercookie — сложные формы куки, их трудно обнаружить и удалить, так как они хранятся в нестандартных местах[18].
  • Сценарии воспроизведения сеанса позволяют исследовать ряд действий пользователя на сайте или в приложении[19].[20]
  • Отслеживание с помощью перенаправления — использование промежуточных страниц с целью отслеживания перемещений пользователя между разными сайтами[21].
  • Веб-маяк используется, например, для проверки того, прочитано ли электронное письмо.
  • Favicon может использоваться для идентификации пользователя, так как его кэш сохраняется между сессиями[22].
  • Служба FLoC (Federated Learning of Cohorts), апробированная в Google Chrome в 2021 году, предназначена для замены трекинга индивидуального поведения объединением пользователей в поведенческие когорты на стороне браузера. EFF раскритиковал FLoC за сохранение парадигмы экономики слежки, при которой «поведение пользователя фиксируется как уникальный ярлык, богатый смыслом для рекламных трекеров»[23].
  • Согласно исследованию 2022 года, практика "контрабанды UID" (UID smuggling) является широко распространённой и плохо блокируется современными средствами защиты — такими, как Firefox или uBlock Origin[24].[25]

Споры

Веб-трекинг связан с использованием личной информации пользователя — таких данных, как местоположение, интересы, покупки, которые можно вывести из истории просмотра. Это позволяет анализировать пользовательские паттерны[26]. Отслеживание действий пользователей может быть спорным, особенно в частном контексте; зачастую подпадает под нормативные акты, такие как Директива ЕС об электронной коммерции и Закон Великобритании о защите данных. При отсутствии информирования пользователя это может считаться нарушением безопасности браузера.

Обоснование

В B2B-маркетинге анализ поведения посетителей используется для оценки покупательских намерений, чтобы повысить точность контекстной рекламы[27]. Компании могут направлять свои предложения тем посетителям, кто на этапе принятия решения, что позволяет экономить маркетинговые ресурсы.

Противодействие

Современные инструменты защиты включают встроенную в Firefox защиту от отслеживания, подмену отпечатка браузера (с помощью антидетект-браузеров), расширения uBlock Origin и Privacy Badger[25].[28][29]

Кроме того, используются расширения NoScript, альтернативные поисковые системы (например, DuckDuckGo) и VPN. VPN обычно являются платными, а с 2023 года NoScript «затрудняет обычный просмотр веб-страниц»[29].

Мобильные устройства

Для мобильных устройств применяется мобильный браузер Firefox Focus, снижающий объём трекинга, полностью защищая от куки и реализующий режим конфиденциальности[30].[31][32]

Opt-Out запросы

Пользователь может ограничить сторонний трекинг другими способами — например, отказаться от куки или блокировать их для отдельных сайтов/категорий сайтов в настройках браузера[33]. Режим Do Not Track также отправляет сайтам запрос на запрет межсайтового отслеживания.

Режим конфиденциальности

Режим приватного просмотра браузера не защищает от трекинга, поскольку лишь не сохраняет данные на стороне пользователя, но не препятствует сбору аналитики на стороне сайта. Методы «снятия отпечатков» могут деанонимизировать пользователя[34]. Иногда из-за этого может нарушаться работоспособность отдельных сайтов—например, при авторизации.

Веб-браузеры

Ряд браузеров предлагает режимы «защиты от отслеживания» или «предотвращения отслеживания», блокируя трекеры[35]. Команды расширений NoScript и uBlock участвовали в разработке технологии SmartBlock для Firefox[36].

Антидетект-браузеры

Антидетект-браузеры предназначены для повышения анонимности — путём подмены цифрового отпечатка пользователя и модификации данных устройства[37]. Такими браузерами могут быть модификации Google Chrome или Mozilla Firefox, которые используют специальные методы для неидентификации пользователя[38].

Примечания