Веб-аналитика

Веб-аналитика — область, связанная с измерением, сбором, анализом и представлением данных о веб-среде с целью понимания и оптимизации использования веб-ресурсов[1]. Веб-аналитика — это не только процесс измерения интернет-трафика, но и инструмент для бизнес-маркетинговых исследований, оценки и повышения эффективности сайтов. Программные решения для веб-аналитики позволяют компаниям оценивать результаты рекламных кампаний в традиционных средствах массовой информации, таких как печать и телевидение, а также анализировать изменения посещаемости сайта после запуска новых рекламных кампаний. Веб-аналитика предоставляет информацию о количестве посетителей сайта, количестве просмотренных страниц и позволяет создавать профили поведения пользователей[2].

Основные этапы процесса веб-аналитики

undefined

Большинство процессов веб-аналитики включают четыре основных этапа:[3]

  • Сбор данных: На этом этапе осуществляется сбор базовых данных, обычно в виде количественных показателей. Цель — собрать исходные данные.
  • Обработка данных в метрики: Обычно подсчитываются соотношения на основе собранных данных. Цель — преобразовать их в информативные метрики.
  • Разработка ключевых показателей эффективности (KPI): Использование полученных метрик в сочетании с бизнес-стратегиями. Часто KPI связаны с конверсиями, но не всегда.
  • Формулирование онлайн-стратегии: Определение целей и стандартов компании в онлайне, обычно связанных с максимизацией прибыли, снижением расходов или увеличением доли рынка.

Важной функцией для оптимизации сайтов стала постановка экспериментов:

  • Эксперименты и тестирование: A/B-тестирование — контролируемый эксперимент с двумя вариантами, применяется для выявления изменений, улучшающих интересующий результат.

Каждый этап влияет на предыдущий или последующий: иногда доступные данные определяют стратегию, а иногда стратегия — перечень необходимых данных.

Категории веб-аналитики

Существует как минимум две категории веб-аналитики: внешняя и внутренняя.

  • Внешняя веб-аналитика (англ. off-site web analytics) — анализ и измерение, выполняемые независимо от принадлежности сайта. Она включает оценку потенциальной аудитории (возможностей), видимости и информационного шума сайта в интернете.
  • Внутренняя веб-аналитика (англ. on-site web analytics) — анализ поведения посетителей непосредственно на сайте: переходы, конверсии, ассоциация целевых страниц с действиями пользователей и покупками. Самые распространённые сервисы внутренней веб-аналитики — Google Analytics и Adobe Analytics, а новые инструменты предоставляют дополнительные слои информации, например тепловые карты и отслеживание сессий.

Изначально термин «веб-аналитика» относился только к внутреннему анализу, но современные инструменты часто охватывают обе категории. Существует множество решений и сервисов. Основных технических способа сбора данных два: анализ логов сервера (анализирует журналы обращения к файлам) и постановка тегов на страницы (используется код JavaScript, делающий запросы к аналитическому серверу при загрузке или кликах).

Внутренняя веб-аналитика

Нет общепринятых определений метрик веб-аналитики: разные инструменты и вендоры могут считать одни и те же показатели по-разному. Значимый вклад в стандартизацию определений вносят такие организации, как IAB (Бюро интерактивной рекламы), JICWEBS (Объединённый комитет по веб-стандартам Великобритании и Ирландии), DAA (Ассоциация цифровой аналитики, ранее WAA — Web Analytics Association). Тем не менее, наиболее используемые термины схожи и могут быть сведены к следующему списку:

  • Показатель отказов (англ. bounce rate) — доля сессий, состоящих из одного просмотра страницы без других действий. Высокий показатель отказов может свидетельствовать о необходимости улучшения контента или интерфейса[4].
  • Путь кликов — последовательность просмотров страниц в одной сессии; полезен для понимания целей пользователя и структуры сессии[5].
  • Хит — запрос любого файла (страницы, изображения и пр.) к веб-серверу; не отражает реальные просмотры пользователями.
  • Просмотр страницы — запрос файла или события, определённых как страница. Один просмотр страницы может состоять из нескольких хитов (скачиваний связанных файлов).
  • Уникальный посетитель (user/visitor) — уникально идентифицированный клиент (обычно определяемый по cookie или комбинации IP + User-Agent) за заданный период.
  • Сессия/визит — последовательность действий пользователя за один период; обычно сессия закрывается через 30 минут бездействия.
  • Время активности/вовлечённость — среднее время взаимодействия пользователя с контентом страницы (движения мыши, клики, прокрутки).
  • Глубина просмотра — среднее число просмотренных страниц за визит.
  • Средняя длительность просмотра страницы — среднее время, проведённое на странице.
  • Клик — переход по гиперссылке.
  • Событие — отдельное действие пользователя (просмотр, клик, отправка формы и т. д.).
  • Показатель выхода (%) — доля сессий, для которых конкретная страница стала последней в визите.
  • Сегментация данных — разбиение данных по характеристикам (демография, расположение, поведение и пр.), позволяющее получить дополнительную информацию о разных аудиториях[6].
  • Первый визит — визит уникального посетителя, совершённый впервые (выявляется по наличию cookie или идентификатору устройства).
  • Частота (визитов на уникального) — отношение количества сессий к числу уникальных посетителей.
  • Показы (impressions) — количество случаев отображения рекламы.
  • Новый посетитель — пользователь, не зафиксированный ранее среди посетителей сайта.
  • Время просмотра страницы — время, пока страница находится на экране пользователя.
  • Постоянный посетитель — пользователь, совершавший визиты ранее.
  • Вернувшийся посетитель — уникальный пользователь, совершивший повторный визит за отчётный период.
  • Длительность сессии — среднее время нахождения на сайте за визит[7].
  • Визит с одной просмотренной страницей — визит, в котором была просмотрена только одна страница (отличается от отказа).
  • Наложение данных на сайт — визуализация кликов или горячих зон на снимке страницы.
  • Показатель кликабельности (CTR) — отношение числа кликов на ссылку к общему количеству просмотров страницы, письма или рекламы.

Внешняя веб-аналитика

Внешняя веб-аналитика основана на анализе открытых данных — исследований в социальных медиа и изучении репутации сайта в сети. Обычно применяется для выявления ключевых слов или оценки упоминаемости сайта в интернете.

Источники данных веб-аналитики

Сбор и анализ данных для веб-аналитики обычно выполняется из четырёх основных источников:[8]

  1. Прямые HTTP-запросы (заголовки запроса).
  2. Данные сетевого и серверного уровня (IP-адрес инициатора и др.).
  3. Данные приложений (сессии, рефереры), обычно хранятся в журналах приложений.
  4. Внешние источники (геолокация по IP, показатели email-рассылок, CRM-данные и др.), которые дополняют собственные данные сайта.

Анализ логов веб-сервера

Веб-серверы заносят обращения в лог-файлы (журналы), которые могут быть проанализированы для получения статистики популярности сайта. В начале 1990-х годов статистика сайтов в основном представляла собой подсчёт количества обращений (хитов). Впоследствии появились отдельные понятия «просмотр страницы» и «визит/сессия». Появление поисковых роботов, прокси и динамически выделяемых IP-адресов усложнило определение уникальных пользователей. Тогда стали применять cookie и игнорировать обращения известных роботов.

Устарели также подсчёты из-за кеширования страниц: повторное посещение может не зафиксироваться на сервере, так как страница возвращается из cache. Принудительное отключение кеширования ухудшает производительность, поэтому не применяется массово[9].

Тегирование страниц

Проблемы точности анализа логов и желание использовать внешний сервис привели к методу тегирования (page tagging), при котором на страницы вставляется невидимый элемент (чаще через JavaScript), отправляющий запрос на аналитический сервер при загрузке страницы пользователем. Так собирается информация о действиях посетителя, которую можно анализировать централизованно.

Современные реализации через JavaScript позволяют учитывать больше информации о поведении пользователя, назначать cookie, автоматически определять посетителя и регистрировать взаимодействия, которые не логируются на сервере. Однако показатель принятия cookie может влиять на качество данных.

При использовании внешних аналитических серверов возникает дополнительная задержка (DNS-запрос), которая в ряде случаев может влиять на полноту собираемых данных.

Распространение Ajax привело к появлению альтернативного сбора данных: при взаимодействии с элементами страницы браузер вызывает сервер в фоне, передавая информацию для дальнейшей агрегации.

Сравнение анализа логов и тегирования

Обе технологии доступны как вендорские решения. Программы лог-анализа и системы тегирования имеют достоинства и недостатки[10].[11]

Преимущества анализа логов

  • Журналы серверов формируются по умолчанию, не требует изменений сайта.
  • Данные находятся на серверах компании, в стандартном формате — легко менять ПО.
  • Фиксируются обращения поисковых роботов, что полезно для SEO.
  • Нет дополнительных задержек из-за внешних DNS-запросов или загрузки сторонних скриптов.
  • Все транзакции записываются полностью и не зависят от браузера пользователя.

Преимущества тегирования страниц

  • Учёт запускается по факту загрузки страницы клиентом (реальнее при кешировании).
  • Более гибкая фиксация событий: отслеживаются действия в клиентском сценарии, в том числе Flash, события мыши и клавиатуры.
  • Сервис управления cookie может быть включён без доработок сервера.
  • Используется даже без доступа к серверу сайта.
  • Тегирование стало отраслевым стандартом для корпоративной аналитики[12].

Экономические аспекты

Анализ логов чаще проводится внутри компании, тегирование предоставляется, как правило, внешними сервисами за абонентскую плату (обычно по количеству просмотров).

  • Лог-анализ требует разовой покупки ПО, но некоторые вендоры ограничивают бесплатную обработку по объёму данных.
  • Для хранения и архивации логов требуется дополнительное оборудование и ресурсы IT-поддержки.
  • ПО должно регулярно обновляться и обеспечиваться патчами по безопасности.
  • Стоимость внедрения зависит от внутренней экспертизы, выбранного поставщика и объёма данных.

Вне зависимости от метода сбора данных, анализ должен включать затраты на интерпретацию: сторонние консультанты, обучение штатных аналитиков и др.

Гибридные методы

Некоторые решения объединяют оба способа сбора данных (лог-файлы и тегирование страниц) для повышения точности статистики[13].

Геолокация посетителей

Благодаря использованию баз данных и API геолокации по IP-адресу, возможно определять местоположение посетителя до города или страны[14]. Эта информация используется для персонализации контента, таргетинга, борьбы с мошенничеством и для улучшения аналитики.

Кликабельная аналитика

Кликабельная аналитика (англ. click analytics, также clickstream) фокусируется на анализе действий пользователя при переходе по ссылкам. Она позволяет редактировать структуру сайтов и контента исходя из реальных путей кликов. Данные могут собираться в реальном времени или с задержкой; анализ кликов особенно важен для динамичного новостного контента и оценки эффективности рекламы и дизайна.

Аналитика жизненного цикла клиента

Аналитика жизненного цикла клиента (англ. customer lifecycle analytics) связывает все события, связанные с одним пользователем (просмотры, клики, обращения к API), в единую маркетинговую воронку[15]. Это позволяет глубже понимать поведение, автоматизировать оптимизацию сайта и маркетинговых кампаний. Используются такие ключевые метрики, как стоимость привлечения клиента (CAC), пожизненная ценность клиента (CLV), отток клиентов и индекс удовлетворённости[15].

Другие методы

Используются и альтернативные способы сбора данных, например перехват сетевого трафика (packet sniffing), не требующий изменений сайта, либо интеграция аналитики непосредственно в ПО веб-сервера[16]. Сторонники этих методов отмечают более высокую точность и возможность работы в режиме реального времени.

Распространённые ошибки и проблемы веб-аналитики

Проблема гостиницы

Проблема гостиницы возникает при попытке просуммировать уникальных посетителей по дням и за месяц и обнаружить несоответствие итоговых чисел. Это связано со спецификой агрегации: если человек посещает сайт в несколько дней, он будет засчитан несколько раз по дням, но всего один раз по месяцу.

День 1 День 2 День 3 Всего
Номер A Иван Иван Марк 2 уникальных пользователя
Номер B Марк Анна Анна 2 уникальных пользователя
Всего 2 2 2 ?

Сумма по дням даст большее число, чем по итогу периода; это особенность метрики.

Отравление аналитики

С развитием интернета и ростом объёма бот-трафика стал актуален вопрос надежности веб-аналитики. Боты могут эмулировать действия пользователей и запускать код аналитики, что искажает статистику. Были продемонстрированы примеры успешного инициирования аналитических событий ботами для большинства популярных веб-аналитических инструментов[17].[18]

Проблемы с куки третьих сторон

Традиционно внешние сервисы веб-аналитики использовали куки третьих сторон, что позволяло отслеживать посетителей между доменами, но вызывало опасения относительно приватности. Многие пользователи блокируют такие куки (в некоторых отчётах — до 28 % в 2005 году)[19]. Большинство сервисов теперь используют куки первого уровня.

Удаление куки приводит к тому, что уникальный посетитель при следующем визите опять считается «новым». При ротации IP-адресов, использовании прокси или общего устройства корректность определения уникальных пользователей может снижаться. Альтернативные методы уникализации либо сложны, либо потенциально нарушают приватность[20].

Защищённые методы аналитики

Ограничения безопасности, фильтрация и национальное регулирование могут препятствовать сбору данных сторонними сервисами. Все существующие методы подвержены манипуляциям; решение этой проблемы активно обсуждается в научной литературе[21],[22][23][24] но на практике решения остаются теоретическими.

Примечания

  1. WAA Standards Committee. "Web analytics definitions." Washington DC: Web Analytics Association (2008).
  2. Nielsen, Janne (27 апреля 2021). “Using mixed methods to study the historical use of web beacons in web tracking”. International Journal of Digital Humanities [англ.]. 2 (1—3): 65—88. DOI:10.1007/s42803-021-00033-4. ISSN 2524-7832. S2CID 233416836.
  3. Jansen, B. J. (2009). Understanding user-web interactions via web analytics. Synthesis Lectures on Information Concepts, Retrieval, and Services, 1(1), 1–102.
  4. Sng, Yun Fei Study on Factors Associated With Bounce Rates on Consumer Product Websites (англ.). Business Analytics 526–546. World Scientific (22 августа 2016). doi:10.1142/9789813149311_0019. Дата обращения: 11 августа 2023. Архивировано 11 августа 2023 года.
  5. Menasalvas, Ernestina; Millán, Socorro; Peña, José M.; Hadjimichael, Michael; Marbán, Oscar (июль 2004). “Subsessions: A granular approach to click path analysis: Click Path Analysis”. International Journal of Intelligent Systems [англ.]. 19 (7): 619—637. DOI:10.1002/int.20014. Проверьте дату в |date= (справка на английском)
  6. Chaffey, Dave; Patron, Mark (1 июля 2012). “From web analytics to digital marketing optimization: Increasing the commercial value of digital analytics”. Journal of Direct, Data and Digital Marketing Practice [англ.]. 14 (1): 30—45. DOI:10.1057/dddmp.2012.20. ISSN 1746-0174.
  7. Как определяется сеанс в Universal Analytics — Справка Analytics. support.google.com. Дата обращения: 11 августа 2023.
  8. Zheng, G. & Peltsverger S. (2015) Web Analytics Overview, In book: Encyclopedia of Information Science and Technology, Third Edition, Publisher: IGI Global, Editors: Mehdi Khosrow-Pour
  9. Marketing Management: A Value-Creation Process (2nd Edition) by Alain Jolibert et al., 2012, c. 359.
  10. Increasing Accuracy for Online Business Growth — аналитический обзор точности веб-аналитики
  11. Page Tagging vs. Log Analysis An Executive White Paper. sawmill (2008). Архивировано 13 мая 2024 года.
  12. Revisiting Log File Analysis versus Page tagging. Дата обращения: 26 февраля 2010. Архивировано 6 июля 2011 года.
  13. Page Tagging (cookies) vs. Log Analysis. Logaholic Web Analytics (25 апреля 2018). Дата обращения: 21 июля 2023. Архивировано 8 сентября 2025 года.
  14. IPInfoDB. База данных геолокации по IP. IPInfoDB (10 июля 2009). Дата обращения: 19 июля 2009. Архивировано 14 января 2025 года.
  15. 1 2 Kitchens, Brent; Dobolyi, David; Li, Jingjing; Abbasi, Ahmed (3 апреля 2018). “Advanced Customer Analytics: Strategic Value Through Integration of Relationship-Oriented Big Data”. Journal of Management Information Systems [англ.]. 35 (2): 540—574. DOI:10.1080/07421222.2018.1451957. ISSN 0742-1222. S2CID 49681142.
  16. Hu, Xiaohua; Cercone, Nick (1 июля 2004). “A Data Warehouse/Online Analytic Processing Framework for Web Usage Mining and Business Intelligence Reporting”. International Journal of Intelligent Systems. 19 (7): 585—606. DOI:10.1002/int.v19:7.
  17. Analytics Poisoning: A Short Review - IPM Corporation (5 декабря 2020). Дата обращения: 29 июля 2022. Архивировано 10 мая 2025 года.
  18. Shandily, Hricha Google Analytics counts bots as real traffic [New Test] (англ.). Plausible Analytics (22 мая 2025). Дата обращения: 13 июня 2025. Архивировано 13 июня 2025 года.
  19. McGann, Rob Study: Consumers Delete Cookies at Surprising Rate (14 марта 2005). Дата обращения: 3 апреля 2014. Архивировано 22 января 2012 года.
  20. Home News Access the Guide Tools Education Shopping Internet Cookies- Spyware or Neutral Technology? CNET. 2 февраля 2005. Дата обращения: 24 апреля 2017. Архивировано 18 августа 2010 года.
  21. Naor, M. Secure and efficient metering // Advances in Cryptology – EUROCRYPT'98 / M. Naor, B. Pinkas. — 1998. — Vol. 1403. — P. 576. — ISBN 978-3-540-64518-4. — doi:10.1007/BFb0054155.
  22. Naor, M.; Pinkas, B. (1998). “Secure accounting and auditing on the Web”. Computer Networks and ISDN Systems. 30 (1—7): 541—550. DOI:10.1016/S0169-7552(98)00116-0.
  23. Franklin, M. K. Auditable metering with lightweight security // Financial Cryptography / M. K. Franklin, D. Malkhi. — 1997. — Vol. 1318. — P. 151. — ISBN 978-3-540-63594-9. — doi:10.1007/3-540-63594-7_75.
  24. Johnson, R.; Staddon, J. (2007). “Deflation-secure web metering”. International Journal of Information and Computer Security. 1: 39. CiteSeerX 10.1.1.116.3451. DOI:10.1504/IJICS.2007.012244.

Литература

  • Clifton, Brian (2010). Advanced Web Metrics with Google Analytics, 2nd edition, Sybex.
  • Mortensen, Dennis R. Yahoo! Web analytics: tracking, reporting, and analyzing for data-driven insights. — Indianapolis, Ind : Wiley, 2009. — ISBN 978-0470424247.
  • Farris, P., Bendle, N.T., Pfeifer, P.E., Reibstein, D.J. (2009). Key Marketing Metrics. The 50+ Metrics Every Manager needs to know, Prentice Hall, London.
  • Plaza, Beatriz (18 сентября 2009). “Monitoring web traffic source effectiveness with Google Analytics: An experiment with time series”. ASLIB Proceedings. 61 (5): 474—482. DOI:10.1108/00012530910989625.
  • Arikan, Akin (2008). Multichannel Marketing. Metrics and Methods for On and Offline Success. Sybex.
  • Tullis, Tom & Albert, Bill (2008). Measuring the User Experience. Collecting, Analyzing and Presenting Usability Metrics. Morgan Kaufmann, Elsevier, Burlington MA.
  • Kaushik, Avinash. Web analytics 2.0: The Art of Online Accountability and Science of Customer Centricity. — Sybex, 2009. — ISBN 9780470529393.
  • Kaushik, Avinash. Web analytics: an hour a day / Avinash Kaushik, Dave Raybould. — Indianapolis, Ind : Wiley, 2007. — ISBN 9780470130650.
  • Bradley N (2007). Marketing Research. Tools and Techniques. Oxford University Press, Oxford.
  • Sostre, Pedro and LeClaire, Jennifer (2007). Web Analytics for Dummies. John Wiley & Sons.
  • Burby, Jason and Atchison, Shane (2007). Actionable Web Analytics: Using Data to Make Smart Business Decisions.
  • Davis, J. (2006). Marketing Metrics: How to create Accountable Marketing plans that really work. John Wiley & Sons (Asia).
  • Peterson Eric T. (2005). Web Site Measurement Hacks. O'Reilly Media.
  • Zheng, J. G. and Peltsverger, S. (2015). Web Analytics Overview, In book: Encyclopedia of Information Science and Technology, Third Edition, IGI Global.