Веб-аналитика
Веб-аналитика — область, связанная с измерением, сбором, анализом и представлением данных о веб-среде с целью понимания и оптимизации использования веб-ресурсов[1]. Веб-аналитика — это не только процесс измерения интернет-трафика, но и инструмент для бизнес-маркетинговых исследований, оценки и повышения эффективности сайтов. Программные решения для веб-аналитики позволяют компаниям оценивать результаты рекламных кампаний в традиционных средствах массовой информации, таких как печать и телевидение, а также анализировать изменения посещаемости сайта после запуска новых рекламных кампаний. Веб-аналитика предоставляет информацию о количестве посетителей сайта, количестве просмотренных страниц и позволяет создавать профили поведения пользователей[2].
Основные этапы процесса веб-аналитики
Большинство процессов веб-аналитики включают четыре основных этапа:[3]
- Сбор данных: На этом этапе осуществляется сбор базовых данных, обычно в виде количественных показателей. Цель — собрать исходные данные.
- Обработка данных в метрики: Обычно подсчитываются соотношения на основе собранных данных. Цель — преобразовать их в информативные метрики.
- Разработка ключевых показателей эффективности (KPI): Использование полученных метрик в сочетании с бизнес-стратегиями. Часто KPI связаны с конверсиями, но не всегда.
- Формулирование онлайн-стратегии: Определение целей и стандартов компании в онлайне, обычно связанных с максимизацией прибыли, снижением расходов или увеличением доли рынка.
Важной функцией для оптимизации сайтов стала постановка экспериментов:
- Эксперименты и тестирование: A/B-тестирование — контролируемый эксперимент с двумя вариантами, применяется для выявления изменений, улучшающих интересующий результат.
Каждый этап влияет на предыдущий или последующий: иногда доступные данные определяют стратегию, а иногда стратегия — перечень необходимых данных.
Существует как минимум две категории веб-аналитики: внешняя и внутренняя.
- Внешняя веб-аналитика (англ. off-site web analytics) — анализ и измерение, выполняемые независимо от принадлежности сайта. Она включает оценку потенциальной аудитории (возможностей), видимости и информационного шума сайта в интернете.
- Внутренняя веб-аналитика (англ. on-site web analytics) — анализ поведения посетителей непосредственно на сайте: переходы, конверсии, ассоциация целевых страниц с действиями пользователей и покупками. Самые распространённые сервисы внутренней веб-аналитики — Google Analytics и Adobe Analytics, а новые инструменты предоставляют дополнительные слои информации, например тепловые карты и отслеживание сессий.
Изначально термин «веб-аналитика» относился только к внутреннему анализу, но современные инструменты часто охватывают обе категории. Существует множество решений и сервисов. Основных технических способа сбора данных два: анализ логов сервера (анализирует журналы обращения к файлам) и постановка тегов на страницы (используется код JavaScript, делающий запросы к аналитическому серверу при загрузке или кликах).
Нет общепринятых определений метрик веб-аналитики: разные инструменты и вендоры могут считать одни и те же показатели по-разному. Значимый вклад в стандартизацию определений вносят такие организации, как IAB (Бюро интерактивной рекламы), JICWEBS (Объединённый комитет по веб-стандартам Великобритании и Ирландии), DAA (Ассоциация цифровой аналитики, ранее WAA — Web Analytics Association). Тем не менее, наиболее используемые термины схожи и могут быть сведены к следующему списку:
- Показатель отказов (англ. bounce rate) — доля сессий, состоящих из одного просмотра страницы без других действий. Высокий показатель отказов может свидетельствовать о необходимости улучшения контента или интерфейса[4].
- Путь кликов — последовательность просмотров страниц в одной сессии; полезен для понимания целей пользователя и структуры сессии[5].
- Хит — запрос любого файла (страницы, изображения и пр.) к веб-серверу; не отражает реальные просмотры пользователями.
- Просмотр страницы — запрос файла или события, определённых как страница. Один просмотр страницы может состоять из нескольких хитов (скачиваний связанных файлов).
- Уникальный посетитель (user/visitor) — уникально идентифицированный клиент (обычно определяемый по cookie или комбинации IP + User-Agent) за заданный период.
- Сессия/визит — последовательность действий пользователя за один период; обычно сессия закрывается через 30 минут бездействия.
- Время активности/вовлечённость — среднее время взаимодействия пользователя с контентом страницы (движения мыши, клики, прокрутки).
- Глубина просмотра — среднее число просмотренных страниц за визит.
- Средняя длительность просмотра страницы — среднее время, проведённое на странице.
- Клик — переход по гиперссылке.
- Событие — отдельное действие пользователя (просмотр, клик, отправка формы и т. д.).
- Показатель выхода (%) — доля сессий, для которых конкретная страница стала последней в визите.
- Сегментация данных — разбиение данных по характеристикам (демография, расположение, поведение и пр.), позволяющее получить дополнительную информацию о разных аудиториях[6].
- Первый визит — визит уникального посетителя, совершённый впервые (выявляется по наличию cookie или идентификатору устройства).
- Частота (визитов на уникального) — отношение количества сессий к числу уникальных посетителей.
- Показы (impressions) — количество случаев отображения рекламы.
- Новый посетитель — пользователь, не зафиксированный ранее среди посетителей сайта.
- Время просмотра страницы — время, пока страница находится на экране пользователя.
- Постоянный посетитель — пользователь, совершавший визиты ранее.
- Вернувшийся посетитель — уникальный пользователь, совершивший повторный визит за отчётный период.
- Длительность сессии — среднее время нахождения на сайте за визит[7].
- Визит с одной просмотренной страницей — визит, в котором была просмотрена только одна страница (отличается от отказа).
- Наложение данных на сайт — визуализация кликов или горячих зон на снимке страницы.
- Показатель кликабельности (CTR) — отношение числа кликов на ссылку к общему количеству просмотров страницы, письма или рекламы.
Внешняя веб-аналитика основана на анализе открытых данных — исследований в социальных медиа и изучении репутации сайта в сети. Обычно применяется для выявления ключевых слов или оценки упоминаемости сайта в интернете.
Сбор и анализ данных для веб-аналитики обычно выполняется из четырёх основных источников:[8]
- Прямые HTTP-запросы (заголовки запроса).
- Данные сетевого и серверного уровня (IP-адрес инициатора и др.).
- Данные приложений (сессии, рефереры), обычно хранятся в журналах приложений.
- Внешние источники (геолокация по IP, показатели email-рассылок, CRM-данные и др.), которые дополняют собственные данные сайта.
Веб-серверы заносят обращения в лог-файлы (журналы), которые могут быть проанализированы для получения статистики популярности сайта. В начале 1990-х годов статистика сайтов в основном представляла собой подсчёт количества обращений (хитов). Впоследствии появились отдельные понятия «просмотр страницы» и «визит/сессия». Появление поисковых роботов, прокси и динамически выделяемых IP-адресов усложнило определение уникальных пользователей. Тогда стали применять cookie и игнорировать обращения известных роботов.
Устарели также подсчёты из-за кеширования страниц: повторное посещение может не зафиксироваться на сервере, так как страница возвращается из cache. Принудительное отключение кеширования ухудшает производительность, поэтому не применяется массово[9].
Проблемы точности анализа логов и желание использовать внешний сервис привели к методу тегирования (page tagging), при котором на страницы вставляется невидимый элемент (чаще через JavaScript), отправляющий запрос на аналитический сервер при загрузке страницы пользователем. Так собирается информация о действиях посетителя, которую можно анализировать централизованно.
Современные реализации через JavaScript позволяют учитывать больше информации о поведении пользователя, назначать cookie, автоматически определять посетителя и регистрировать взаимодействия, которые не логируются на сервере. Однако показатель принятия cookie может влиять на качество данных.
При использовании внешних аналитических серверов возникает дополнительная задержка (DNS-запрос), которая в ряде случаев может влиять на полноту собираемых данных.
Распространение Ajax привело к появлению альтернативного сбора данных: при взаимодействии с элементами страницы браузер вызывает сервер в фоне, передавая информацию для дальнейшей агрегации.
Обе технологии доступны как вендорские решения. Программы лог-анализа и системы тегирования имеют достоинства и недостатки[10].[11]
- Журналы серверов формируются по умолчанию, не требует изменений сайта.
- Данные находятся на серверах компании, в стандартном формате — легко менять ПО.
- Фиксируются обращения поисковых роботов, что полезно для SEO.
- Нет дополнительных задержек из-за внешних DNS-запросов или загрузки сторонних скриптов.
- Все транзакции записываются полностью и не зависят от браузера пользователя.
- Учёт запускается по факту загрузки страницы клиентом (реальнее при кешировании).
- Более гибкая фиксация событий: отслеживаются действия в клиентском сценарии, в том числе Flash, события мыши и клавиатуры.
- Сервис управления cookie может быть включён без доработок сервера.
- Используется даже без доступа к серверу сайта.
- Тегирование стало отраслевым стандартом для корпоративной аналитики[12].
Анализ логов чаще проводится внутри компании, тегирование предоставляется, как правило, внешними сервисами за абонентскую плату (обычно по количеству просмотров).
- Лог-анализ требует разовой покупки ПО, но некоторые вендоры ограничивают бесплатную обработку по объёму данных.
- Для хранения и архивации логов требуется дополнительное оборудование и ресурсы IT-поддержки.
- ПО должно регулярно обновляться и обеспечиваться патчами по безопасности.
- Стоимость внедрения зависит от внутренней экспертизы, выбранного поставщика и объёма данных.
Вне зависимости от метода сбора данных, анализ должен включать затраты на интерпретацию: сторонние консультанты, обучение штатных аналитиков и др.
Некоторые решения объединяют оба способа сбора данных (лог-файлы и тегирование страниц) для повышения точности статистики[13].
Благодаря использованию баз данных и API геолокации по IP-адресу, возможно определять местоположение посетителя до города или страны[14]. Эта информация используется для персонализации контента, таргетинга, борьбы с мошенничеством и для улучшения аналитики.
Кликабельная аналитика (англ. click analytics, также clickstream) фокусируется на анализе действий пользователя при переходе по ссылкам. Она позволяет редактировать структуру сайтов и контента исходя из реальных путей кликов. Данные могут собираться в реальном времени или с задержкой; анализ кликов особенно важен для динамичного новостного контента и оценки эффективности рекламы и дизайна.
Аналитика жизненного цикла клиента (англ. customer lifecycle analytics) связывает все события, связанные с одним пользователем (просмотры, клики, обращения к API), в единую маркетинговую воронку[15]. Это позволяет глубже понимать поведение, автоматизировать оптимизацию сайта и маркетинговых кампаний. Используются такие ключевые метрики, как стоимость привлечения клиента (CAC), пожизненная ценность клиента (CLV), отток клиентов и индекс удовлетворённости[15].
Используются и альтернативные способы сбора данных, например перехват сетевого трафика (packet sniffing), не требующий изменений сайта, либо интеграция аналитики непосредственно в ПО веб-сервера[16]. Сторонники этих методов отмечают более высокую точность и возможность работы в режиме реального времени.
Распространённые ошибки и проблемы веб-аналитики
Проблема гостиницы возникает при попытке просуммировать уникальных посетителей по дням и за месяц и обнаружить несоответствие итоговых чисел. Это связано со спецификой агрегации: если человек посещает сайт в несколько дней, он будет засчитан несколько раз по дням, но всего один раз по месяцу.
| День 1 | День 2 | День 3 | Всего | |
|---|---|---|---|---|
| Номер A | Иван | Иван | Марк | 2 уникальных пользователя |
| Номер B | Марк | Анна | Анна | 2 уникальных пользователя |
| Всего | 2 | 2 | 2 | ? |
Сумма по дням даст большее число, чем по итогу периода; это особенность метрики.
С развитием интернета и ростом объёма бот-трафика стал актуален вопрос надежности веб-аналитики. Боты могут эмулировать действия пользователей и запускать код аналитики, что искажает статистику. Были продемонстрированы примеры успешного инициирования аналитических событий ботами для большинства популярных веб-аналитических инструментов[17].[18]
Проблемы с куки третьих сторон
Традиционно внешние сервисы веб-аналитики использовали куки третьих сторон, что позволяло отслеживать посетителей между доменами, но вызывало опасения относительно приватности. Многие пользователи блокируют такие куки (в некоторых отчётах — до 28 % в 2005 году)[19]. Большинство сервисов теперь используют куки первого уровня.
Удаление куки приводит к тому, что уникальный посетитель при следующем визите опять считается «новым». При ротации IP-адресов, использовании прокси или общего устройства корректность определения уникальных пользователей может снижаться. Альтернативные методы уникализации либо сложны, либо потенциально нарушают приватность[20].
Защищённые методы аналитики
Примечания
Литература
- Clifton, Brian (2010). Advanced Web Metrics with Google Analytics, 2nd edition, Sybex.
- Mortensen, Dennis R. Yahoo! Web analytics: tracking, reporting, and analyzing for data-driven insights. — Indianapolis, Ind : Wiley, 2009. — ISBN 978-0470424247.
- Farris, P., Bendle, N.T., Pfeifer, P.E., Reibstein, D.J. (2009). Key Marketing Metrics. The 50+ Metrics Every Manager needs to know, Prentice Hall, London.
- Plaza, Beatriz (18 сентября 2009). “Monitoring web traffic source effectiveness with Google Analytics: An experiment with time series”. ASLIB Proceedings. 61 (5): 474—482. DOI:10.1108/00012530910989625.
- Arikan, Akin (2008). Multichannel Marketing. Metrics and Methods for On and Offline Success. Sybex.
- Tullis, Tom & Albert, Bill (2008). Measuring the User Experience. Collecting, Analyzing and Presenting Usability Metrics. Morgan Kaufmann, Elsevier, Burlington MA.
- Kaushik, Avinash. Web analytics 2.0: The Art of Online Accountability and Science of Customer Centricity. — Sybex, 2009. — ISBN 9780470529393.
- Kaushik, Avinash. Web analytics: an hour a day / Avinash Kaushik, Dave Raybould. — Indianapolis, Ind : Wiley, 2007. — ISBN 9780470130650.
- Bradley N (2007). Marketing Research. Tools and Techniques. Oxford University Press, Oxford.
- Sostre, Pedro and LeClaire, Jennifer (2007). Web Analytics for Dummies. John Wiley & Sons.
- Burby, Jason and Atchison, Shane (2007). Actionable Web Analytics: Using Data to Make Smart Business Decisions.
- Davis, J. (2006). Marketing Metrics: How to create Accountable Marketing plans that really work. John Wiley & Sons (Asia).
- Peterson Eric T. (2005). Web Site Measurement Hacks. O'Reilly Media.
- Zheng, J. G. and Peltsverger, S. (2015). Web Analytics Overview, In book: Encyclopedia of Information Science and Technology, Third Edition, IGI Global.