Home News

Фильтры для нежелательного трафика в отчетах Google Analytics

05.09.2018

видео Фильтры для нежелательного трафика в отчетах Google Analytics

Как отслеживать негативные и позитивные отзывы с IQBuzz

Мы увеличиваем посещаемость и позиции в выдаче. Вы получаете продажи и платите только за реальный результат, только за целевые переходы из поисковых систем


Интернет-трафик: что это такое и как его измерить | SEMANTICA

Google Analytics — важный инструмент, который вы используете для понимания поведения посетителей сайта и анализа эффективности. Моя работа — вносить изменения на сайтах клиентов, согласно данным анализа. Часто сталкиваюсь с тем, что сайты не фильтруют данные о трафике после установки кода отслеживания. Это ошибка.

Представьте себе многослойный пирог. Сверху — крем, который вы любите, но в глубине — протухшая начинка. Вначале все отлично, но потом — гнилая сердцевина.

Если вы обращаете внимание только на итоговые отчеты и поверхностные цифры, то вряд ли сможете заметить, что часть из статистики — фиктивная. Она не отражает реальной картины поведения пользователей на ресурсе.

Вы потратите силы и время на изучение ложных данных. Сегодня я покажу вам, как использовать инструменты GA для получения неискаженной информации.

Общие угрозы в Google Analytics

Для маркетолога нет ничего хуже, чем принять неверное решение из-за ложной информации. Поэтому я постоянно изучаю новые способы решения этой проблемы.

Так, много времени я изучал призрачный трафик. Он был и остается серьезной проблемой анализа трафика. Вместе с ним, есть и другие типы, о которых поговорим.

Призрачный спам, сканеры и другие виды

Команда GA хорошо поработала, и количество призрачного трафика по сравнению с 2015-2017 сократилась в несколько раз.

Однако незнание пользователей, интерес, почему кто-то оставляет ссылку на их сайт, делают GA привлекательной мишенью для спамеров. Такая логика применима к любому инструменту. Неважно, какие меры безопасности установлены, всегда найдется человек, который попробует найти уязвимость и использовать ее в своих целях. Поэтому нужно добавить дополнительный уровень безопасности.

Например, возьмем популярную CMS WordPress. Система надежно защищена, но без дополнительных действий риск взлома повышается (поэтому, хотя бы, установите сложный пароль).

То же самое происходит с Google Analytics. Но вместо плагинов, вы можете использовать фильтры для его защиты.

В каких отчетах можно встретить спам

Спам-трафик обычно отображается как Переходы. Но попасть он может в любую часть отчетов. Даже в язык или название.

Иногда спамеры используют URL, похожие на адреса известных сайтов, или ставят необычные символы и эмодзи в имени источника.

Если подозреваете, что в отчет закрался подозрительный трафик, сделайте следующее:

Не переходите по подозрительным URL. Обычно на них вам будут что-то продавать. Но на некоторых сайтах вы можете натолкнуться на вредоносный скрипт. Очевидно, но никогда не устанавливайте скрипты с неизвестных сайтов. Если по ошибке это все же произошло, просканируйте ресурс на наличие вредоносных программ. Отфильтруйте спамный трафик и очистите отчет.

Если вы не уверены, реален ли адрес, попробуйте найти его в интернете, поместив URL в кавычки: “example.ru”. Вы не перейдете по подозрительному адресу, а увидите в выдаче результат поиска. Если это спам, как правило, в выдаче будут тексты жалоб на такой адрес.

Боты

Бот — это программа, которая автоматически выполняет какие-то действия в интернете.

Некоторые безвредны. Например, программа может проверять контент, защищенный авторским правом. Или краулеры поисковых систем, которые индексируют страницы. А некоторые опасны.

В любом случае, этот тип трафика вам не нужен: его может быть много, его сложнее идентифицировать и фильтровать. Ботов можно заблокировать через ваш сервер. Вам потребуется редактировать сложные файлы, в которых легко ошибиться. Кроме того, как я говорил, есть очень умные боты.

Поэтому, раз вы не получаете прямых угроз от ботов, разумнее просто отфильтровать их в GA.

В какие отчеты может попасть бот-трафик

Трафик отображается в Google Analytics как прямой. Ищем нелогичные, но схожие между собой, изменения в других отчетах. Например, крупные компании, которые пользуются ботами для навигации в интернете, обычно имеют уникальный поставщик услуг.

Внутренний трафик

Многие волнуются из-за спамного трафика. Это нормально. Никому не нужны странные адреса сайтов в отчетах. Спам — не самая большая угроза для Analytics.

Трафик от людей (и ботов в том числе) часто игнорируется, несмотря на то, что может иметь негативные последствия. Его трудно отследить, когда он учитывается аналитикой, он может смешаться с реальными данными о визитах пользователей. Есть разные типы внутреннего трафика, и разные методы работы с ним.

Прямой внутренний трафик

Разработчики, тестировщики, команда отдела маркетинга, поддержка… Список можно продолжать долго. Любой член команды, которая работает с вашим ресурсом, может внести свой вклад в отчет.

Если компания не использует частный домен интернет-провайдера, такой трафик сложно определить. Как только он учитывается системой, сразу отображается как “Прямой”.

Сторонние сайты / инструменты

Это трафик, который поступает от вашей команды, когда она использует специальные сервисы для работы над сайтом — например, таскменеджеры Trello или Asana.

Отчет фиксирует трафик от ботов, которые выполняют для вас автоматическую работу. Яркий пример — сервисы мониторинга производительности Pingdom или GTmetrix.

Типы инструментов, которые вам нужно учесть:

проектный менеджмент; управление соцсетями; мониторинг производительности; время безотказной работы; инструменты для SEO.

Трафик обычно попадает в отчет о Переходах.

Среды разработки

Некоторые ресурсы работают так. Пользователь из выдачи попадает на стабильно работающую версию, а изменения вначале вносятся на тестовый сайт, а после применяется к основному. На тестовых сайтах стоит тот же код отслеживания, что и на основном. Поэтому, если не делать фильтрацию, визиты на тестовый ресурс попадут в отчет по основному сайту.

Трафик попадает в отчет “Прямые сеансы”. Также отследит его можно по имени хоста (но об этом чуть позже).

Сайты веб-архивов и служб кэширования

Архивные сайты, например, Wayback Machine, сохраняют копии сайтов. Машина скопировала ваш сайт на свой архив вместе с кодом отслеживания. В итоге в Analytics вы видите сторонние переходы. Они не несут ценности — никто из тех, кто смотрит на ваш сайт образца 2013 года, не будет ничего у вас покупать. Им просто любопытно. Соответственно, такой трафик фильтруем.

Вы также можете его видеть в отчетах по имени хоста.

Основное понятие фильтров

В описанных ниже решениях используются фильтры GA. Чтобы не запутаться, изучите базовые понятия и как они работают.

Что нужно сделать перед настройкой фильтров

Создайте нефильтрованное представление.

Это поможет вам следить за эффективностью ваших фильтров и послужит резервной копией, если вдруг где-то ошибетесь. Убедитесь, что у вас есть права доступа.

Для создания фильтров нужны права редактирования на уровне аккаунта. Фильтры не работают со старыми данными.

В GA агрегированные источники данных удалять нельзя. Чем раньше вы примените фильтры, тем лучше. Изменения, вносимые фильтрами, постоянны!

Если вы допустили ошибку в настройке, указали неверное выражение или опечатались, вы потеряете ценные данные навсегда. Способа восстановить данные до применения фильтра нет.

Официально, требуется до 24х часов, чтобы фильтр начал работать. Но, как правило, достаточно 3х минут.

Типы фильтров

Их два: предопределенные и пользовательские. Первые весьма ограниченны, поэтому я привык пользоваться кастомными — они позволяют использовать регулярные выражения.

В пользовательских есть пять отношений:

содержит; не содержит; нижний регистр; верхний регистр; найти и заменить; расширенный.

Мы будем использовать первые два.

Для работы потребуются навыки написания регулярных выражения. О том, что это такое, какие есть операторы, в блоге SEMANTICA есть отдельная статья .

Как создавать фильтры для предотвращения спама, ботов и внутреннего трафика в Google Analytics

Следующие шаги стандартны. Их нужно выполнять при настройке каждого фильтра.

Фильтр по имени хоста (против призрачного трафика, спама, трафика из сред разработки)

Отсеивает трафик:

призрачный спам; из сред разработки по имени хоста; из агрегаторов; сайтов архивирования и кэширования.

Это самый эффективный фильтр против спама. Он профилактический и не требует частого обновления.

Призрачный визит носит такое название потому, что фактически на ваш сайт никто не заходит. Данные о нем отправляются напрямую в Analytics. Иногда можно встретить такие источники, которые и представить сложно — например, кофеварки или микроволновки.

Спамер может использовать такую уловку, чтобы имитировать посещения вашего ресурса. Он отправляет трафик по автоматическим сценариям на случайно сгенерированные кода отслеживания (UA-00000001).

Спамеры не знают, на какой именно ресурс они воздействуют. Поэтому призрачный спам всегда оставляет за собой след в виду поддельного имени хоста. Если создадите фильтр, включающий только их действительные имена, отсеете призрачный трафик.

Где найти имена хостов

Чтобы настроить фильтр, нужно найти эти имена. Имя хоста — это любое место, где может присутствовать код отслеживания для GA. Вы можете получить информацию из отчета по именам хостов: заходим в “Аудитории” > “Технологии” > “Сеть”. Выбираем дополнительный параметр: “Имя хоста”.

Вы должны увидеть хотя бы одно имя. Если их несколько, выпишите те, которые имеют к вам отношение.

Пример нужных имен:

Пример ненужных имен:

Ниже я приведу пример своего отчета.

Теперь сделайте регулярное выражение со списком проверенных доменов, которые имеют к вашему сайту прямое отношение.

yourdomain.com|hostname2|hostname3|hostname4

Вы можете создать только один фильтр, который включает имена нужных серверов. Постарайтесь уместить все в одно выражение до 255 символов.

Конфигурация правильного фильтра:

Имя фильтра: Include valid hostnames. Тип фильтра: “пользовательский”, “содержит”; Поле фильтрации: Hostname (имя хоста). Действие: [ hostname регулярное_выражение ]

Фильтр источников по кампаниям

Исключает трафик:

идущий от ботов; поступающий от сторонних инструментов.

Даже если в ответе поток указан как “Переходы”, поле, которое нужно использовать в фильтре — “Источник кампании”.

Следующий вредоносный вид деятельности — это парсинг сайта грабберами. Они притворяются действительным пользователем, но, в отличи от призраков, получают доступ к сайту. Поэтому адрес хоста, который они оставляют, верный.

Аналогично с прошлым регулярным выражением, нужно собрать источники или адреса, с которых поступает спам. Здесь можно сделать несколько фильтров, которые исключают из отчета данные.

spam1|spam2|spam3|spam4

Конфигурация правильного фильтра:

Имя фильтра: Exclude crawler spam. Тип фильтра: “пользовательский”, “исключить”. Поле фильтрации: Campaign source (источник кампании). Действие: [ crawler регулярное_выражение ].

Вы можете скомбинировать вместе фильтр против спам-ботов и против сторонних инструментов. Но мне нравится их разделять, потому что их проще обновлять.

Фильтр делается также, как и предыдущий. В выражении мы указываем те источники, которые нам не нужны в отчете. Например, для таксменеджеров картина выглядит так:

Фильтр против языкового и других видов спама

То, что мы уже разобрали, остановит большую часть потока спама в вашу аналитику. Но есть еще некоторые методы, которые используют спамеры.

Злоумышленники могут путать вас, показывая одно из ваших действительных имен хоста в сочетании с известным источником — Apple, Google, Moz.

Если источник выглядит нормально, выдать мошенника могут другие части отчета — ключевые слова, заголовок страницы и даже язык.

Вам нужно сделать фильтр, который учтет то поле, куда проник спам. Учтите, имя отчета не всегда совпадает с именем в поле фильтра.

Пример. Для фильтра “языковой спам”/бот-фильтр будут следующие настройки:

Имя фильтра: Language spam. Тип фильтра: “пользовательский”, “исключить”. Поле фильтрации: “Language settings” (языковые параметры). Действие: [ Language регулярное_выражение ].

\s[^\s]*\s|.{15,}|\.|,|^c$

Регулярное выражение исключает ненастоящие языки, которые не подходят под формат. посмотрите на эти странные тексты, которые появляются вместо обозначения языков:

Фильтры для прямых заходов ботов

Сложность в том, что боты не оставляют никаких следов о своих источниках. Запаситесь терпением! Для начала проверьте, включена ли фильтрация ботов. Вроде она включается изначально.

Зайдите в панель Администратора, выберите раздел “Представления” и поставьте галочку “Фильтрация роботов — исключить обращения известных роботов и пауков”.

Замечательно, если это сработает. Ключ для мошенничества в слове “известных”. Известных ботов много, но используемых по факту гораздо больше. Выберите любой отчет, нажмите на поле “Сегмент” и найдите “Прямой трафик”.

Затем поищите в отчетах то, что кажется подозрительным, например:

интернет-провайдер; версия браузера; разрешение экрана; версия flash; страна/город.

Признаки бот-трафика:

Неестественное увеличение прямого трафика. Устаревшие версии браузеров, flash. Посещение только домашней страницы (обычно это символ “/”). Неестественные метрики: процент отказа 100%; длительность сессии 0 секунд; 1 просмотренная страница за визит; 100% новых пользователей.

Обратите внимание. Это возможные показатели, но не всегда они точно говорят о том, что вы столкнулись с бот-трафиком.

Мне помог отчет по интернет-провайдерам. Крупные корпорации часто используют свое имя поставщика услуг связи.

Также у меня есть встроенное выражение для ISP-ботов.

hubspot|^google\sllc$|^google\sinc\.$|alibaba\.com\sllc|ovh\shosting\sinc\.

Конфигурация:

Имя фильтра: Исключить ботов по ISP. Тип фильтра: пользовательский, “исключить”. Поле фильтрации: ISP organization. Действие: [ ISP prodiver регулярное_выражение].

IP-фильтр для внутреннего трафика

Мы уже говорили о разных типах внутреннего трафика — когда сайт тестовый, когда используется среда разработки.

Займемся самым интересным случаем: трафиком, генерируемым вашей командой, которая работает над ресурсом. Чтобы его отфильтровать, исключите открытые IP-адреса всех ресурсов, которые вы используете.

Примеры мест и сотрудников, которых можно отфильтровать:

офис; отдел поддержки; команда разработчиков; отели; кофейни; бары; рынки; другие места, в которых ваши сотрудники могут работать над сайтом удаленно.

Чтобы найти общедоступный IP, выполните поиск в Google. Увидите примерно следующие данные:

Составьте список всех внешних адресов, составьте регулярное выражение по аналогии с теми, что мы уже писали:

IP1|IP2|IP3|IP4

Конфигурация:

Имя фильтра: Exclude internal traffic (IP). Тип фильтра: пользовательский, “исключить”. Поле фильтрации: IP-адрес. Действие: [ The IP регулярное_выражение ].

Случаи, когда фильтр не требуется:

Вы используете анонимайзеры. Ваш провайдер предоставляет динамический IP. Некоторые ваши сотрудники работают удаленно из разных мест. Вы часто путешествуете и выходите в интернет из разных мест.

Если к вам подходит что-то из вышеперечисленного, то воспользуйтесь расширенным фильтром URL-адресов ниже.

Фильтр URL-адресов для внутреннего трафика

Если в компании работает несколько сотен человек, регулярно ездят в командировки и работают в кофейнях, отследить каждого очень сложно. На помощь приходят фильтры по запросам URL. Чтобы его использовать, просто добавьте параметр. Например, я добавляю “?internal” к любой ссылке, которую используют работники для доступа к сайту в разных местах:

таск-менеджерах (Trello, Redmine); письмах коллегам; даже напрямую в адресной строке браузера.

Базовый фильтр URL-адресов для внутреннего трафика

Идея — исключить из отчета любой адрес содержащий параметр “?internal”.

Конфигурация:

Имя фильтра: Exclude Internal Traffic (URL Query). Тип фильтра: пользовательский, “исключить”. Поле фильтрации: Request URL (запрашиваемый URL). Действие: \?internal.

Решение подходит, когда пользователь остается на целевой странице, например, при отправке сообщения всем сотрудникам с просьбой перейти по ссылке.

Если пользователь отправится дальше, то последующие страницы все равно попадут в отчет.

Расширенный фильтр URL-запросов

Это усовершенствованная версия предыдущего. Фильтр динамически отсеивает внутренние запросы к сайту с помощью Диспетчера тегов, настраиваемых параметров GA и cookie.

Настроить его непросто, но выгода очевидна:

Не нужно обновлять. Легко исправить любому члену команды. Можно пользоваться вне зависимости от местоположения. Можно пользоваться с любого устройства и браузера.

Добавьте текст “?internal” на любой URL.

Это добавит в браузер небольшой куки-файл, который отправит команду в GA не записывать посещение. Тем более, файл будет актуален год (если пользователь не удалит его вручную), поэтому не нужно каждый раз добавлять к адресу этот параметр.

Фильтр-бонус: учитываем только внутренний трафик

Интересно, а что если, наоборот, учесть только внутренний трафик?

Создадим дополнительное представление. Назовем его “Только внутренний трафик”. Далее используйте один из видов фильтров выше. Но только один!

Например, возьмем расширенный фильтр по URL. Конфигурация точно такая же, но вместо “исключить” выбираем “включить”.

Очистка истории

Фильтры работают на будущее время. Вы настроили его, и в дальнейшем отчеты будут чистыми. Но что делать с данными, которые уже захламлены спамом?

Выше я говорил, что удаление агрегированных данных невозможно. Тем не менее, есть способ на время очистить хотя бы немного ваши отчеты от мусорного трафика.

Для этого используем расширенный сегмент (подмножество данных GA). Есть встроенные, например, Трафик переходов или Трафик с планшетов. Можно создать свой сегмент по собственным правилам.

Чтобы очистить историю, мы сделаем свой сегмент. Используем для этого все выражения из фильтров, которые мы уже сделали, кроме фильтров по IP — они не сохраняются в GA.

Я подготовил шаблон сегмента, скачать можете отсюда .

Вам нужно просто менять нужные поля.

После импорта шаблона, выберите сегмент:

Нажмите на поле “Все пользователи” в верхней части любого отчета. В списке сегментов отметьте те, которые помечены как “0. All Users — Clean”. Наконец, снимите флажок “Все пользователи”.

Теперь можете перемещаться по своим отчетам, очищенным от нежелательного трафика.

Что нужно учесть:

Заключение

Вам нужно анализировать верные данные. Если вы не настроили фильтры, отчет будет наверняка содержать мусор и искусственную информацию. Хуже всего то, что вы не сразу поймете, что это попало к вам в Analytics, и можете принять неверные решения.

Фильтры, которые мы рассмотрели выше, помогут вам предотвратить три наиболее вероятные угрозы попадания ненужного трафика в GA — спамный, трафик от ботов и внутренний трафик в компании.

После настройки можете быть уверены: вы не потратите время и деньги впустую. Ваши решения будут основаны на верной информации и актуальной статистике.

А если вы используете другие инструменты, которые импортируют данные из GA, например, плагины WordPress, все станет намного эффективнее.

rss