Использование Google Analytics для отслеживания Googlebot

Как правило, веб-серверы ведут журнал (так называемый «log») каждого отдельного запроса, полученного в log-файле. Log-файлы веб-сервера содержат записи о каждом файле, передаваемом веб-клиенту, включая страницы, обслуживаемые Googlebot’ом, и дают уникальную информацию о том, как поисковые системы сканируют веб-сайт.

Однако, log-файлы часто сложны для доступа и обработки.

Лайфхак использования Google Analytics для того, чтобы отслеживать Googlebot! Альтернативный способ анализа того, как поисковик сканирует сайт, без постоянной работы с log-файлами или сервисами. Без абонентской платы и танцев с бубнами. 

Введение в log-файлы веб-сервера

Каждый раз, когда файл запрашивается с веб-сервера (когда пользователь заходит на страницу через браузер или поисковая система сканирует URL-адрес), в log-файл добавляется текстовая запись.

В текстовой записи указывается время и дата, когда был сделан запрос, IP-адрес запроса, запрошенный URL/контент и user agent из браузера:

188.65.114.122 –[30/May/2019:08:07:05 -0400] “GET /resources/whitepapers/ retail-whitepaper/ HTTP/1.1” 200 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

Обычно, новый log-файл каждый день создается с новым именем.

Как используются log-файлы

Комбинируя запросы от одного и того же IP-адреса и User agent’а, можно объединить отдельные посещения одного пользователя. Программное обеспечение имеет возможность обрабатывать информацию из log-файлов и может создавать отчёты об активности вплоть до просмотра отдельных страниц. До изобретения сторонних аналитических пакетов, этот тип данных был основным источником информации для веб-аналитики.

В дополнение к пользовательской активности, анализ log-файла предоставляет уникальную информацию об активности поискового робота на отдельных страницах.

Просмотры страниц роботами не записываются с помощью обычного аналитического программного обеспечения. Log-файлы предоставляют, недоступные где-либо ещё, данные о сканировании поисковой системой на уровне URL. Это полезно при оптимизации архитектуры сайта для максимально рационального и эффективного его сканирования роботом.

Анализ log-файлов также удобен при поиске как малополезных, так и высокоактивных роботов, что позволяет блокировать их и снизить затраты на сервер. Обратный поиск DNS по IP-адресам необходим для проверки подлинности ботов, поскольку поле user agent’а может быть подделано.

Хоть это и полезно, у анализа log-файла есть много сложностей.

Сложности, связанные с анализом log-файлов

  • Размер: log-файлы пропорциональны активности и могут достигать размера в несколько гигабайт, что делает их загрузку продолжительной, а хранение неудобным.
  • Доступ: требуется FTP-доступ к серверу, что снижает общую безопасность системы.
  • Форматы: с переменными форматами может быть сложно работать, а каждый веб-сервер использует свой формат.
  • CDN: сторонние службы кэширования обычно не предоставляют log-файлы и не могут быть легко объединены в один набор.
  • Проверка: поскольку User-agent может быть подделан, роботы поисковых систем должны проверяться с использованием «Обратного поиска DNS».

Хитрость, связанная с Google Analytics

Эта универсальная фишка, связанная с Analytics, использует Протокол передачи статистических данных для хранения информации log-файла в учетной записи Google Analytics, к которой можно получить доступ в режиме реального времени.

Однажды внедрив её, вы полностью избавляетесь от необходимости снова иметь дело с log-файлами. Однако это требует от вас навыков программиста и запуска собственного простого скрипта на веб-сервере и отслеживания каждого запроса.

Большинству людей не хватает навыков, необходимых для разработки и установки скрипта веб-сервера – вы можете обратиться к администратору сервера за помощью в реализации этого.

Первый вариант – хранение данных в новом представлении

Если User agent’ом является Googlebot, скрипт может сгенерировать HTTP-запрос к серверу Google Analytics, сохраняя ту же информацию, которая обычно поступает в log-файл, кодируя ее в URL-запрос:

http://www.google-analytics.com/collect?uip=127.0.0.1&cs=page+title&tid=
UA-1234567810&dp=%2Ftest&dt=127.0.0.1+%28Mozilla%2F5.0+%28Macintosh
%3B+Intel+Mac+OS+X+10_9_5%29+AppleWebKit%2F537.36+%28KHTML%2C+
like+Gecko%29+Chrome%2F44.0.2403.157+Safari%2F537.36%29&dh=
example.com&cid=316c4790-2eaf-0133-6785-2de9d37163a1&
t=pageview&v=1

Это позволит записать информацию в Google Analytics как «просмотр страницы».

Более подробная информация о протоколе передачи статистических данных доступна на сайте разработчиков Google.

Вы должны хранить информацию в отдельной учётной записи Google Analytics (представлении).

На вкладке «просмотры страниц» вы можете просмотреть уровень активности вплоть до просмотра каждой страницы:

Google Analytics в режиме реального времени ограничивает поля, которые можно отображать и фильтровать. Для получения данных сканирования в режиме реального времени включите информацию о User agent’е в поле заголовка.

Также бывает полезно включать IP-адреса запроса, поскольку это позволит распознать активность настоящего робота Google – его адрес начинается на 66.249.

Включите другую информацию, такую как время запроса, в собственные измерения.

Второй вариант – создание событий

Второй вариант реализации отслеживания – это создание событий в GA по каждому обращению Googlebot к странице.

  • Категория события – Googlebot
  • Действие по событию – URL страницы
  • Ярлык события – данные Googlebota
Действие по событию
Ярлык события

Таким образом, у вас будет информация какой бот, какие страницы и как часто посещает прямо в GA.

Использование

Использование Google Analytics для отслеживания Googlebot позволяет делать более эффективный метод анализа робота поисковой системы, поскольку это устраняет необходимость возиться с log-файлами.

Имея событие с данными, вы сможете прямо в GA накладывать данные по трафику и посещению ботами страницы.

В статье использованы материалы: deepcrawl.com.

Полезные материалы

Звёзд: 1Звёзд: 2Звёзд: 3Звёзд: 4Звёзд: 5 (1 оценок, среднее: 5,00 из 5)
Загрузка...
logo