Использование Google Analytics для отслеживания Googlebot
Как правило, веб-серверы ведут журнал (так называемый «log») каждого отдельного запроса, полученного в log-файле. Log-файлы веб-сервера содержат записи о каждом файле, передаваемом веб-клиенту, включая страницы, обслуживаемые Googlebot’ом, и дают уникальную информацию о том, как поисковые системы сканируют веб-сайт.
Однако, log-файлы часто сложны для доступа и обработки.
Лайфхак использования Google Analytics для того, чтобы отслеживать Googlebot! Альтернативный способ анализа того, как поисковик сканирует сайт, без постоянной работы с log-файлами или сервисами. Без абонентской платы и танцев с бубнами.
Введение в log-файлы веб-сервера
Каждый раз, когда файл запрашивается с веб-сервера (когда пользователь заходит на страницу через браузер или поисковая система сканирует URL-адрес), в log-файл добавляется текстовая запись.
В текстовой записи указывается время и дата, когда был сделан запрос, IP-адрес запроса, запрошенный URL/контент и user agent из браузера:
188.65.114.122 –[30/May/2019:08:07:05 -0400] “GET /resources/whitepapers/ retail-whitepaper/ HTTP/1.1” 200 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“
Обычно, новый log-файл каждый день создается с новым именем.
Как используются log-файлы
Комбинируя запросы от одного и того же IP-адреса и User agent’а, можно объединить отдельные посещения одного пользователя. Программное обеспечение имеет возможность обрабатывать информацию из log-файлов и может создавать отчёты об активности вплоть до просмотра отдельных страниц. До изобретения сторонних аналитических пакетов, этот тип данных был основным источником информации для веб-аналитики.
В дополнение к пользовательской активности, анализ log-файла предоставляет уникальную информацию об активности поискового робота на отдельных страницах.
Просмотры страниц роботами не записываются с помощью обычного аналитического программного обеспечения. Log-файлы предоставляют, недоступные где-либо ещё, данные о сканировании поисковой системой на уровне URL. Это полезно при оптимизации архитектуры сайта для максимально рационального и эффективного его сканирования роботом.
Анализ log-файлов также удобен при поиске как малополезных, так и высокоактивных роботов, что позволяет блокировать их и снизить затраты на сервер. Обратный поиск DNS по IP-адресам необходим для проверки подлинности ботов, поскольку поле user agent’а может быть подделано.
Хоть это и полезно, у анализа log-файла есть много сложностей.
Сложности, связанные с анализом log-файлов
- Размер: log-файлы пропорциональны активности и могут достигать размера в несколько гигабайт, что делает их загрузку продолжительной, а хранение неудобным.
- Доступ: требуется FTP-доступ к серверу, что снижает общую безопасность системы.
- Форматы: с переменными форматами может быть сложно работать, а каждый веб-сервер использует свой формат.
- CDN: сторонние службы кэширования обычно не предоставляют log-файлы и не могут быть легко объединены в один набор.
- Проверка: поскольку User-agent может быть подделан, роботы поисковых систем должны проверяться с использованием «Обратного поиска DNS».
Хитрость, связанная с Google Analytics
Эта универсальная фишка, связанная с Analytics, использует Протокол передачи статистических данных для хранения информации log-файла в учетной записи Google Analytics, к которой можно получить доступ в режиме реального времени.
Однажды внедрив её, вы полностью избавляетесь от необходимости снова иметь дело с log-файлами. Однако это требует от вас навыков программиста и запуска собственного простого скрипта на веб-сервере и отслеживания каждого запроса.
Большинству людей не хватает навыков, необходимых для разработки и установки скрипта веб-сервера – вы можете обратиться к администратору сервера за помощью в реализации этого.
Первый вариант – хранение данных в новом представлении
Если User agent’ом является Googlebot, скрипт может сгенерировать HTTP-запрос к серверу Google Analytics, сохраняя ту же информацию, которая обычно поступает в log-файл, кодируя ее в URL-запрос:
http://www.google-analytics.com/collect?uip=127.0.0.1&cs=page+title&tid=
UA-1234567810&dp=%2Ftest&dt=127.0.0.1+%28Mozilla%2F5.0+%28Macintosh
%3B+Intel+Mac+OS+X+10_9_5%29+AppleWebKit%2F537.36+%28KHTML%2C+
like+Gecko%29+Chrome%2F44.0.2403.157+Safari%2F537.36%29&dh=
example.com&cid=316c4790-2eaf-0133-6785-2de9d37163a1&
t=pageview&v=1
Это позволит записать информацию в Google Analytics как «просмотр страницы».
Более подробная информация о протоколе передачи статистических данных доступна на сайте разработчиков Google.
Вы должны хранить информацию в отдельной учётной записи Google Analytics (представлении).
На вкладке «просмотры страниц» вы можете просмотреть уровень активности вплоть до просмотра каждой страницы:
Google Analytics в режиме реального времени ограничивает поля, которые можно отображать и фильтровать. Для получения данных сканирования в режиме реального времени включите информацию о User agent’е в поле заголовка.
Также бывает полезно включать IP-адреса запроса, поскольку это позволит распознать активность настоящего робота Google – его адрес начинается на 66.249.
Включите другую информацию, такую как время запроса, в собственные измерения.
Второй вариант – создание событий
Второй вариант реализации отслеживания – это создание событий в GA по каждому обращению Googlebot к странице.
- Категория события – Googlebot
- Действие по событию – URL страницы
- Ярлык события – данные Googlebota
Таким образом, у вас будет информация какой бот, какие страницы и как часто посещает прямо в GA.
Использование
Использование Google Analytics для отслеживания Googlebot позволяет делать более эффективный метод анализа робота поисковой системы, поскольку это устраняет необходимость возиться с log-файлами.
Имея событие с данными, вы сможете прямо в GA накладывать данные по трафику и посещению ботами страницы.
В статье использованы материалы: deepcrawl.com.
Полезные материалы
- Техническая оптимизация – чек-лист, по которому можно проверить ваш сайт
- Путеводитель по операторам расширенного поиска поисковых систем
- Мультиязычный сайт? Учимся устанавливать hreflang для сайтов на разных языках