X-Robots-Tag в HTTP заголовках: всё, что вам нужно знать
Существует несколько типов директив, которые сообщают поисковым роботам, какие страницы они могут сканировать. Наиболее часто упоминаемыми являются файл robots.txt и тег meta robots.
Файл robots.txt говорит поисковым системам сканировать определенную часть вашего сайта, будь то страница, подпапка и т.д.
Это помогает оптимизировать сканирование, сообщая роботам, какие части сайта являются недостаточно важными, чтобы быть в приоритете сканирования.
Имейте в виду, что роботы поисковых систем не обязаны следовать этому файлу.
Другая часто применяемая директива – это тег meta robots. Он позволяет контролировать индексацию на уровне страницы.
Метатег robots может иметь следующие значения:
- Index: позволяет поисковым системам добавлять страницу в свой индекс.
- Noindex: запрещает поисковым системам добавлять страницу в свой индекс и запрещает ей появляться в результатах поиска для этой конкретной поисковой системы.
- Follow: указывает роботам переходить по ссылкам на странице, чтобы те могли найти другие страницы.
- Nofollow: указывает поисковым системам не переходить по ссылкам на странице.
- None: это сокращение для noindex, nofollow.
- All: это сокращение для index, follow.
- Noimageindex: запрещает поисковым системам индексировать изображения на странице (изображения все еще могут индексироваться с помощью мета-тега robots, если они связаны с другим сайтом).
- Noarchive: говорит поисковым системам не показывать кэшированную версию страницы.
- Nocache: это то же самое, что и тег noarchive, но относится только к Bingbot / MSNbot.
- Nosnippet: указывает поисковым системам не отображать текстовые или видео сниппеты.
- Notranslate: говорит поисковым системам не показывать переводы страниц в поисковой выдаче.
- Unavailable_after: сообщает поисковым системам конкретный день и время, когда они не должны отображать результат в своем индексе.
- Noyaca: указывает поисковым роботам Яндекса не использовать мета-описания страниц в результатах поиска.
Тем не менее, есть еще один тег, который позволяет указывать директивы noindex и nofollow.
Тег X-Robots отличается от файла robots.txt и метатега robots тем, что он является частью HTTP заголовка, который управляет индексацией страницы в целом, в дополнение к определённым элементам на странице.
Google: Любая директива, которая может использоваться в метатеге robots, может быть указана как X-Robots-Tag.
Хотя вы можете установить директивы, связанные с robots.txt, в HTTP заголовок как с помощью метатега robots, так и с помощью тега X-Robots, существуют определенные ситуации, когда вы захотите использовать именно тег X-Robots.
Например, если вы хотите заблокировать определенное изображение или видео, вы можете использовать метод блокировки c HTTP.
Cила тега X-Robots заключается в том, что он гораздо более гибкий, чем метатег robots.
Также можно использовать регулярные выражения, прописывая директивы сканирования для файлов, отличных от HTML, а также изменяя параметры на глобальном уровне. Чтобы объяснить разницу между всеми этими директивами, нужно классифицировать их по типам, к которым они относятся.
Директивы поискового робота | Директивы индексатора |
---|---|
Robots.txt использует директивы user agent, allow, disallow и sitemap для указания того, каким поисковым роботам разрешено или запрещено сканировать те или иные части сайта. | Метатег Robots позволяет указать и запретить поисковым системам показывать определенные страницы сайта в результатах поиска. Nofollow позволяет указывать ссылки, которые не должны передавать PageRank. Тег X-Robots позволяет вам контролировать то, как индексируются определенные типы файлов. |
Реальные примеры использования X-Robots-Tag
Чтобы заблокировать определенные типы файлов, идеальным решением было бы добавить тег X-Robots в конфигурацию Apache или файл .htaccess.
X-Robots-Tag можно добавить к HTTP-ответам сайта в конфигурации сервера Apache через файл .htaccess.
Допустим, мы хотим, чтобы поисковые системы не индексировали тип файла .pdf. Эта конфигурация на серверах Apache будет выглядеть примерно так:
В Nginx это будет выглядеть так:
Или, допустим, мы хотим использовать X-Robots-Tag для блокировки индексации изображений, таких как .jpg, .gif, .png и т.д. Это будет выглядеть следующим образом:
Понимание сочетания этих директив и их влияния друг на друга имеет огромное значение.
Предположим, что когда поисковые роботы изучают URL, там присутствует как X-Robots-Tag, так и Meta Robots.
Если этот URL заблокирован из robots.txt, то определенные директивы индексирования не могут быть обнаружены и не будут выполняться.
Если директивы должны выполняться, то страницы, которые их содержат, не должны быть закрыты от сканирования.
Проверьте наличие X-Robots-Tag
Есть несколько разных методов, которые можно использовать для проверки наличия X-Robots-Tag на сайте. Один из методов – использовать Screaming Frog.
После проверки сайта с помощью Screaming Frog, вы можете перейти на вкладку «Директивы», найти столбец «X-Robots-Tag» и посмотреть, какие разделы сайта используют этот тег и какие именно директивы.
Существует несколько различных плагинов, таких как Web Developer, которые позволяют вам определить, используется ли тег X-Robots.
Нажав на плагин в вашем браузере, а затем перейдя в «Просмотр заголовков», вы можете увидеть различные используемые HTTP заголовки.
Итоги
Есть несколько способов проинструктировать роботов поисковых систем не сканировать определенные разделы или определенные ресурсы на странице.
Понимание каждого из них и того, как они влияют друг на друга, крайне важно, так как позволяет избежать серьезных ошибок в SEO при использовании директив.
Оригинал статьи – searchenginejournal.com
Понравилась статья?
Изучите большой мануал по SEO продвижению сайтов своими руками и другие публикации:
Узнайте больше о том, как улучшить SEO или PPC вашего сайта, подписавшись на наш блог!