X-Robots-Tag в HTTP заголовках: всё, что вам нужно знать

Существует несколько типов директив, которые сообщают поисковым роботам, какие страницы они могут сканировать. Наиболее часто упоминаемыми являются файл robots.txt и тег meta robots.

Файл robots.txt говорит поисковым системам сканировать определенную часть вашего сайта, будь то страница, подпапка и т.д.

Это помогает оптимизировать сканирование, сообщая роботам, какие части сайта являются недостаточно важными, чтобы быть в приоритете сканирования.

Имейте в виду, что роботы поисковых систем не обязаны следовать этому файлу.

Другая часто применяемая директива – это тег meta robots. Он позволяет контролировать индексацию на уровне страницы.

Метатег robots может иметь следующие значения:

  • Index: позволяет поисковым системам добавлять страницу в свой индекс.
  • Noindex: запрещает поисковым системам добавлять страницу в свой индекс и запрещает ей появляться в результатах поиска для этой конкретной поисковой системы.
  • Follow: указывает роботам переходить по ссылкам на странице, чтобы те могли найти другие страницы.
  • Nofollow: указывает поисковым системам не переходить по ссылкам на странице.
  • None: это сокращение для noindex, nofollow.
  • All: это сокращение для index, follow.
  • Noimageindex: запрещает поисковым системам индексировать изображения на странице (изображения все еще могут индексироваться с помощью мета-тега robots, если они связаны с другим сайтом).
  • Noarchive: говорит поисковым системам не показывать кэшированную версию страницы.
  • Nocache: это то же самое, что и тег noarchive, но относится только к Bingbot / MSNbot.
  • Nosnippet: указывает поисковым системам не отображать текстовые или видео сниппеты.
  • Notranslate: говорит поисковым системам не показывать переводы страниц в поисковой выдаче.
  • Unavailable_after: сообщает поисковым системам конкретный день и время, когда они не должны отображать результат в своем индексе.
  • Noyaca: указывает поисковым роботам Яндекса не использовать мета-описания страниц в результатах поиска.

Тем не менее, есть еще один тег, который позволяет указывать директивы noindex и nofollow.

Тег X-Robots отличается от файла robots.txt и метатега robots тем, что он является частью HTTP заголовка, который управляет индексацией страницы в целом, в дополнение к определённым элементам на странице.

Google: Любая директива, которая может использоваться в метатеге robots, может быть указана как X-Robots-Tag.

Хотя вы можете установить директивы, связанные с robots.txt, в HTTP заголовок как с помощью метатега robots, так и с помощью тега X-Robots, существуют определенные ситуации, когда вы захотите использовать именно тег X-Robots.

Например, если вы хотите заблокировать определенное изображение или видео, вы можете использовать метод блокировки c HTTP.

Cила тега X-Robots заключается в том, что он гораздо более гибкий, чем метатег robots.

Также можно использовать регулярные выражения, прописывая директивы сканирования для файлов, отличных от HTML, а также изменяя параметры на глобальном уровне. Чтобы объяснить разницу между всеми этими директивами, нужно классифицировать их по типам, к которым они относятся.

Директивы поискового робота Директивы индексатора
Robots.txt использует директивы user agent, allow, disallow и sitemap для указания того, каким поисковым роботам разрешено или запрещено сканировать те или иные части сайта. Метатег Robots позволяет указать и запретить поисковым системам показывать определенные страницы сайта в результатах поиска. Nofollow позволяет указывать ссылки, которые не должны передавать PageRank.   Тег X-Robots позволяет вам контролировать то, как индексируются определенные типы файлов.

Реальные примеры использования X-Robots-Tag

Чтобы заблокировать определенные типы файлов, идеальным решением было бы добавить тег X-Robots в конфигурацию Apache или файл .htaccess.

X-Robots-Tag можно добавить к HTTP-ответам сайта в конфигурации сервера Apache через файл .htaccess.

Допустим, мы хотим, чтобы поисковые системы не индексировали тип файла .pdf. Эта конфигурация на серверах Apache будет выглядеть примерно так:

В Nginx это будет выглядеть так:

Или, допустим, мы хотим использовать X-Robots-Tag для блокировки индексации изображений, таких как .jpg, .gif, .png и т.д. Это будет выглядеть следующим образом:

Понимание сочетания этих директив и их влияния друг на друга имеет огромное значение.

Предположим, что когда поисковые роботы изучают URL, там присутствует как X-Robots-Tag, так и Meta Robots.

Если этот URL заблокирован из robots.txt, то определенные директивы индексирования не могут быть обнаружены и не будут выполняться.

Если директивы должны выполняться, то страницы, которые их содержат, не должны быть закрыты от сканирования.

Проверьте наличие X-Robots-Tag

Есть несколько разных методов, которые можно использовать для проверки наличия X-Robots-Tag на сайте. Один из методов – использовать Screaming Frog.

После проверки сайта с помощью Screaming Frog, вы можете перейти на вкладку «Директивы», найти столбец «X-Robots-Tag» и посмотреть, какие разделы сайта используют этот тег и какие именно директивы.

Существует несколько различных плагинов, таких как Web Developer, которые позволяют вам определить, используется ли тег X-Robots.

Нажав на плагин в вашем браузере, а затем перейдя в «Просмотр заголовков», вы можете увидеть различные используемые HTTP заголовки.

Итоги

Есть несколько способов проинструктировать роботов поисковых систем не сканировать определенные разделы или определенные ресурсы на странице.

Понимание каждого из них и того, как они влияют друг на друга, крайне важно, так как позволяет избежать серьезных ошибок в SEO при использовании директив.

Оригинал статьи – searchenginejournal.com

Понравилась статья?

Изучите большой мануал по SEO продвижению сайтов своими руками и другие публикации:

Узнайте больше о том, как улучшить SEO или PPC вашего сайта, подписавшись на наш блог!

Звёзд: 1Звёзд: 2Звёзд: 3Звёзд: 4Звёзд: 5 (2 оценок, среднее: 5,00 из 5)
Загрузка...
logo