Robots — правила для поисковых роботов

02.01.2019 0 Автор Редакция

Robots.txt — правила (директивы, инструкции) для поисковых роботов. Файл Robots.txt — что необходимо знать. Где находится таинственный файл robots.txt.

Robots.txt  — это текстовый файл с описанием команд (директив) для управления индексацией веб-страниц/веб-сайта поисковыми машинами,  robots.txt находится в главной (корневой) папке сайта (при наличие поддоменов файл обязан находиться в корневом каталоге каждого из них). Он также доступен для просмотра по адресу (URL): сайт.ru/robots.txt.

Каждая CMS (Content Management System — система управления контентом) создает/генерирует robots.txt по-своему. Его можно создать/исправить в блокноте и внести измененный текстовый файл (.txt) в папку корневого каталога, или при помощи плагинов.

Использование файла robots.txt, несмотря на то, что он учитывается большинством поисковых роботов, добровольно. Попадая на сайт роботы поисковых систем просматривают robots.txt, и некорректно составленный файл роботы могут во-первых проигнорировать,  а во-вторых, что хуже, это может привести к тому, что сайт совсем выпадет из поискового индекса. Но для проверки правильности файла есть бесплатные онлайн-сервисы Яндекс Вебмастер и Google Search Console.

Основные директивы (правила, команды) текстового файла robots:

  • User-agent: — обращение к поисковику, для которого следуют нижеперечисленные директивы, * звездочка ставится, если правило обращено к любому поисковику, будь то Yandex, Google, Bing и т.д.
  • Disallow: — запретить индексирование (чаще нужно ставить запрет на админ панель, служебные файлы и папки, личный кабинет пользователя, различного вида дубли страниц и проч) раздела, страниц / (слэш) запрещает доступ к корневой папке сайта, то есть к содержимому всего сайта

Остальные директивы:

  • Allow: — разрешить индексирование, обратная disallow

Количество проиндексированных страниц в поисковиках Яндекс и Гугл можно c легкостью узнать с помощью оператора site. Прописываем в адресной строке site:сайт.com и смотрим на количество результатов (проиндексированных страниц) в поисковой выдаче.

По установленным стандартам перед каждой директивой User-agent рекомендуется вставлять пустой перевод строки. Не допускается наличие пустых переводов строки между тремя директивами User-agent, Disallow, Allow.

  • Sitemap: — адрес карты сайта, то есть путь к файлу (если описание структуры сайта происходит через файл sitemap: http://сайт.com/sitemap.xml). Директива sitemap может быть указана без привязки к какому либо user-agent, в любом месте.
  • Host: — адрес главного зеркала, директиву host многие роботы поисковики уже не считает обязательной. Главное зеркало указывается без http://, но с https://, с www или без www — не важно. Host указывается один раз.
  • Crawl-delay: — указывает время задержки между загрузками страниц, бессмысленная директива, так как системы сами делают задержку
  • Clean-param: — параметры, наличие которых у страниц, будет отличительным признаком для исключения этих страниц из индексирования.
  • Request-rate:  сколько страниц загружать/ в какой промежуток (в сек)
  • Visit-time: 0000-1045     загрузка страниц во временной промежуток, например с 0:00 до 10:45 по гринвичу

Эти параметры, прописанные в текстовом файле robots.txt правила совершенно не значат, что поисковые роботы будут неукоснительно следовать, они все-равно индексируют ресурсы (веб страницы), но, пока еще не лишним считается прописывать в файле robots.txt пожелания к поисковому роботу, всем или какому-то конкретному.

Если файл robots.txt — отсутствует или пустой, то машины поисковых систем индексируют все подряд, весь веб-сайт

N.B. — дописать