Robots - правила для поисковых роботов

02.01.2019 0 Автор Редакция

Robots.txt - правила (директивы, инструкции) для поисковых роботов. Файл Robots.txt - что необходимо знать. Где находится таинственный файл robots.txt.

Robots.txt - это текстовый файл с описанием команд (директив) для управления индексацией веб-страниц/веб-сайта поисковыми машинами, robots.txt находится в главной (корневой) папке сайта (при наличие поддоменов файл обязан находиться в корневом каталоге каждого из них). Он также доступен для просмотра по адресу (URL): сайт.ru/robots.txt.

Каждая CMS (Content Management System - система управления контентом) создает/генерирует robots.txt по-своему. Его можно создать/исправить в блокноте и внести измененный текстовый файл (.txt) в папку корневого каталога, или при помощи плагинов.

Использование файла robots.txt, несмотря на то, что он учитывается большинством поисковых роботов, добровольно. Попадая на сайт роботы поисковых систем просматривают robots.txt, и некорректно составленный файл роботы могут во-первых проигнорировать, а во-вторых, что хуже, это может привести к тому, что сайт совсем выпадет из поискового индекса. Но для проверки правильности файла есть бесплатные онлайн-сервисы Яндекс Вебмастер и Google Search Console.

Основные директивы (правила, команды) текстового файла robots:

User-agent: - обращение к поисковику, для которого следуют нижеперечисленные директивы, * звездочка ставится, если правило обращено к любому поисковику, будь то Yandex, Google, Bing и т.д.
Disallow: - запретить индексирование (чаще нужно ставить запрет на админ панель, служебные файлы и папки, личный кабинет пользователя, различного вида дубли страниц и проч) раздела, страниц / (слэш) запрещает доступ к корневой папке сайта, то есть к содержимому всего сайта

Остальные директивы:

Allow: - разрешить индексирование, обратная disallow

Количество проиндексированных страниц в поисковиках Яндекс и Гугл можно c легкостью узнать с помощью оператора site. Прописываем в адресной строке site:сайт.com и смотрим на количество результатов (проиндексированных страниц) в поисковой выдаче.

По установленным стандартам перед каждой директивой User-agent рекомендуется вставлять пустой перевод строки. Не допускается наличие пустых переводов строки между тремя директивами User-agent, Disallow, Allow.

Sitemap: - адрес карты сайта, то есть путь к файлу (если описание структуры сайта происходит через файл sitemap: http://сайт.com/sitemap.xml). Директива sitemap может быть указана без привязки к какому либо user-agent, в любом месте.
Host: - адрес главного зеркала, директиву host многие роботы поисковики уже не считает обязательной. Главное зеркало указывается без http://, но с https://, с www или без www - не важно. Host указывается один раз.
Crawl-delay: - указывает время задержки между загрузками страниц, бессмысленная директива, так как системы сами делают задержку
Clean-param: - параметры, наличие которых у страниц, будет отличительным признаком для исключения этих страниц из индексирования.
Request-rate: сколько страниц загружать/ в какой промежуток (в сек)
Visit-time: 0000-1045 загрузка страниц во временной промежуток, например с 0:00 до 10:45 по гринвичу

Эти параметры, прописанные в текстовом файле robots.txt правила совершенно не значат, что поисковые роботы будут неукоснительно следовать, они все-равно индексируют ресурсы (веб страницы), но, пока еще не лишним считается прописывать в файле robots.txt пожелания к поисковому роботу, всем или какому-то конкретному.

Если файл robots.txt - отсутствует или пустой, то машины поисковых систем индексируют все подряд, весь веб-сайт

N.B. - дописать

Рубрикаwordpress

МеткиCMS robots.txt SEO - продвижение

Читающая страна превратилась в пишущую... Бродя по бесчисленным сайтам выложенных произведений, статистика печально улыбается океанской улыбкой "горе-писателей", шепча: "тут можно утонуть, и спасательный круг никто не бросит с известного издательства". Кризис перепроизводства чреват развитием одного фактора - индустрии развлечений. Во что и превращается литературное искусство. Вот и оно, похоже, подходит к критической точке ненужности, а дальше склон к нулю... Маленький объем присланного Вами произведения дает представление о нем, достаточное для того, чтобы принять решение о прочтении и публикации автора. Интересно? Читаем дальше... Нет? Переходим к следующему. Писатель должен найти своего читателя, а читатель, в свою очередь - свой круг литературных произведений, где будет чувствовать комфортно... Редакция.

Robots - правила для поисковых роботов

Читать также

Добавить комментарий Отменить ответ

Метки