Всем привет. Сегодня мы продолжим тему индексации сайта поисковыми системами и поговорим о том, что такое файл robots.txt, для чего он нужен, и как правильно составить robots.txt для WordPress.

Что такое файл robots.txt и для чего он нужен

Итак, robots.txt это текстовый файл, расположенный в корневой директории сайта и предназначенный для роботов поисковых систем. В этом файле вебмастер указывает параметры индексирования своего сайта для роботов различных поисковых систем. В частности с помощью robots.txt можно закрыть от индексирования отдельные директории сайта, отдельные страницы и весь сайт целиком.

Дело в том, что большинство систем управления контентом (CMS) создают слишком много страниц с дублированным контентом, которые несут служебные функции, и не должны участвовать в поиске. Например, WordPress создает каталоги категорий, меток и архивов. Они необходимы для навигации пользователей по сайту и состоят полностью из уже опубликованных материалов. Таким образом, запретив к индексации все не нужное, мы оставляем поисковому роботу только те странички блога WordPress, которые должны попасть в поиск. При этом роботу уже не надо индексировать кучу дополнительных страниц, и он не тратит на них время и ресурсы, а значит, работает быстрее и эффективнее. Кроме того, в файле robots.txt указывается также путь к карте сайта, если она существует.

robots.txt для WordPress

Для блога на WordPress файл robots.txt должен иметь следующий вид:

User-agent: *
Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /webstat/

Disallow: /feed/

Disallow: /trackback

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /*?*

Disallow: /*?

Disallow: /category/*/*

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /comments

User-agent: Yandex

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /webstat/

Disallow: /feed/

Disallow: /trackback

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /*?*

Disallow: /*?

Disallow: /category/*/*

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /comments

Host: site.ru

Sitemap: http://site.ru/sitemap.xml

Sitemap: http://site.ru/sitemap.xml.gz


Просто создай у себя обычный текстовый файл в блокноте, скопируй туда код, указанный выше и закачай в корневую директорию своего сайта. При этом не забудь вместо site.ru вставить адрес своего сайта. Последние две строчки это путь к карте сайта. О том, как создать карту сайта можно прочитать в статье: карта сайта WordPress.

Как проверить robots.txt

Для того, чтобы убедиться, что robots.txt работает правильно нужно зайти в панель управления вебмастера по адресу webmaster.yandex.ru.  Выбираем: настройка индексирования > анализ robots.txt. После этого необходимо нажать кнопку «Загрузить robots.txt с сайта». Если ты все сделал правильно, то Яндекс загрузит содержимое твоего robots.txt с сайта и покажет его в окошке. Внизу, рядом со списком URL нажимаем «добавить». После этого, копируем туда адреса всех страниц нашего сайта. Их можно взять, например, из той же карты сайта. Нажимаем «проверить» и смотрим. Если все в порядке, то, Яндекс выдаст результат «разрешен». В противном случае он напишет, например «запрещен правилом /wp-admin», это значит, что правило Disallow: /wp-admin/, которое прописано в файле robots.txt запрещает индексацию данной страницы.