Настройка robots.txt

30 March2016

2004просмотров

Даже при самом поверхностном аудите оптимизатор должен проверить правильность составления такого файла как robots.txt. Его работа заключается в описании правил индексирования для поисковых роботов. Если такого файла в корневом каталоге сайта нет, то его обязательно нужно написать. Это можно сделать в обычном текстовом редакторе, например в Блокноте.

Ошибки в файле могут привести к ошибкам индексирования, неправильном поведении роботов на сайте, попадании в индекс дублей страниц или страниц с персональной информацией пользователей.

Главные директивы robots.txt

Можно изучать груды материалов по составлению этого файла, а можно всю необходимую информацию почерпнуть из этой статьи. Итак, приступим к описанию.

Главные директивы файла:

User-agent - директива, после которой код файла относиться к указанному в ней поисковому роботу. Тот есть, после этой директивы указываются правила для конкретной поисковой системы.

Обычно стоит прописывать такие блоки:

User-agent: Goolebot
User-agent: Yandex
User-agent:*

То есть, отдельные правила для бота Google, Яндекса и всех остальных поисковых систем. При сканировании файла робот будет искать свою секцию и использовать ее при индексации. Если секции нет, то будет искать секцию со звездочкой.

Disallow - главная директива запрета индексирования. С ее помощью закрываются дубли, каталоги, которые содержат персональные данные. В общем все, что не нужно впускать в индекс поисковых систем.

Allow - директива с в точности противоположными функциями предыдущей. Показывает роботам, что нужно индексировать.

Host - директива, которая указывает зеркало сайта для робота Яндекс. Для других ПС бесполезна.

Sitemap - подсказывает путь к XML карте сайта для поисковых роботов. Хотя путь к ней и указывается в панелях вебмастеров, но указать ее в файле robots.txt лишним не будет.

Чтобы разобраться, какие разделы стоит закрывать от индексации, можно использовать программу Xenu. Достаточно запустить сканирование сайта, чтобы на основе информации из отчета работы программы составить правильный robots.txt.

Также в файле используются специальные символы. Их всего два - * -звездочка, $ - знак доллара. Звездочка обозначает любую последовательность символов. Пример использования в синтаксисе может быть такой: Disallow: /page* - закрывает от индексации все страницы, которые начинаются на /page. Конструкция типа Disallow: /page$ говорит, что страница /page закрыта от индексации, а вот каталог /page/ индексировать можно.

Примеры использования синтаксиса

Конструкция для запрета индексации всего сайта:

User-agent: *
Disallow: /

Конструкция для разрешения индексации всего сайта

User-agent: *
Disallow:

Разрешение доступа только к одной странице c URL /katalogstranica/, но запрещает индексировать каталог /katalog/:

Allow: /katalog/stranica/
Disallow: /katalog/

Можно создать правило для запрета индексирования отдельного файла. Например запретим индексирование файла file.html в каталоге admin:

Disallow: /admin/file.html

Запрет всех файлов и каталогов содержащих file, в том числе и file.html

Disallow: /file*

Запрет индексации всех файлов с расширением htm, но возможность индексации расширения html:

Disallow: /*.htm$

Описать все примеры синтаксиса в одной статье не выйдет, поэтому нужно просто экспериментировать, используя приведенные директивы. В справках Яндекса и Google можно найти информацию касательно правильной настройки файла robots.txt.