Составление файла robots.txt
МЕТА-тег “Robots” – это простой инструмент для указания роботам, может ли страница быть проиндексирована и можно ли следовать по ссылкам со страницы.
<meta name=“robots” content=“index,follow”>
<meta name=“robots” content=“noindex,follow”>
<meta name=“robots” content=“index,nofollow”>
<meta name=“robots” content=“noindex,nofollow”>
META-тег “Robots” содержит указания, разделенные запятыми. В настоящее время определены существующие указания [NO]INDEX и [NO]FOLLOW. Директивы INDEX указывают, может ли робот индексировать страницу. Директива FOLLOW указывает роботу, может ли он следовать по ссылкам со страницы. Значения по умолчанию – INDEX и FOLLOW. Значения ALL и NONE обозначают активность всех директив и, соответственно, наоборот: ALL=INDEX,FOLLOW и NONE=NOINDEX,NOFOLLOW.
Файл robots.txt
Располагать файл robots.txt необходимо в корне сайта и называться он должен именно так и никак иначе. Для CMS проследить, чтобы этот файл открывался браузером.
Запретить весь сайт для индексации всеми роботами
User-agent: *
Disallow: /
Разрешить всем роботам индексировать весь сайт
User-agent: *
Disallow:
Или можете просто создать пустой файл «/robots.txt».
Закрыть от индексации только несколько каталогов
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Запретить индексацию сайта только для одного робота
User-agent: BadBot
Disallow: /
Разрешить индексацию сайта одному роботу и запретить всем остальным
User-agent: Yandex
Disallow:
User-agent: *
Disallow: /
Следующим роботам Яндекса можно указать отдельные директивы:
- 'YandexBot' — основной индексирующий робот;
- 'YandexMedia' — робот, индексирующий мультимедийные данные;
- 'YandexImages' — индексатор Яндекс.Картинок;
- 'YandexCatalog' — "простукивалка" Яндекс.Каталога;
- 'YandexDirect' — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса;
- 'YandexBlogs' — робот поиска по блогам, индексирующий комментарии постов;
- 'YandexNews' — робот Яндекс.Новостей;
- 'YandexPagechecker' — робот, обращающийся к странице при валидации микроразметки через форму «Валидатор микроразметки»;
В robots.txt проверяется наличие записей, начинающихся с 'User-agent:', в них ищутся подстроки 'Yandex', либо '*' (регистр значения не имеет), причем, если обнаружено 'User-agent: Yandex', директивы для 'User-agent: *' не учитываются. Если записи 'User-agent: Yandex' и 'User-agent: *' отсутствуют, считается, что доступ роботу не ограничен.
Для каждого из них также действительно правило: если обнаружены директивы для конкретного робота, директивы 'User-agent: Yandex' и 'User-agent: *' не используются.
Если робот увидит вот такой файл:
User-agent: YandexBot #директива будет использоваться только основным индексирующим роботом
Disallow: /*id=
User-agent: Yandex # будет использована всеми роботами Яндекса
Disallow: /*sid= # кроме основного индексирующего
User-agent: * # не будет использована роботами Яндекса
Disallow: /cgi-bin
(#комментарии)
Использование спецсимволов "*" и "$".
По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*'
Чтобы отменить '*' на конце правила, можно использовать спецсимвол '$'
User-agent: Yandex
Disallow: /example$
запрещает '/example', но не запрещает '/example.html'
Директива Host
Если у вашего сайта есть зеркала, специальный робот зеркальщик определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его у всех зеркал при помощи robots.txt, используя директиву 'Host' и определив в качестве ее параметра имя главного зеркала. Директива 'Host' не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом.
Важно: в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву 'Host' необходимо добавлять в группе, начинающейся с записи 'User-Agent', непосредственно после директив 'Disallow'('Allow').
Пример корректно составленного robots.txt, при обработке которого директива Host учитывается
User-Agent: *
Disallow:
Host: www.myhost.ru
Sitemap
Использовать данную директиву нужно только в том случае, если у Вас имеется XML-версия карты сайта. В значении данной директивы необходимо указать полный путь к карте сайта. Например, так:
Sitemap: http://mysite.ru/sitemap.xml
Clean-param
Если Ваш сайт динамический, и ссылки имеют GET-параметры, то очень часто в GET передаются параметры, которые не влияют на содержимое страницы. Например, два адреса одной и той же страницы:
http://mysite.ru/index.php?id=15&sid=f111ld88
http://mysite.ru/index.php?id=15&sid=d62828gg2
Фактически, данные ссылки отличаются значением параметра sid, а потому для поисковой системы это две совершенно разных страницы. Однако, очень часто такие параметры никак не меняют контент страницы. И вот для того, чтобы убрать дублирование (злейший враг оптимизации), возникающее вот от таких параметров, нужно использовать директиву Clean-param:
Clean-param: sid /index.php
При составлении файла robots.txt помните - "всё, что не запрещено - разрешено".
Просто скопируйте следующий код: