Правила написания robots.txt с примерами

Сейчас почти на каждом сайте рунета есть страницы, которые нужно скрыть от индексации. Такими страницами могут быть дублирующий контент или же технические страницы. Индексация – занесение в базу данных страниц сайта специальным роботом конкретной поисковой системы. Даже если защищать от индексации на сайте нечего, то все равно нужно прописать директиву с www и без www для поисковых систем. Управляет всей этой индексацией файл robots.txt. И у него есть особые правила написания.

Что такое robots.txt?

История файла уже достаточно древняя для интернета. Все началось в 1994 году, именно тогда решили ввести специальный стандарт, который бы давал возможность сайтам давать поисковым системам указания по индексации. Естественно, файл robots.txt сохраняется в корневой папке сайта (public_html). Сохранение в любую другую папку запрещается.

У файла robots.txt есть несколько основных функций, которые он выполняет:

  • закрывает страницы от индексации
  • открывает страницы для индексации
  • дает указания поисковой системе Яндекс по поводу основного зеркала сайта (имеющее www или нет)
  • указывает место карты сайта

Многим может быть не понятно, для чего нужно закрывать страницы от индексации. Это делается довольно часто, так как на сайте могут присутствовать различные технические страницы или контент, который дублирует сам себя. Примерами таких страниц могут являться: результаты поиска, страницы тегов, версии для печати и многое другое. Дублирования текста должно быть как можно меньше, даже в наличии нескольких предложений, так как это является главным минусом в ранжировании поисковых систем.

По умолчанию все страницы сайта открыты. Поэтому вторая функции используется не так, как первая. Директива allow используется в связке с disallow. Такое можно делать, когда нужно открыть только одну или несколько страниц из целой рубрики.

Указание главного зеркала является, по сути, важнейшим пунктом из важнейших. Все дело в том, что для поисковой системы сайт www.mysite.ru и просто mysite.ru являются абсолютно разными ресурсами, которые не связаны между собой. Так они будут считать до тех пор, пока в файле robots.txt не будет указано обратное. Если не указано главное зеркало, то происходит дублирование контента, а все минусы такого повтора указывались выше.

Для разных поисковых систем главное зеркало прописывается по-разному. Есть различия в указаниях для Яндекса и Google. Так, в первом случае все указания нужно писать именно в файле robots.txt. Для Google все нужно указывать на их сайте.

Для чего указывать путь к файлы с картой сайта, скорее всего, понятно.

Правила указания User-agent

Под понятием User-agent имеется понимается определенная поисковая система. При написании инструкций для индексации следует использовать определенные знаки. Если указания будут действовать на все поисковики, то ставится значок «*» (User-agent: *).

User-agent: *

Если же инструкция рассчитана на определенный поисковик, то, соответственно, надо указывать имя поисковой системы.

User-agent: Yandex

User-agent: GoogleBot

Правила указания disallow и allow

Следует всегда помнить, что файл robots.txt обязательно должен иметь хотя бы одну директиву disallow. Если на сайте разрешены все страницы, то после директивы нужно оставить пустое поле.

User-agent: *
Disallow:

Если же нужно закрыть все страницы сайта, то следует указать символ «/».

User-agent: *
Disallow: /

Для запрета индексации конкретной директории, ее название нужно указать после символа «/».

User-agent: *
Disallow: /folder

Важным является подстановка произвольного названия для запрета. Для данной функции снова используют «*».

User-agent: *
Disallow: /folder

Стоит запомнить, что «звездочка» заменяет название файла полностью. Нельзя указать часть названия, а потом поставить «*». Например, если нужно запретить все файлы с расширением .php, то следует после директивы disallow прописать *.php.

User-agent: *
Disallow: *.php

Указываем хост и карту сайта

Хост – это то самое главное зеркало, которое нужно указать только для Яндекса. Для указания файла карты сайта нужно просто прописать путь к нему.

User-agent: Yandex
Disallow:
Host: вашсайт.ру

Для того, чтобы добавить в robots.txt путь к карте сайта, нужно указать следущее:

Sitemap: http://вашсайт.ру/sitemap.xml

Пример robots.txt для WordPress

Инструкции индексации сайта, сделанного на WordPress нужно писать так, чтобы закрыть доступ ко всем техническим директориям. Например, wp-admin, wp-includes и др.

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /xmlrpc.php
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /archive
Disallow: /?author=
Disallow: */trackback
Disallow: */feed
Disallow: /?feed
Disallow: */comments
Host: http://searchtimes.ru

User-agent: Googlebot
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /xmlrpc.php
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /archive
Disallow: /?author=
Disallow: */trackback
Disallow: */feed
Disallow: /?feed
Disallow: */comments
Host: http://searchtimes.ru

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /xmlrpc.php
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /archive
Disallow: /?author=
Disallow: */trackback
Disallow: */feed
Disallow: /?feed
Disallow: */comments
Host: http://searchtimes.ru

Источник

Показать больше

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»