Главная / Статьи / Мой Вордпресс / Правильный robots.txt для WordPress глазами блоггеров

Правильный robots.txt для WordPress глазами блоггеров

Почему правильно составленый файла robots.txt так важен для сайта?
При индексации сайта поисковые системы первую очередь проверяют наличие файла robots.txt в корневой директории Вашего сайта. В этом файле указываются правила индексации сайта поисковыми роботами. Проще говоря, этот файл говорит поисковикам, что и как нужно индексировать, а что нет.

Где размещается файл robots.txt?

Файл размещается в корневой директории сайта. Например:
Адрес сайта http://site.com/
Адрес файла robots.txt http://site.com/robots.txt
На сайте должен присутствовать как минимум один файл robots.txt. Написание имени файла должно быть в нижнем регистре (маленькими буквами). Файл должен быть создан в UTF-8 кодировке.

Синтаксис файла robots.txt

User-agent – директива точно указывающая имя поискового робота для дальнейших инструкций. Отделение директив с инструкциями производится переводом строки.
Disallow – запрещает индексирование.
Allow – делает исключения в подмножестве запретов.
Host – директива для робота Yandex, осуществляет указание главного зеркала. Для корректной обработки и учета, директива должна располагаться после всех директив Disallow(Allow).
Sitemap – директива, указывающая на файл карты сайта (sitemap.xml).

Разница между Disallow: /cgi-bin и Disallow: /cgi-bin/ (со слешем и без слеша на конце)

Disallow: /cgi-bin/ – правило актуально для директории (папки) cgi-bin
Disallow: /cgi-bin – правило актуально для директорий и файлов cgi-bin
Файл robots.txt разрешающий полную индексацию сайта без запретов:

User-agent: *
Disallow:
Host: www.site.com
Sitemap: http://www.site.com/sitemap.xml

Запретить весь сайт для индексации всеми роботами:

User-agent: *
Disallow: /

Запрет индексации всех страниц сайта, содержащих знак вопроса (?)

User-agent:
Disallow: /*?

Запрет индексации определенного типа файлов
Запрет от индексации всех файлов .xls и .doc

User-agent:
Disallow: /*.xls$
Disallow: /*.doc$

Запрет индексации изображений с сайта поисковиком Google

User-agent: Googlebot-Image
Disallow: /

Перейдем непосредственно в правильному составлению robots.txt для WordPress

Для блогов на WordPress правильное составление файла robots.txt важно по причине негативного воздействия дублированного контента на позиции сайта в поисковых системах.
При обнаружении дублированного контента поисковики могут применить фильтр, что не особо опасно, но в некоторых случаях поисковые системы применяют жесткие санкции по отношению к сайту с дублированным контентом. Правильное составление robots.txt позволит исключить ненужные (дублированные) страницы с Вашего сайта и избежать лишних хлопот с фильтрами и санкциями.

Собственно, пример правильного robots.txt от самого WordPress

Ниже представлен файл robots.txt рекомендуемый WordPress:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

А это пример правильного robots.txt от студии VeseloNotki.ru

Успользуя правильный robots.txt рекомендуемый командой WordPress, убрав и добавив некоторые правила, получился следующий файл:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*? # Удален, т.к. на практике дублируется предыдущим
Disallow: /archives/ # Добавлен
Disallow: /category/ # Добавлен
Disallow: /search/ # Добавлен
Disallow: /page/ # Добавлен
Disallow: /tag/ # Добавлен
Disallow: /xmlrpc.php # Добавлен
Allow: /wp-content/uploads
Host: www.site.com # Добавлен
Sitemap: http://www.site.com/sitemap.xml # Добавлен

Проверка robots.txt

Перед утверждением созданного файла robots.txt не помешало бы его проверить на ошибки, которые могут привести к полному или частичному запрету индексации Вашего сайта.
Проверка robots.txt анализатором robots.txt от Яндекс.Вебмастер или с помощью Google webmasters tools.

0

Автор публикации

не в сети 2 дня

RuBlog24

60K
Комментарии: 8Публикации: 247Регистрация: 23-06-2017

Оставить комментарий

Войти с помощью: 

Ваш email нигде не будет показанОбязательные для заполнения поля помечены *

*