Home News

Делаем правильный robots.txt для WordPress

06.09.2018

видео Делаем правильный robots.txt для WordPress

Правильный файл robots txt для MODx

robots.txt – это файл, в котором записаны правила для поисковых роботов, которые гласят о том, как индексировать весь сайт. Очевидно, что от содержания этого файла зависит успешность всей стратегии продвижения. В этой статье я вам покажу, как сделать правильный robots.txt для WordPress.


Внутренняя оптимизация: robots.txt, sitemap, nofollow - Урок №8, Школа SEO

robots.txt – это файл, который задаёт правила индексации. От того, какие правила заданы в этом файле, зависит то, какие страницы сайта будут присутствовать в том или ином поисковике.

Отсутствие robots.txt или его неверное содержание повлечёт неправильную индексацию и может стать причиной наложения поисковых фильтров, что не позволит сайту развиться.


Создать файл robots.txt

Правильный robots.txt для WordPress

Чтобы сделать правильный robots.txt для WordPress, создайте текстовый файл с расширением .txt и назовите его robots. Заполните его правилами, которые вам необходимы. Файл нужно сохранить в корневую папу сайта через FTP.

Если файл robots.txt будет назван как-то иначе или будет иметь другое расширение или будет находиться не в корневой папке, то поисковики его не увидят, и поэтому сочтут, что этого файла вовсе нет.

Готовый правильный robots.txt для WordPress вы можете скачать по ссылке ниже. Только поменяйте « https:// example. ru » на свой сайт, а « https:// example. ru/ sitemap. xml » на свою карту сайта.

robots.txt для WordPress

Перед использованием, извлеките из архива.

Теперь поясню, что означает каждое выражение. robots.txt состоит из директив, каждая директива обозначает какое-либо правило. Директивы могут иметь свои параметры. robots.txt для WordPress, который вы скачали выше, содержит следующие правила:

User- agent. Здесь указывается имя робота, для которого идут правила ниже. Правила для указанного робота заканчиваются перед следующим User-agent. Если директива имеет значение « *» (звёздочка), то эти правила относятся ко всем роботам. Каждый робот поисковой системы имеет своё имя, у многих поисковых систем есть по несколько роботов с разными именами. Список популярных User-agent можете скачать по ссылке ниже.

Перед использованием, извлеките из архива.

Disallow. Эта директива запрещает индексирование частей сайта, путь к которым в ней указан. Так, « Disallow: / wp- admin » — означает, что « example. ru/ wp- admin » в поиске участвовать не будет. Правило « Disallow: */ trackback » означает, что « example. ru/любое_значение/ trackback » не будет индексироваться. Установка символа « *» означает любое значение. Аналогично с « Disallow: /*?* » — это правило показывает, что не будут индексироваться все страницы, имеющие в адресе знак « ?», независимо от того, что написано до этого знака и после. Allow. Правильный robots.txt для WordPress обычно не содержит этой директивы, но она может иногда пригодиться. Это то же самое, что и « Disallow», только наоборот, то есть, это разрешающее правило. Так, например, если вы заблокировали « example. ru/ wp- admin », но вам нужно проиндексировать какою-то одну страницу в каталоге « wp- admin », например « page. php », то необходимо создать такое правило « Allow: wp- admin/ page. php ». Тогда страница будет индексировать, несмотря на запрет.

Правильный robots.txt для WordPress в Яндексе

Правильный robots.txt для WordPress должен иметь отдельную часть для Яндекса, как в примере, который можно скачать выше. Для этого поисковика обязательно необходимо указать следующие директивы:

Host. Это адрес главного зеркала сайта, либо с WWW, либо без WWW. Главное зеркало также должно быть настроено в файле .htaccess. Подробнее тут . Sitemap. Это адрес к карте сайта XML формата (для роботов) . Необходимо указать полный путь до карты, например « https:// example. ru/ sitemap. xml ».

Роботы Яндекса также понимают правило « Crawl-delay ». Оно указывает, с какой периодичность робот может сканировать сайт. Указывается в секундах, например, « Crawl-delay: 2.5 » указывает, что робот может посещать страницу не чаще, чем один раз в 2,5 секунды. Эта директива может быть полезна, если сканирующий робот оказывает слишком большую нагрузку на сайт.

Если хотите, то можно узнать, как выглядит файл robots.txt на любом сайте. Для этого напишите в браузере адрес « https:// example. ru/ robots. txt » (вместо « example. ru » целевой сайт).

rss