Правильный robots.txt для joomla |
Автор: Maxim |
15 Октября 2012г |
Поделиться
Твитнуть
Поделиться
Плюсануть
Поделиться
|
Что же это за файл robots.txt и почему на него так обращают внимание при создании сайтов. Начнем по порядку. Файл robots.txt представляет собой обычный текстовый документ, в нем записаны команды или инструкции для роботов поисковых систем (Яндекса, Google, Mail и др.). Таким образом после создания сайта и добавлении его для индексации посиковыми системами программы-роботы сначала пытаются найти на сайте именно текстовый документ robots.txt. А уже потом следуя инструкции описанной в этом файле поисковики начинают сканировать сайт и добавлять в поиск страницы, но не все подряд, а только те которые мы им разрешаем. Инструкции пишутся для каждого проекта индивидуально. Можно одной поисковой системе разрешить индексировать страницы, а другому роботу поставить запрет на идексацию тех же страниц. Можно написать идентичную инструкцию для всех поисковиков, разрешить или запретить полностью индексацию сайта тоже можно в сомощью файла robots. Рассмотрим некотрые команды для robots.txt.1. Команда User-agent - этой командой обычно указывается роботам каких поисковиков следовать инструкции описанной дальше. Например: User-agent: yandex - далее инструкция только для яндекса. User-agent: google - только для google. User-agent: * - для всех одинаковая инструкция. 2. Команды Disallow и Allow -с помощью этих директив мы соответственно запрещаем или разрешаем доступ роботам к папкам сайта, определенным страницам или файлам. Например: Disallow: /admin - запрещает доступ к папке admin Allow: /admin - разрешает досуп к папке admin Пример совместного использования: Allow: /admin Disallow: / В этом примере мы разрешаем доступ только к директории admin на нашем сайте. 3. Команда Sitemap - данная команда очень важна при создании robots.txt, т.к. с её помощью мы можем ускорить поиск роботом поисковой системы файла карты нашего сайта sitemap.xml. А чтобы индексирование ускорилось и страницы сайта попали в индекс системы бвстрее файл карты сайта должен быть и находиться в корневой директории сайта. Пример: Sitemap: http://www.site.ru/sitemap.xml где sitemap.xml - заранее сформированная карта сайта. 4. Команда Host - так как попасть на страницы сайта, как мы знаем, можно набрав в адресной строке имя сайта с www или без www, то получается у сайта есть зеркало (http://www.site.ru и http://site.ru). Но поисковой системе не нужны дуби с www и без www. Вот за это и отвечает директива Host, она говорит роботам поисковиков какое зеркало сайта считать главным и как добавлять в свой поиск страницы с www, или без. Пример (основное зеркало www): Host: www.site.ru 5. Команда Crawl-Delay - позволяет указать роботу время между обходом страниц сайта, т.е. промежуток времени после окончания закачки страницы и перехода на следующую. Это полезно в тех случаях когда поисковый сервер перегружен. Пример: Crawl-delay: 10 6. Команда Clean-param - это довольно новая команда, вводимая разработчиками Яндекса, проситать про нее можно на сайте Яндекс. А суть данной директивы сводится к тому что бы в поиск не попадали дубли динамических страниц используемых у нас на сайте. И напоследок выкладываю роботс который получился у меня. P.S. Жду от Вас ваши robots.txt с комментариями. |
Читайте далее: | Читайте новое: |