Как убрать дубли в Joomla через robots txt
- Подробности
- Категория: Joomla (Джумла)
- Просмотров: 4891
Как убрать дубли в Joomla? - это вопрос и проблема одновременно волнует многих создателей сайтов на Джумле, чаще создателей интернет-магазинов. Дублирующие страницы - "вредны" с точки зрения продвижения в поисковиках интернет-магазина или любого вашего сайта.
Как убрать из индексации дублирующие страницы в Джумле? В данной статье мы поговорим о стандартном несложном методе - а именно с помощью robots.txt, который обычно находится в корневой папке сайта. Так вот, его надо отредактировать должным образом, а именно, в данном случае для избавления от повторяющихся страниц, чтобы не было дублей в индексе поисковиков.
Robots.txt для Joomla
Вы можете посмотреть свой "роботс тхт" - пройдя по адресу site.ru/robots.txt (где вместо вместо site.ru подставляем имя своего домена - у меня это saitsozdanie.ru). Данный файл показывает поисковым системам Яндекс, Google и другим инструкции, а именно какие страницы можно им смотреть и добавлять к себе в индекс, а какие и не стоит. У Joomla проблемы с дублями возникают при добавлении сторонних модулей, например модуля интернет-магазина virtuemart или других.
Проверить есть ли у вашего сайта на Джумле дублирующие страницы и другой "мусор" заходим в яндекс вебмастер и смотрим статистику сайта, если при количестве страниц допустим в 1500 штук - лишь 50 в индексе, значит дубли есть! Также можете использовать этот способ, открываем яндекс и вводим это - url:sait.ru* | url:www.sait.ru* - также заменяем на имя своего домена. Яндекс выдаст вам все страницы, которые проиндексировал. Если вы увидите в ваших ссылках что-то типа этого index.php? - то это значит, что ваши ссылки уже неправильные и у вас не задействован стандартный модуль SEF или сторонний(которые превращают ссылки в более человекоудобочитаемые). Современные их модификации - также умеют отлавливать дубли в Джумле.
Сам robots.txt:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Sitemap: http://путь к вашей карте XML формата
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: vash_sait.ru
Sitemap: http://путь к вашей карте XML формата
Директива User-agent: * - говорит, что это правило, что ниже относится ко всем поисковикам, если заместо звездочки поставить Yandex - то это уже будет относится только к этой поисковой машине.
Директива Disallow: показывает то, что нужно убрать из индекса поисковиков. Например Disallow: /administrator/ (укажет поисковикам, что нельзя папку administrator заносить в свой индекс и тем более показывать людям, потому что там нет полезной информации для них, там только служебная)
Директива Host: для всех роботс стандартная - тут вы указываете имя своего домена без http:// - для правильной индексации поисковиками.
Директива Sitemap: тут вы указываете путь к файлу с картой сайта для вашего сайта - для ускорения индексации страниц.