Как убрать дубли в Joomla через robots txt

Как убрать дубли в Joomla?  - это вопрос и проблема одновременно волнует многих создателей сайтов на Джумле, чаще создателей интернет-магазинов. Дублирующие страницы - "вредны" с точки зрения продвижения в поисковиках интернет-магазина или любого вашего сайта.

robots txt для joomla

Как убрать из индексации дублирующие страницы в Джумле? В данной статье мы поговорим о стандартном несложном методе - а именно с помощью robots.txt, который обычно находится в корневой папке сайта. Так вот, его надо отредактировать должным образом, а именно, в данном случае для избавления от повторяющихся страниц, чтобы не было дублей в индексе поисковиков.

Robots.txt для Joomla

Вы можете посмотреть свой "роботс тхт" - пройдя по адресу site.ru/robots.txt (где вместо вместо site.ru подставляем имя своего домена - у меня это saitsozdanie.ru). Данный файл показывает поисковым системам Яндекс, Google и другим инструкции, а именно какие страницы можно им смотреть и добавлять к себе в индекс, а какие и не стоит. У Joomla проблемы с дублями возникают при добавлении сторонних модулей, например модуля интернет-магазина virtuemart или других. 

Проверить есть ли у вашего сайта на Джумле дублирующие страницы и другой "мусор" заходим в яндекс вебмастер и смотрим статистику сайта, если при количестве страниц допустим в 1500 штук - лишь 50 в индексе, значит дубли есть! Также можете использовать этот способ, открываем яндекс и вводим это - url:sait.ru* | url:www.sait.ru* - также заменяем на имя своего домена. Яндекс выдаст вам все страницы, которые проиндексировал. Если вы увидите в ваших ссылках что-то типа этого index.php? - то это значит, что ваши ссылки уже неправильные и у вас не задействован стандартный модуль SEF или сторонний(которые превращают ссылки в более человекоудобочитаемые). Современные их модификации - также умеют отлавливать дубли в Джумле.

Сам robots.txt:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Sitemap: http://путь к вашей карте XML формата

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: vash_sait.ru
Sitemap: http://путь к вашей карте XML формата

Директива User-agent: * - говорит, что это правило, что ниже относится ко всем поисковикам, если заместо звездочки поставить Yandex - то это уже будет относится только к этой поисковой машине.

Директива Disallow: показывает то, что нужно убрать из индекса поисковиков. Например Disallow: /administrator/ (укажет поисковикам, что нельзя папку administrator заносить в свой индекс и тем более показывать людям, потому что там нет полезной информации для них, там только служебная)

Директива Host: для всех роботс стандартная - тут вы указываете имя своего домена без http:// - для правильной индексации поисковиками.

Директива Sitemap: тут вы указываете путь к файлу с картой сайта для вашего сайта - для ускорения индексации страниц.

 

Добавить комментарий


Защитный код
Обновить

Вы здесь: Сайтостроение CMS Joomla Как убрать дубли в Joomla через robots txt