Дубли крайне негативно влияют на репутацию сайта среди поисковых роботов. Если на одном домене существуют страницы с одинаковым контентом, поисковику очень сложно выяснить, какую из них считать первоисточником. В лучшем случае, машина покажет ссылку на случайно созданный дубль в выдаче. В худшем – ухудшит позиции ресурса за несоблюдение требований к качеству.
Данная проблема – одна из самых распространенных в современном SEO. Она усугубляется отсутствием автоматических инструментов, которые выявят дубли со стопроцентной вероятностью. Поэтому стоит разобраться в причинах её появления и способах ручного поиска дубликатов.
Переход на стандарт HTTPS с HTTP
Если в процессе «переезда» вебмастером были допущены ошибки (не использовался 301 редирект, реализован неграмотно, на HTTPS перевели только часть страниц сайта), появления дублей не избежать. Проверить их наличие очень просто. Достаточно ввести в поисковой строке браузера адрес страницы с HTTP и с HTTPS. Доступ должен быть только к одной из версий.
Другое дело – частичное использование HTTPS на страницах, к которым применяются относительные ссылки. Каждый раз во время анализа ресурса, робот будет заново индексировать их и создаст дубли в собственной базе. Также проблема возникает во время использования URL с www и без него. Для её решения, используйте код HTTP 301. Лучше также укажите основной домен в консоли для оптимизаторов Google.
Недобросовестное копирование контента сторонними ресурсами
Так как не существует четкой политики относительно борьбы с сайтами, которые заимствуют содержимое уникальных ресурсов, нужно защищать его всеми доступными методами, желательно, на уровне кода.
Лучше сразу отказаться от динамических адресов, перейти на использования постоянных URL, указать на предпочитаемых страницах атрибут rel=»canonical». Этот способ поможет поисковой машине увидеть канонические URL, выделить их среди дублей и перенести на данные адреса показатели PageRank.
Переезд на новый домен с сохранением старого сайта
Самый распространенный пример: организация решила сделать новый сайт на новом домене, перенесла на него главный контент со старого, начала развивать и благополучно забыла о том, что предыдущая версия ресурса продолжает «висеть» в интернете и индексироваться роботами. Используйте перенаправление 301 для страниц старого сайта, чтобы избежать проблем, но не потерять авторитетную площадку с большим количеством входящих ссылок.
Индексация страницы в разработке
Поисковые машины регулярно сканирую страницы, независимо от того, находятся ли они в разработке или исправно функционируют. Лучше отредактировать файл robots.txt до завершения всех действий и переноса содержимого на домен или «закройте» нежелательные URL тегами
. Попадание среды разработки в индексацию не принесет ничего хорошего.
Динамические параметры в URL
Популярные «движки» часто автоматически создают дубликаты, добавляя в адрес параметр. Как результат, робот обнаруживает на сайт несколько идентичных страниц, объединяет их в одну группу согласно собственному алгоритму и показывает в выдаче только одну, не всегда нужную.
Простой и правильный метод избавления от негативных последствий – использования канонических адресов. Атрибут также поможет защитить контент от копирования. Кроме того, рекомендуется задать параметры обработки URL в консоли Google Search. Если же нужно закрыть индексацию отдельной категории, отредактируйте robots.txt с помощью шаблонов запрета со «*». Теперь поисковик пропустит любое содержимое указанных страниц.
Зеркалирование
С этой проблемой чаще всего сталкиваются крупные компании, имеющие несколько локализаций ресурса для разных стран. Она вызвана однородностью контента на всех региональных доменах и решается только тщательной настройкой таргетинга содержания сайта на каждую страну по отдельности в консоли Google Search. Грамотная работа с инструментом исключит ошибки в индексировании.
Публикация авторского контента с согласия
Полное или частичное заполнение сайта авторскими материалами помогает быстрее продвинуть его, но запрещать владельцу контента разместить его на собственном ресурсе тоже нельзя. Простейший метод, не требующий правок кода – попросить автора сослаться на ресурс, где размещен материал, как на первоисточник. В ином случае необходимо использовать атрибут rel=»canonical» либо закрыть от индексации дублирующую страницу на стороннем ресурсе.
Блоки информации с похожим содержимым
Живой пример – сайты погоды, автоматически генерирующие одинаковые блоки контента. Да, название города, показатели термометра и скорость ветра будут разные для каждой локации, но остальной текст совпадает. Чтобы робот не расценил это как дублирование, стоит размещать все блоки на одной странице или выделить канонические, закрывая остальные от индексирования.
Надеемся, что представленные выше методы поиска дубликатов помогут избавиться от проблем с индексированием. Не пренебрегайте тегом noindex, атрибутом canonical, а также не забывайте использовать 301 редирект, если была изменена структура сайта либо состоялся переезд на новый домен.