Основні способи уникнути дублювання контенту

Дублі вкрай негативно впливають на репутацію сайту серед пошукових роботів. Якщо на одному домені існують сторінки з однаковим контентом, пошуковику дуже складно з'ясувати, яку з них вважати першоджерелом. У кращому випадку машина покаже посилання на випадково створений дубль у видачі. У гіршому — погіршить позиції ресурсу за недотримання вимог до якості.

Дана проблема — одна з найпоширеніших в сучасному SEO. Вона ускладнюється відсутністю автоматичних інструментів, які виявлять дублі зі стовідсотковою ймовірністю. Тому варто розібратися в причинах її появи та способах ручного пошуку дублікатів.

Перехід на стандарт HTTPS з HTTP

Якщо в процесі «переїзду» веб-майстром були допущені помилки (не використовувався 301 редирект, реалізований неграмотно, на HTTPS перевели тільки частина сторінок сайту), появи дублів не уникнути. Перевірити їх наявність дуже просто. Досить ввести в пошуковому рядку браузера адресу сторінки з HTTP і з HTTPS. Доступ повинен бути тільки до однієї з версій.

Інша справа — часткове використання HTTPS на сторінках, до яких застосовуються відносні посилання. Щоразу під час аналізу ресурсу робот буде заново індексувати їх і створить дублі в своїй основі. Також проблема виникає під час використання URL з www і без нього. Для її вирішення використовуйте код HTTP 301. Краще також вкажіть основний домен в консолі для оптимізаторів Google.

Несумлінне копіювання контенту сторонніми ресурсами

Так як не існує чіткої політики щодо боротьби з сайтами, які запозичують вміст унікальних ресурсів, потрібно захищати його всіма доступними методами, бажано на рівні коду.

Краще відразу відмовитися від динамічних адрес, перейти на використання постійних URL, вказати на бажаних сторінках атрибут rel = "canonical». Цей спосіб допоможе пошуковій машині побачити канонічні URL, виділити їх серед дублів і перенести на дані адреси показники PageRank.

Переїзд на новий домен зі збереженням старого сайту

Найпоширеніший приклад: організація вирішила зробити новий сайт на новому домені, перенесла на нього основний текст зі старого, почала розвивати й благополучно забула про те, що попередня версія ресурсу продовжує «висіти» в інтернеті й індексуватися роботами. Використовуйте перенаправлення 301 для сторінок старого сайту, щоб уникнути проблем, але не втратити авторитетний майданчик з великою кількістю вхідних посилань.

Індексація сторінки в розробці

Пошукові машини регулярно сканують сторінки, незалежно від того, чи знаходяться вони в розробці або справно функціонують. Краще відредагувати файл robots.txt до завершення всіх дій і перенесення вмісту на домен або «закрити» небажані URL тегами.Попадання середовища розробки в індексацію не принесе нічого хорошого.

Динамічні параметри в URL

Популярні «Пошуки» часто автоматично створюють дублікати, додаючи на адресу параметр. Як результат, робот виявляє на сайтах кілька ідентичних сторінок, об'єднує їх в одну групу відповідно до власного алгоритму й показує у видачі тільки одну, не завжди потрібну.

Простий і правильний метод позбавлення від негативних наслідків — використання канонічних адрес. Атрибут також допоможе захистити контент від копіювання. Крім того, рекомендується задати параметри обробки URL в консолі Google Search. Якщо ж потрібно закрити індексацію окремої категорії, відредагуйте robots.txt за допомогою шаблонів заборони з «*». Тепер пошукова система пропустить будь-який вміст зазначених сторінок.

Віддзеркалення

З цією проблемою найчастіше стикаються великі компанії, що мають кілька локалізацій ресурсу для різних країн. Вона викликана однорідністю контенту на всіх регіональних доменах і вирішується тільки ретельним налаштуванням таргетингу змісту сайту на кожну країну окремо в консолі Google Search. Грамотна робота з інструментом виключить помилки в індексуванні.

Публікація авторського контенту за згодою

Повне або часткове заповнення сайту авторськими матеріалами допомагає швидше просунути його, але забороняти власнику контенту розмістити його на власному ресурсі теж не можна. Найпростіший метод, який не потребує правок коду, — попросити автора послатися на ресурс, де розміщений матеріал, як на першоджерело. В іншому випадку необхідно використовувати атрибут rel = "canonical» або закрити від індексації дублюючу сторінку на сторонньому ресурсі.

Блоки інформації зі схожим вмістом

Живий приклад — сайти погоди, автоматично генеруючі однакові блоки контенту. Так, назва міста, показники термометра й швидкість вітру будуть різні для кожної локації, але решта тексту збігається. Щоб робот не розцінив це як дублювання, варто розміщувати всі блоки на одній сторінці або виділити канонічні, закриваючи інші від індексування.

Сподіваємося, що представлені вище методи пошуку дублікатів допоможуть позбутися проблем з індексацією. Не нехтуйте тегом noindex, атрибутом canonical, а також не забувайте використовувати 301 редирект, якщо була змінена структура сайту або відбувся переїзд на новий домен.