Теле2

Борьба с дублями страниц. Дубли страниц, решение проблемы Правильная работа с дублями страниц

Борьба с дублями страниц

Владелец может и не подозревать, что на его сайте некоторые страницы имеют копии – чаще всего так и бывает. Страницы открываются, с их содержимым все в порядке, но если только обратить внимание на , то можно заметить, что при одном и том же контенте адреса разные. Что это значит? Для живых пользователей ровным счетом ничего, так как им интересна информация на страницах, а вот бездушные поисковые машины воспринимают такое явление совершенно по-другому – для них это совершенно разные страницы с одинаковым контентом.

Вредны ли дубли страниц? Итак, если рядовой пользователь даже не сможет заметить наличие дублей на вашем сайте, то поисковики это сразу определят. Какой реакции от них ждать? Так как по сути копии видят как разные страницы, то контент на них перестает быть уникальным. А это уже негативным образом сказывается на ранжировании.

Также наличие дублей размывает , который оптимизатор пытался сосредоточить на целевой странице. Из-за дублей, он может оказаться совсем не на той странице, на которую его хотели перенести. То есть эффект от внутренней перелинковки и внешних ссылок может многократно снизиться.

В подавляющем большинстве случаев в возникновении дублей виноваты – из-за неправильных настроек и отсутствия должного внимания оптимизатора генерируются четкие копии. Этим грешат многие CMS, например, Joomla. Для решения проблемы трудно подобрать универсальный рецепт, но можно попробовать воспользоваться одним из плагинов для удаления копий.

Возникновение же нечетких дублей, в которых содержимое не полностью идентично, обычно происходит по вине вебмастера. Такие страницы часто встречаются на сайтах интернет-магазинов, где страницы с карточками товаров отличаются лишь несколькими предложениями с описанием, а весь остальной контент, состоящий из сквозных блоков и прочих элементов, одинаковый.

Многие специалисты утверждают, что небольшое количество дублей не повредит сайту, но если их больше 40-50%, то ресурс при продвижении могут ждать серьезные трудности. В любом случае, даже если копий не так много, стоит заняться их устранением, так вы гарантированно избавитесь от проблем с дублями.

Поиск страниц-копий Существует несколько способов поиска дублированных страниц, но для начала стоит обратиться к нескольким поисковикам и посмотреть, как они видят ваш сайт – нужно лишь сравнить количество страниц в индексе каждого. Сделать это довольно просто, не прибегая ни к каким дополнительным средствам: в «Яндексе» или Google достаточно в строку поиска ввести host:yoursite.ru и посмотреть на количество результатов.

Если после такой простой проверки количество будет сильно отличаться, в 10-20 раз, то это с некоторой долей вероятности может говорить о содержании дублей в одной из них. Страницы-копии могут быть и не виноваты в такой разнице, но тем не менее это дает повод для дальнейшего более тщательного поиска. Если же сайт небольшой, то можно вручную посчитать количество реальных страниц и потом сравнить с показателями из поисковых систем.

Искать дублированные страницы можно по URL в выдаче поисковика. Если у них должны быть ЧПУ, то страницы с URL из непонятных символов, вроде «index.php?s=0f6b2903d», будут сразу выбиваться из общего списка.

Еще один способ определения наличия дублей средствами поисковых систем – это поиск по фрагментам текста. Процедура такой проверки проста: надо ввести фрагмент текста из 10-15 слов с каждой страницы в строку поиска, а затем проанализировать результат. Если в выдаче будет две и более страниц, то копии есть, если же результат будет всего один, то дублей у данной страницы нет, и можно не волноваться.

Логично, что если сайт состоит из большого количества страниц, то такая проверка может превратиться в невыполнимую рутину для оптимизатора. Чтобы минимизировать временные затраты, можно воспользоваться специальными программами. Один из таких инструментов, который наверняка знаком опытным специалистам, – программа Xenu`s Link Sleuth .

Чтобы проверить сайт, необходимо открыть новый проект, выбрав в меню «File» «Check URL», ввести адрес и нажать «OK». После этого программа начнет обработку всех URL сайта. По окончании проверки нужно экспортировать полученные данные в любой удобный редактор и начать поиски дублей.

Кроме вышеперечисленных способов в инструментарии панелей «Яндекс.Вебмастер» и Google Webmaster Tools есть средства для проверки индексации страниц, которыми можно воспользоваться для поиска дублей.

Методы решения проблемы После того как все дубли будут найдены, потребуется их устранение. Это тоже можно сделать несколькими способами, но для каждого конкретного случая нужен свой метод, не исключено, что придется использовать их все.

Страницы-копии можно удалять вручную, но такой способ скорее подойдет только для тех дублей, которые и были созданы ручным способом по неосмотрительности вебмастера.
Редирект 301 отлично подходит для склеивания страниц-копий, URL которых отличаются наличием и отсутствием www.
Решение проблемы с дублями с помощью тега canonical можно применять для нечетких копий. Например, для категорий товаров в интернет-магазине, которые имеют дубли, отличающиеся сортировкой по различным параметрам. Также canonical подойдет для версий страниц для печати и в других подобных случаях. Применяется он довольно просто – для всех копий указывается атрибут rel=”canonical”, а для основной страницы, которая наиболее релевантна, – нет. Код должен выглядеть примерно так: link rel="canonical" href="http://yoursite.ru/stranica-kopiya"/, и стоять в пределах тега head.
В борьбе с дублями может помочь настройка файла robots.txt. Директива Disallow позволит закрыть доступ к дублям для поисковых роботов. Подробнее о синтаксисе этого файла вы можете прочитать в нашей рассылки.

Довольно часто на одном и том же сайте существуют копии страниц, причем его владелец об этом может и не догадываться. При их открытии все отображается правильно, но если вы бросите взгляд на адрес сайта, тогда сможете заметить, что одному и тому же содержанию могут соответствовать различные адреса.

Что это означает? Для простых пользователей в Москве ничего, поскольку они пришли на ваш сайт не на названия страниц смотреть, а потому что их заинтересовал контент. А вот о поисковых машинах этого сказать нельзя, поскольку они такое положение вещей воспринимают совсем в другом свете - они видят отличные друг от друга страницы с одинаковым содержанием.

Если обычные пользователи могут и не заметить на сайте продублированные страницы, от внимания поисковиков это точно не ускользнет. К чему это может привести? Поисковые роботы определят копии как разные страницы, в результате они перестанут воспринимать их контент как уникальный. Если вас интересует продвижение сайта , то знайте, что на ранжировании это непременно отразится. К тому же наличие дублей снизит ссылочный вес, появившийся в результате немалых усилий оптимизатора, который пытался выделить целевую страницу. Дублирование страниц может привести к тому, что будет выделена совершенно иная часть сайта. А это может в разы снизить эффективность внешних ссылок и внутренней перелинковки .

Могут ли дубли страниц принести вред?

Зачастую виновником появления дублей является CMS , неправильные настройки которых или недостаток внимания оптимизатора может привести к генерированию четких копий. Такие системы по управлению сайтами, как Joomla часто этим грешат. Сразу отметим, что универсального средства для борьбы с этим явлением просто не существует, но можно установить один из плагинов, предназначенный для поиска и удаления копий. Однако могут появиться нечеткие дубли, содержимое которых не полностью совпадает. Это чаще всего случается из-за недоработок вебмастера. Нередко такие страницы можно найти в интернет-магазинах , в которых карточки товаров отличаются только несколькими предложениями описания, остальной же контент, который состоит из различных элементов и сквозных блоков, является одинаковым. Часто специалисты соглашаются, что некоторое количество дублей не помешает сайту, но если их около половины или больше, тогда продвижение ресурса вызовет немало проблем. Но даже в тех случаях, когда на сайте несколько копий, лучше их отыскать и устранить - так вы наверняка избавитесь от дублей на своем ресурсе.

Поиск дублированных страниц

Найти дублированные страницы можно несколькими способами. Но перед самим поиском было бы хорошо посмотреть на свой сайт глазами поисковиков: как они его себе представляют. Для этого просто сравните количество ваших страниц с теми, которые находятся в их индексе. Чтобы это увидеть, просто введите в поисковую строку Google либо «Яндекса» фразу host:yoursite.ru, после чего оцените результаты.

Если такая простая проверка предоставит различные данные, которые могут отличаться в 10 и более раз, то есть основания полагать, что ваш электронный ресурс содержит дубли. Хотя это и не всегда происходит по вине дублированных страниц, но эта проверка послужит хорошим основанием для их поиска. Если ваш сайт имеет небольшие размеры, тогда вы можете самостоятельно подсчитать число реальных страниц, после чего сравнить результат с показателями поисковиков. Произвести поиск дубликатов можно и посредством URL, которые предлагаются в поисковой выдаче. Если вы используете ЧПУ, тогда страницы с непонятными символами в URL, такие как «index.php?с=0f6b3953d», сразу же привлекут ваше внимание.

Другим методом определения наличия дублей является поиск фрагментов текста. Чтобы выполнить такую проверку, необходимо ввести текст из нескольких слов каждой страницы в поисковую строку, потом просто проанализировать полученный результат. В тех случаях, когда в выдачу попадает две или больше страниц, становится очевидным, что копии имеют место быть. Если же страница в выдаче только одна, тогда она не имеет дубликатов. Конечно, эта методика проверки подойдет только для небольшого сайта, состоящего из нескольких страниц. Когда сайт содержит их сотни, его оптимизатор может использовать специальные программы, например, Xenu`s Link Sleuth.

Для проверки сайта откройте новый проект и зайдите в меню «File», там найдите «Check URL», введите адрес интересующего вас сайта и нажмите «OK». Теперь программа приступит к обработке всех URL указанного ресурса. Когда работа будет выполнена, полученную информацию нужно будет открыть в любом удобном редакторе и произвести поиск дублей. На этом методы поиска дублированных страниц не заканчиваются: в панели инструментов Google Webmaster и «Яндекс.Вебмастер» можно увидеть средства, позволяющие проверить индексацию страниц. С их помощью тоже можно найти дубли.

На пути решения проблемы

Когда вы найдете все дубли, перед вам появится задача устранить их. Существует несколько возможностей решения этой проблемы и различные способы устранения дубликатов страниц.

Склеивание страниц-копий можно произвести с помощью редиректа 301. Это действенно в тех случаях, когда URL отличаются отсутствием или наличием www. Удалить страницы-копии можно и в ручном режиме, но этот метод успешен лишь для тех дублей, которые создавались вручную.

Решить проблему дублей можно при помощи тега canonical, который используется для нечетких копий. Так, его можно использовать в интернет-магазине для категорий товаров, для которых имеются дубли и которые отличаются лишь сортировкой по разным параметрам. К тому же тег canonical подходит для использования на страницах для печати и в аналогичных случаях. Использовать его совсем не сложно - для каждой копии задается атрибут в виде rel=”canonical”, для продвигаемой страницы с наиболее релевантными характеристиками, этот атрибут не указывается. Приблизительный вид кода: link rel="canonical" href="http://site.ru/stranica-kopiya"/. Располагаться он должен в области тега head.

Правильно настроенный файл robots.txt тоже позволит достичь успеха в борьбе с дублями. С помощью директивы Disallow вы можете перекрыть доступ поисковых роботов ко всем дублированным страницам.

Даже профессиональная разработка сайта не поможет вывести его в ТОП, если ресурс будет содержать дублированные страницы. На сегодняшний день страницы-копии являются одним из часто встречающихся подводных камней, от которых страдают новички. Их большое количество на вашем сайте создаст значительные трудности по выведению его в ТОП, а то и вовсе сделают его невозможным.

Дубли страниц сайта, их влияние на поисковую оптимизацию. Ручные и автоматизированные способы обнаружения и устранения дублированных страниц.

Влияние дублей на продвижение сайта

Наличие дублей негативно сказывается на ранжировании сайта. Как сказано выше, поисковики видят оригинальную страницу и ее дубль как две отдельные страницы. Контент, продублированный на другой странице, перестает быть уникальным. Кроме того, теряется ссылочный вес продублированной страницы, поскольку ссылка может перенести не на целевую страницу, а на ее дубль. Это касается как внутренней перелинковки, так и внешних ссылок.

По мнению некоторых веб-мастеров, небольшое количество страниц-дублей в целом не нанесет серьезного вреда сайту, но если их число близится к 40-50% от общего объема сайта, неизбежны серьезные трудности в продвижении.

Причины появления дублей

Чаще всего, дубли появляются как следствие некорректных настроек отдельных CMS. Внутренние скрипты движка начинают работать неверно и генерируют копии страниц сайта.

Известно также явление нечетких дублей – страниц, контент которых идентичен только частично. Такие дубли возникают, чаще всего, по вине самого веб-мастера. Это явление характерно для интернет-магазинов, где страницы карточек товаров строятся по одному шаблону, и в конечном итоге различаются между собой лишь несколькими строками текста.

Методы поиска дублированных страниц

Есть несколько способов обнаружения страниц-дублей. Можно обратиться к поисковикам: для этого в Google или «Яндекс» следует ввести в строку поиска команду вида «site:sitename.ru», где sitename.ru – домен Вашего сайта. Поисковик выдаст все проиндексированные страницы сайта, и Вашей задачей будет обнаружить дублированные.

Существует и другой не менее простой способ: поиск по фрагментам текста. Чтобы искать таким способом, нужно добавить в строку поиска небольшой фрагмент текста с Вашего сайта, 10-15 символов. Если в выдаче по искомому тексту будет две или несколько страниц Вашего сайта, обнаружить дубли не составит труда.

Однако, эти способы подходят для сайтов, состоящих из небольшого количества страниц. Если на сайте несколько сотен или даже тысяч страниц, то поиск дублей вручную и оптимизация сайта в целом становится невыполнимыми задачами. Для таких целей есть специальные программы, например, одна из наиболее распространенных - Xenu`s Link Sleuth.

Кроме того, существуют специальные инструменты для проверки состояния индексации в панелях Google Webmaster Tools и «Яндекс.Вебмастер». Ими также модно воспользоваться с целью обнаружения дублей.

Методы устранения дублированных страниц

Устранить ненужные страницы можно также несколькими способами. Для каждого конкретного случая подходит свой метод, но чаще всего, при оптимизации сайта , они применяются в комплексе:

удаление дублей вручную – подходит, если все ненужные были обнаружены также вручную;
склеивание страниц с помощью редиректа 301 – подходит, если дубли различаются только отсутствием и наличием «www» в URL;
применение тега «canonical» - подходит в случае возникновения нечетких дублей (например, упомянутая выше ситуация с карточками товаров в интернет-магазине) и реализуется посредством введения кода вида «link rel="canonical" href="http://sitename.ru/stranica-kopiya"/» в пределы блока head страниц-дублей;
правильная настройка файла robots.txt – с помощью директивы “Disallow” можно запретить дублированные страницы для индексации поисковиками.

Заключение

Возникновение страниц-дублей может стать серьезным препятствием в деле оптимизации сайта и вывода его в топ-позиции, поэтому данную проблему необходимо решать на начальной стадии ее возникновения.

Дубли - это страницы на одном и том же домене с идентичным или очень похожим содержимым. Чаще всего появляются из-за особенностей работы CMS, ошибок в директивах robots.txt или в настройке 301 редиректов.

В чем опасность дублей

1. Неправильная идентификация релевантной страницы поисковым роботом. Допустим, у вас одна и та же страница доступна по двум URL:

Https://site.ru/kepki/

Https://site.ru/catalog/kepki/

Вы вкладывали деньги в продвижение страницы https://site.ru/kepki/. Теперь на нее ссылаются тематические ресурсы, и она заняла позиции в топ-10. Но в какой-то момент робот исключает ее из индекса и взамен добавляет https://site.ru/catalog/kepki/. Естественно, эта страница ранжируется хуже и привлекает меньше трафика.

2. Увеличение времени, необходимого на переобход сайта роботами. На сканирование каждого сайта роботам выделяется ограниченное время. Если много дублей, робот может так и не добраться до основного контента, из-за чего индексация затянется. Эта проблема особенно актуальна для сайтов с тысячами страниц.

3. Наложение санкций со стороны поисковых систем. Сами по себе дубли не являются поводом к пессимизации сайта - до тех пор, пока поисковые алгоритмы не посчитают, что вы создаете дубли намеренно с целью манипуляции выдачей.

4. Проблемы для вебмастера. Если работу над устранением дублей откладывать в долгий ящик, их может накопиться такое количество, что вебмастеру чисто физически будет сложно обработать отчеты, систематизировать причины дублей и внести корректировки. Большой объем работы повышает риск ошибок.

Дубли условно делятся на две группы: явные и неявные.

Явные дубли (страница доступна по двум или более URL)

Вариантов таких дублей много, но все они похожи по своей сути. Вот самые распространенные.

1. URL со слешем в конце и без него

Https://site.ru/list/

Https://site.ru/list

Что делать: настроить ответ сервера «HTTP 301 Moved Permanently» (301-й редирект).

Как это сделать:

- найти в корневой папке сайта файл.htaccess и открыть (если его нет - создать в формате TXT, назвать.htaccess и поместить в корень сайта);
- прописать в файле команды для редиректа с URL со слешем на URL без слеша:

RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_URI} ^(.+)/$
RewriteRule ^(.+)/$ /$1

- обратная операция:

RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_URI} !(.*)/$
RewriteRule ^(.*[^/])$ $1/

- если файл создается с нуля, все редиректы необходимо прописывать внутри таких строк:

…

Настройка 301 редиректа с помощью.htaccess подходит только для сайтов на Apache. Для nginx и других серверов редирект настраивается другими способами.

Какой URL предпочтителен: со слешем или без? Чисто технически - никакой разницы. Смотрите по ситуации: если проиндексировано больше страниц со слешем, оставляйте этот вариант, и наоборот.

2. URL с WWW и без WWW

Https://www.site.ru/1

Https://site.ru/1

Что делать: указать на главное зеркало сайта в панели для вебмастеров.

Как это сделать в Яндексе:

- перейти в Яндекс.Вебмастер

- выбрать в Панели сайт, с которого будет идти перенаправление (чаще всего перенаправляют на URL без WWW);
- перейти в раздел «Индексирование / Переезд сайта», убрать галочку напротив пункта «Добавить WWW» и сохранить изменения.

В течение 1,5-2 недель Яндекс склеит зеркала, переиндексирует страницы, и в поиске появятся только URL без WWW.

Важно! Ранее для указания на главное зеркало в файле robots.txt необходимо было прописывать директиву Host. Но она больше не поддерживается. Некоторые вебмастера «для подстраховки» до сих пор указывают эту директиву и для еще большей уверенности настраивают 301 редирект - в этом нет необходимости, достаточно настроить склейку в Вебмастере.

Как склеить зеркала в Google:

- перейти в Google Search Console и добавить 2 версии сайта - с WWW и без WWW;

- выбрать в Search Console сайт, с которого будет идти перенаправление;
- кликнуть по значку шестеренки в верхнем правом углу, выбрать пункт «Настройки сайта» и выбрать основной домен.

Как и в случае с Яндексом, дополнительные манипуляции с 301 редиректами не нужны, хотя реализовать склейку можно и с его помощью.

Что нужно сделать:

- выгрузите список проиндексированных URL из Яндекс.Вебмастера;
- загрузите этот список в инструмент от SeoPult - списком или с помощью XLS-файла (подробная инструкция по использованию инструмента);

- запустите анализ и скачайте результат.

В этом примере страницы пагинации проиндексированы Яндексом, а Google - нет. Причина в том, что они закрыты от индексации в robots.txt только для бота Yandex. Решение - настроить канонизацию для страниц пагинации.

Используя парсер от SeoPult, вы поймете, дублируются страницы в обоих поисковиках или только в одном. Это позволит подобрать оптимальные инструменты решения проблемы.

Если у вас нет времени или опыта на то, чтобы разобраться с дублями, закажите аудит - помимо наличия дублей вы получите массу полезной информации о своем ресурсе: наличие ошибок в HTML-коде, заголовках, мета-тегах, структуре, внутренней перелинковке, юзабилити, оптимизации контента и т. д. В итоге у вас на руках будут готовые рекомендации, выполнив которые, вы сделаете сайт более привлекательным для посетителей и повысите его позиции в поиске.

Поводом для написания этой статьи стал очередной звонок бухгалтера с паникой перед сдачей отчетности по НДС. В прошлом квартале потратил много времени на уборку дублей контрагентов. И вновь они, те же самые и новые. Откуда?

Решил потратить время, и разобраться с причиной, а не следствием. Ситуация с основном актуальна при настроенных автоматических выгрузках через планы обмена из управляющей программы (в моем случае УТ 10.3) в бухгалтерию предприятия (в моем случае 2.0).

Несколько лет тому назад были установлены эти конфигурации, и настроен автоматический обмен между ними. Столкнулись с проблемой своеобразности ведения справочника контрагентов отделом продаж, которые начали заводить дубли контрагентов (с тем же ИНН/КПП/Наименованием) по тем или иным причинам (одного и того же контрагента они раскидывали по разным группам). Бухгалтерия высказала свое "фи", и постановила - нам не важно, что там у них, объединяйте карточки при загрузке в одну. Пришлось вмешаться в процесс переноса объектов правилами обмена. Убрали для контрагентов поиск по внутреннему идентификатору, и оставили поиск по ИНН+КПП+Наименование. Однако и тут всплыли свои подводные камни в виде любителей переименовывать наименования контрагентов (в результате создаются дубли в БП уже самими правилами). Собрались все вместе, обсудили, решили, убедили, что в УТ у нас дубли недопустимы, убрали их, вернулись к стандартным правилам.

Вот только после "причесывания" дублей в УТ и в БП - внутренние идентификаторы у многих контрагентов различались. А так как типовые правила обмена осуществляют поиск объектов исключительно по внутреннему идентификатору, то с очередной порцией документов в БП прилетал и новый дубль контрагента (в случае, если эти идентификаторы различались). Но универсальный обмен данными XML не был бы универсальным, если бы эту проблему обойти было невозможно. Т.к. идентификатор существующего объекта штатными средствами изменить невозможно, то можно обойти эту ситуацию при помощи специального регистра сведений "Соответствие объектов для обмена", который имеется во всех типовых конфигурациях от 1С.

Для того, чтобы не возникало новых дублей алгоритм уборки дублей стал следующим:

1. В БП при помощи обработки "Поиск и замена дублирующихся элементов" (она типовая, ее можно взять из конфигурации Управление торговлей или на диске ИТС, либо выбрать наиболее подходящую среди множества вариаций на самом Инфостарте) нахожу дубль, определяю верный элемент, нажимаю выполнить замену.

2. Получаю внутренний идентификатор единственного (после замены) объекта нашего дубля (набросал специально простенькую обработку для этого, чтобы внутренний идентификатор автоматически копировался в буфер обмена).