24templates » Статьи для веб-мастера » Как избавиться от дубль-контента?

Как избавиться от дубль-контента?

26 апр 2023, 18:12 | Просмотров: 764 | Добавил: Alexir

Дубль контент – это контент, текст которого абсолютно идентичен по разным URL-адресам.
В этой статье речь идёт о дублированном контенте в пределах одного веб-ресурса., то есть, набрав адрес: http://site.ru/statya.html или http://site.ru/category/statya.html , вы попадаете на страницы, текст которых абсолютно одинаковый.

Что такое robots.txt?

Оптимизируя сайт под поисковую систему Яндексу, необходимо уделить должное внимание файлу robots.txt, который предназначен для поисковых роботов. В этом файле нужно указать роботу-поисковику параметры индексирования сайта.
Создать сам файл robots.txt очень просто, для этого можно воспользоваться любым текстовым редактором, установленным на ваш персональный компьютер (Notepad или обычный блокнот).
Самое главное – это указать правильно параметры индексирования.

Зачем избавляться от дубль контента?

В «Рекомендации Яндекса по созданию сайтов» указано, что необходимо закрывать не представляющие ценности (ни для поисковых систем, ни для пользователей) страницы, к которым, в том числе, относятся «дубликаты страниц».
Исходя из этой рекомендации, целесообразно будет избавиться от дубль контента при помощи файла robots.txt.
Все вебмастера (90% точно) прекрасно знают, что дубль контент на разных сайтах приведёт к попаданию одного из них под фильтр Яндекса АГС. Здесь всё зависит от того, чей сайт (а точнее дублированный контент) проиндексируется позже.
В пределах одного сайта, таких мер, поисковая система Яндекс, не применяет, пока не применяет. Дело в том, что дублированный контент, по мнению Яндекса, это информация не несущая в себе никакой пользы и является лишней нагрузкой для работы поискового робота, увеличивая сроки индексации сайта, а также может привести к неправильной выдачи страниц (то есть по поисковому запросу будут выдаваться дублированные страницы, а не основные продвигаемые).
Как избавиться от дубль контента при помощи robots.txt?
В файле robots.txt есть специальная директива, закрывающая доступ поисковому роботу. Эта директива называется ‘Disallow’.
При помощи данной директивы необходимо закрыть от индексации следующие страницы и файлы:
- tag, так как теги выводят страницы с кратким описание статей, как на главной, но адрес для поисковых систем другой – это дубль .
- comments, так как выводит всю страницу с текстом целиком с другим адресом – это дубль (пример:/archives/155 – оригинал | /archives/155#comments – дубль).
Кто вообще не знаком с файлом robots.txt и понятия не имеет для чего он нужен, рекомендую почитать здесь: http://help.yandex.ru/webmaster/, если никак не получается охватить всё, что там написано, то задавайте вопрос в комментариях к данному посту. Чем смогу, помогу.

Скажем дружно “Нет дублированному контенту!”

Оцените, данная информация была полезна для Вас?

+13

Alexir

Автор публикации

Всего постов: 111
Всего комментариев: 30

Комментарии ( 0)

Пока никто ничего не написал. Вы будете первым! Оставите комментарий?

Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.

Рекомендации для вас

Как избавиться от дубль-контента?

Согласие на использование файлов cookie