Дубль контент – это контент, текст которого абсолютно идентичен по разным URL-адресам. В этой статье речь идёт о дублированном контенте в пределах одного веб-ресурса., то есть, набрав адрес: http://site.ru/statya.html или http://site.ru/category/statya.html , вы попадаете на страницы, текст которых абсолютно одинаковый.
Что такое robots.txt?
Оптимизируя сайт под поисковую систему Яндексу, необходимо уделить должное внимание файлу robots.txt, который предназначен для поисковых роботов. В этом файле нужно указать роботу-поисковику параметры индексирования сайта. Создать сам файл robots.txt очень просто, для этого можно воспользоваться любым текстовым редактором, установленным на ваш персональный компьютер (Notepad или обычный блокнот). Самое главное – это указать правильно параметры индексирования.
Зачем избавляться от дубль контента?
В «Рекомендации Яндекса по созданию сайтов» указано, что необходимо закрывать не представляющие ценности (ни для поисковых систем, ни для пользователей) страницы, к которым, в том числе, относятся «дубликаты страниц». Исходя из этой рекомендации, целесообразно будет избавиться от дубль контента при помощи файла robots.txt. Все вебмастера (90% точно) прекрасно знают, что дубль контент на разных сайтах приведёт к попаданию одного из них под фильтр Яндекса АГС. Здесь всё зависит от того, чей сайт (а точнее дублированный контент) проиндексируется позже. В пределах одного сайта, таких мер, поисковая система Яндекс, не применяет, пока не применяет. Дело в том, что дублированный контент, по мнению Яндекса, это информация не несущая в себе никакой пользы и является лишней нагрузкой для работы поискового робота, увеличивая сроки индексации сайта, а также может привести к неправильной выдачи страниц (то есть по поисковому запросу будут выдаваться дублированные страницы, а не основные продвигаемые). Как избавиться от дубль контента при помощи robots.txt? В файле robots.txt есть специальная директива, закрывающая доступ поисковому роботу. Эта директива называется ‘Disallow’. При помощи данной директивы необходимо закрыть от индексации следующие страницы и файлы: - tag, так как теги выводят страницы с кратким описание статей, как на главной, но адрес для поисковых систем другой – это дубль . - comments, так как выводит всю страницу с текстом целиком с другим адресом – это дубль (пример:/archives/155 – оригинал | /archives/155#comments – дубль). Кто вообще не знаком с файлом robots.txt и понятия не имеет для чего он нужен, рекомендую почитать здесь: http://help.yandex.ru/webmaster/, если никак не получается охватить всё, что там написано, то задавайте вопрос в комментариях к данному посту. Чем смогу, помогу.
Всего комментариев: 30