Зачем запрещать индексирование документов? Какие способы запрета индексации поисковикам бывают? На эти вопросы мы постарались кратко ответить в данной статье.
Зачем закрывать от индексации документы формата pdf, docx, pptx?
Нередко вебмастера размещают на сайтах один и тот же контент в нескольких форматах, включая html, pdf и docx, ориентируясь на переходы пользователей из поисковых систем на html-страницы сайта. Документы же формата pdf, doc (docx), ppt (pptx) индексируются поисковыми системами Google и Яндекс с извлечением текста из этих файлов. И часто происходит ситуация, когда в результатах поиска выдается первым именно pdf файл, а не html-документ с таким же контентом. Казалось бы, что ничего плохого в этом нет. Однако, пользователи могут скачать или просмотреть pdf файл прямо по ссылке с поисковой системы, не переходя при этом на страницы сайта. Не перейдет пользователь на страницы сайта — не увидит рекламу и коммерческие предложения. Это хорошо для вебмастера? Нет!
Другая причина закрытия от индексирования определенных документов заключается в неуникальности материалов. Другими словами, запрещают поисковым системам индексировать не уникальные pdf-документы, которые уже представлены на множестве сайтов.
Способы запрета поисковикам индексировать pdf и другие форматы документов
Как же запретить индексирование таких документов? Способов несколько. Рассмотрим их ниже:
1. Запретить в файле robots.txt папку, в которой лежат pdf-файлы. Способ подходит для большинства роботов поисковых систем. Однако, все файлы для запрета должны лежать в строго отведенных папках (например, «/uploads/pdf/»).
Для этого необходимо прописать в файле robots.txt в секции для всех роботов следующий код
Disallow: /uploads/pdf/
Инструкции, предназначенные для всех роботов, размещаются в секции:
User-agent: *
2. В robots.txt прописать инструкцию для запрещения индексирования по маске (регулярному выражению). Например:
Disallow: /*.pdf$
Данную запись понимает и поддерживает Яндекс. Для других роботов такая директива может не работать.
3. Если не подходит второй способ, а первый закрывает от индексации вместе с pdf и нужные файлы, тогда следует проводить работу уже со структурой папок на сервере и настройками веб-серверов (Apache, Nginx и др.). К примеру, с помощью синонимов (aliase) для папок (директорий) и перенаправлений (редиректов) можно закрыть от индексирования первым способом только pdf-файлы.
Например, в библиотеке aup.ru требовалось запретить к индексирования файлы pdf, исторически лежащие в той же папке, что и html файлы электронной книги. С помощью редиректов и синонимов решена данная проблема. См., например, http://www.aup.ru/books/m21/ и http://www.aup.ru/books/m21/m21.pdf Для папки «books» сознан синоним «files», и запрос «/books/m21/m21.pdf» перенаправляется на «/files/m21/m21.pdf». Папка же «files» запрещена для индексации первым способом.
4. Организовать выдачу и скачивание pdf-файлов только после регистрации пользователя на сайте или ввода пользователем пароля, кода каптчи и т.п. В данном случае поисковые системы не доберутся до файлов, особенно если путь для скачивания генерируется для каждого пользователя отдельно и имеет ограниченный срок жизни.
5. Суть в том, чтобы использовать для PDF «Using the X-Robots-Tag» в HTTP header документа. В данных тегах можно запретить поисковому работу индексирование конкретного документа.