Как запретить индексирование файлов pdf на сайте Яндексом и Гуглом

Зачем запрещать индексирование документов? Какие способы запрета индексации поисковикам бывают? На эти вопросы мы постарались кратко ответить в данной статье.

Зачем закрывать от индексации документы формата pdf, docx, pptx?

Нередко вебмастера размещают на сайтах один и тот же контент в нескольких форматах, включая html, pdf и docx, ориентируясь на переходы пользователей из поисковых систем на html-страницы сайта. Документы же формата pdf, doc (docx), ppt (pptx) индексируются поисковыми системами Google и Яндекс с извлечением текста из этих файлов. И часто происходит ситуация, когда в результатах поиска выдается первым именно pdf файл, а не html-документ с таким же контентом. Казалось бы, что ничего плохого в этом нет. Однако, пользователи могут скачать или просмотреть pdf файл прямо по ссылке с поисковой системы, не переходя при этом на страницы сайта. Не перейдет пользователь на страницы сайта — не увидит рекламу и коммерческие предложения. Это хорошо для вебмастера? Нет!

Другая причина закрытия от индексирования определенных документов заключается в неуникальности материалов. Другими словами, запрещают поисковым системам индексировать не уникальные pdf-документы, которые уже представлены на множестве сайтов.

Способы запрета поисковикам индексировать pdf и другие форматы документов

Как же запретить индексирование таких документов? Способов несколько. Рассмотрим их ниже:

1. Запретить в файле robots.txt папку, в которой лежат pdf-файлы. Способ подходит для большинства роботов поисковых систем. Однако, все файлы для запрета должны лежать в строго отведенных папках (например, «/uploads/pdf/»).

Для этого необходимо прописать в файле robots.txt в секции для всех роботов следующий код

Disallow: /uploads/pdf/

Инструкции, предназначенные для всех роботов, размещаются в секции:

User-agent: *

2. В robots.txt прописать инструкцию для запрещения индексирования по маске (регулярному выражению). Например:

Disallow: /*.pdf$

Данную запись понимает и поддерживает Яндекс. Для других роботов такая директива может не работать.

3. Если не подходит второй способ, а первый закрывает от индексации вместе с pdf и нужные файлы, тогда следует проводить работу уже со структурой папок на сервере и настройками веб-серверов (Apache, Nginx и др.). К примеру, с помощью синонимов (aliase) для папок (директорий) и перенаправлений (редиректов) можно закрыть от индексирования первым способом только pdf-файлы.

Например, в библиотеке aup.ru требовалось запретить к индексирования файлы pdf, исторически лежащие в той же папке, что и html файлы электронной книги. С помощью редиректов и синонимов решена данная проблема. См., например, http://www.aup.ru/books/m21/ и http://www.aup.ru/books/m21/m21.pdf Для папки «books» сознан синоним «files», и запрос «/books/m21/m21.pdf» перенаправляется на «/files/m21/m21.pdf». Папка же «files» запрещена для индексации первым способом.

4. Организовать выдачу и скачивание pdf-файлов только после регистрации пользователя на сайте или ввода пользователем пароля, кода каптчи и т.п. В данном случае поисковые системы не доберутся до файлов, особенно если путь для скачивания генерируется для каждого пользователя отдельно и имеет ограниченный срок жизни.

5. Суть в том, чтобы использовать для PDF «Using the X-Robots-Tag» в HTTP header документа. В данных тегах можно запретить поисковому работу индексирование конкретного документа.

Пн	Вт	Ср	Чт	Пт	Сб	Вс
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Катаев Алексей Владимирович

к.э.н., директор ООО "АУП-Консалтинг"

Как запретить индексирование файлов pdf на сайте Яндексом и Гуглом

Зачем закрывать от индексации документы формата pdf, docx, pptx?

Способы запрета поисковикам индексировать pdf и другие форматы документов