Как запретить индексирование файлов pdf на сайте Яндексом и Гуглом

Зачем запрещать индексирование документов? Какие способы запрета индексации поисковикам бывают? На эти вопросы мы постарались кратко ответить в данной статье.

Зачем закрывать от индексации документы формата pdf, docx, pptx?

Нередко вебмастера размещают на сайтах один и тот же контент в нескольких форматах, включая html, pdf и docx, ориентируясь на переходы пользователей из поисковых систем на html-страницы сайта. Документы же формата pdf, doc (docx), ppt (pptx) индексируются поисковыми системами Google и Яндекс с извлечением текста из этих файлов. И часто происходит ситуация, когда в результатах поиска выдается первым именно pdf файл, а не html-документ с таким же контентом. Казалось бы, что ничего плохого в этом нет. Однако, пользователи могут скачать или просмотреть pdf файл прямо по ссылке с поисковой системы, не переходя при этом на страницы сайта. Не перейдет пользователь на страницы сайта — не увидит рекламу и коммерческие предложения. Это хорошо для вебмастера? Нет!

Другая причина закрытия от индексирования определенных документов заключается в неуникальности материалов. Другими словами, запрещают поисковым системам индексировать не уникальные pdf-документы, которые уже представлены на множестве сайтов.

Способы запрета поисковикам индексировать pdf и другие форматы документов

Как же запретить индексирование таких документов? Способов несколько. Рассмотрим их ниже:

1. Запретить в файле robots.txt папку, в которой лежат pdf-файлы. Способ подходит для большинства роботов поисковых систем. Однако, все файлы для запрета должны лежать в строго отведенных папках (например, «/uploads/pdf/»).

Для этого необходимо прописать в файле robots.txt в секции для всех роботов следующий код

Disallow: /uploads/pdf/

Инструкции, предназначенные для всех роботов, размещаются в секции:

User-agent: *

2. В robots.txt прописать инструкцию для запрещения индексирования по маске (регулярному выражению). Например:

Disallow: /*.pdf$

Данную запись понимает и поддерживает Яндекс. Для других роботов такая директива может не работать.

3. Если не подходит второй способ, а первый закрывает от индексации вместе с pdf и нужные файлы, тогда следует проводить работу уже со структурой папок  на сервере и настройками веб-серверов (Apache, Nginx и др.). К примеру, с помощью синонимов (aliase)  для папок (директорий) и перенаправлений (редиректов)  можно закрыть от индексирования первым способом только pdf-файлы.

Например,  в библиотеке aup.ru требовалось  запретить к индексирования файлы pdf, исторически лежащие в той же папке, что и html файлы электронной книги.  С помощью редиректов и синонимов решена данная проблема.  См., например,  http://www.aup.ru/books/m21/ и http://www.aup.ru/books/m21/m21.pdf Для папки «books» сознан синоним «files», и запрос «/books/m21/m21.pdf» перенаправляется на «/files/m21/m21.pdf». Папка же «files» запрещена для индексации первым способом.

4. Организовать выдачу и скачивание pdf-файлов только после регистрации пользователя на сайте или ввода пользователем пароля, кода каптчи и т.п. В данном случае поисковые системы не доберутся до файлов, особенно если путь для скачивания генерируется для каждого пользователя отдельно и имеет ограниченный срок жизни.

5. Суть в том, чтобы использовать для PDF «Using the X-Robots-Tag» в HTTP header документа. В данных тегах можно запретить поисковому работу индексирование конкретного документа.