Чтобы какой-либо сайт появился в выдаче поисковой системы, он должен быть предварительно проиндексирован, то есть просканирован поисковыми роботами. Следующий этап – ранжирование – определение места ресурса в выдаче. На него влияет нескольких критериев, в числе которых можно выделить релевантность – степень соответствия результатов выдачи запросу пользователя. Чтобы сайт был более релевантным, необходимо регулировать перемещения и поведение поискового робота на нем. Как правило, от поисковиков также скрывают пагинацию, фильтры, служебные и страницы, содержащие личные данные пользователей. В этой статье мы рассмотрим все известные способы, как закрыть документ от поисковых систем, и объясним, для чего может пригодиться каждый из них.

Robots.txt

Самым распространенным способом указать поисковым роботам страницы, представленные или, наоборот, закрытые для посещения, является robots.txt. Это обычный текстовый файл, размещенный в корневом каталоге интернет-ресурса, в котором описаны инструкции для поисковых ботов.

Чтобы закрывать сразу весь сайт от индексации, вам понадобится прописать в файле robots.txt всего две строчки:

В данной инструкции вы сообщаете, что она распространяется на все поисковые системы (User-agent: *); вторая строка (Disallow: /) означает, что запрет касается всех страниц сайта.

В случае необходимости закрыть ресурс только от одной поисковой системы, в строке User-agent: указываем, для какой именно. Чаще всего прописывают поисковые системы Yandex или Google:

Строка Disallow может также содержать инструкции относительно отдельных частей, разделов или папок сайта, которые нежелательны для обхода роботов.

Для запрета индексации:

  • конкретной папки – прописываем команду Disallow: /папка/;
  • списка файлов – указываем весь список в следующем формате:

и т.д…

Следует учитывать, что robots.txt воспринимается поисковиками по-разному, и роботы Google не всегда следуют его указаниям, воспринимая содержимое файла как рекомендацию.

Метатеги

Метатег Robots прописывается внутри тега <head> html-документа и имеет следующие значения:

  • index – индексировать;
  • noindex – не индексировать;
  • follow – разрешено следовать по ссылкам;
  • nofollow – не разрешено следовать по ссылкам.

Принцип работы с этими метатегами такой же, как и с файлом robots.txt. Единственное исключение – они используются непосредственно на тех страницах, которые необходимо закрыть. Если же речь идет обо всем ресурсе, данные теги прописывают прямо в шаблон сайта. Пример использования метатегов robots:


Здесь указано,что роботам запрещено индексировать страницы и обходить ссылки.

Вот еще несколько полезных тегов:

  • meta name=»robots» content=»noimageindex» – запрещает индексировать изображения на странице, на которой он используется;
  • meta name=»robots» content=»none» – используется в значении «noindex, nofollow.»

Файл .htaccess

  • Блокируем поисковых ботов с помощью следующих команд:

Для каждой поисковой системы – отдельная строка.

  • Запрещаем доступ ко всем файлам и каталогам:

  • Ограничиваем доступ к сайту или странице с помощью пароля. Для этого в файле .htaccess прописываем следующий код:

После сохранения изменений в файле .htaccess вы уже сможете видеть форму авторизации, но для ее корректной работы не забудьте добавить пользователя и указать пароль в файле паролей.

Средства для владельцев сайтов на WordPress

Если вам посчастливилось быть обладателем ресурса на WordPress, то вы можете закрыть свой сайт от индексации с помощью самой админки, совершив лишь несколько кликов мышью:

  • в меню админки перейдите во вкладку Параметры;
  • выберите пункт Чтение;
  • установите галочку на пункте «Попросить поисковые системы не индексировать сайт»;
  • сохраните изменения.

Также существует ряд SEO-плагинов, например, «All in One SEO Pack», с помощью которых можно контролировать индексацию отдельных документов сайта.

Другие CMS также могут включать в себя подобные функции и плагины.

Какой бы вы ни выбрали способ закрытия от индексации, помните: самое надежное средство от попадания в индекс – хранить сайт на сервере, отключенном от всемирной сети.