Домой Интернет Как закрыть сайт от индексации в robots.txt: инструкции и рекомендации

Как закрыть сайт от индексации в robots.txt: инструкции и рекомендации

Работа SEO-оптимизатора очень масштабная. Начинающим специалистам рекомендуется записывать алгоритм оптимизации, чтобы не пропустить какие-то этапы. В противном случае продвижение будет трудно назвать успешным, поскольку на сайте постоянно будут происходить сбои и ошибки, которые долгое время придется исправлять.

Одним из этапов оптимизации является работа с файлом robots.txt. Этот документ должен быть у каждого ресурса, поскольку без него будет сложнее справляться с оптимизацией. Он выполняет много функций, в которых придется разбираться.

Помощник роботов

Файл robots.txt — это обычный текстовый документ, который можно просмотреть в стандартном «Блокноте» системы. При его создании необходимо устанавливать кодировку UTF-8, чтобы он читался корректно. Работает файл с протоколами http, https и FTP.

Этот документ является помощником поисковых роботов. Если вы не знаете, то каждая система использует «паучков», которые быстро сканируют Всемирную паутину, чтобы выдавать релевантные сайты на запросы пользователей. Эти роботы должны иметь доступ к данным ресурса, для этого работает robots.txt.

Чтобы «пауки» нашли путь, необходимо отправить документ robots.txt в корневой каталог. Чтобы проверить, есть ли у сайта этот файл, в адресную строку браузера следует ввести «https://site.com.ua/robots.txt». Вместо «site.com.ua» нужно ввести необходимый вам ресурс.

Функции документа

Файл robots.txt предоставляет поисковым роботам несколько видов информации. Он может дать частичный доступ, чтобы «паук» провел сканирование конкретных элементов ресурса. Полный доступ позволяет проверять все имеющиеся страницы. Полный запрет не дает роботам возможности даже начать проверку, и те покидают сайт.

После посещения ресурса «пауки» получают соответствующий ответ на запрос. Их может быть несколько, все зависит от информации в robots.txt. Например, если сканирование прошло успешно, робот получит код 2xx.

Возможно, на сайте были установлена переадресация с одной страницы на другую. В этом случае робот получает код 3xx. Если этот код встречается несколько раз, то «паук» будет следовать ему до тех пор, пока не получит другой ответ. Хотя, как правило, использует он только 5 попыток. В противном случае появляется популярная ошибка 404.

Если ответ 4xx, значит, роботу позволено сканировать все содержимое сайта. А вот в случае с кодом 5xx, проверка может полностью прекратиться, поскольку зачастую это говорит о временных ошибках сервера.

Для чего нужен robots.txt?

Как вы уже догадались, этот файл является проводником роботов в корень сайта. Сейчас его используют для того, чтобы частично ограничить доступ к нежелательному контенту:

  • страницы с личной информацией пользователей;
  • сайты-зеркала;
  • выдача поисковых результатов;
  • формы отправки данных и пр.

Если в корне сайта нет файла robots.txt, то робот просканирует абсолютно весь контент. Соответственно, в выдаче могу появиться нежелательные данные, а значит, пострадаете и вы, и сайт. Если же в документе robots.txt есть особые указания, значит, «паук» будет следовать им и выдаст информацию, желательную владельцу ресурса.

Работа с файлом

Чтобы с помощью robots.txt закрыть сайт от индексации, необходимо разобраться с тем, как создать этот файл. Для этого необходимо следовать инструкции:

  • Создать документ в «Блокноте» или Notepad++.
  • Установить расширение файла «.txt».
  • Внести необходимые данные и команды.
  • Сохранить документ и загрузить его в корень сайта.
  • Как видите, на одном из этапов необходимо установить команды для роботов. Они бывают двух типов: позволяющие (Allow) и запрещающие (Disallow). Также некоторые оптимизаторы могут указать скорость обхода, хост и ссылку на карту страниц ресурса.

    Для того чтобы начать работу с robots.txt и полностью закрыть сайт от индексации, необходимо также разобраться в используемых символах. Например, в документе можно использовать «/», который указывает на то, что сайт выбран целиком. Если же используется «*», значит, требуется последовательность символов. Таким образом можно будет указать конкретную папку, которую либо можно сканировать, либо нельзя.

    Особенность ботов

    «Пауки» у поисковых систем разные, поэтому если вы работаете сразу на несколько поисковиков, значит, придется учитывать этот момент. Имена у них разные, а значит, если вы хотите обратиться к конкретному роботу, вам придется указать его имя: «User Agent: Yandex» (без кавычек).

    Если же вы хотите задать директивы для всех поисковиков, значит необходимо использовать команду: «User Agent: *» (без кавычек). Чтобы правильно с помощью robots.txt закрыть сайт от индексации, необходимо узнать специфику популярных поисковиков.

    Дело в том, что у самых популярных поисковых систем Yandex и Google есть несколько ботов. Каждый из них занимается своими задачами. Например, Yandex Bot и Googlebot — основные «пауки», которые сканируют сайт. Зная всех ботов, будет проще точно настроить работу индексации вашего ресурса.

    Примеры

    Итак, с помощью robots.txt закрыть сайт от индексации можно простыми командами, главное — понимать, что нужно конкретно. Например, если вы хотите, чтобы робот Google не приближался к вашему ресурсу, необходимо дать ему соответствующую команду. Она будет выглядеть: «User-agent: Googlebot Disallow: /» (без кавычек).

    Теперь нужно разобрать, что же в этой команде и как она работает. Итак, «User-agent» применяется для того, чтобы было использовано прямое обращение к какому-то из ботов. Далее мы указываем к какому именно, в нашем случае это Google. Команда «Disallow» должна начинаться с новой строки и запретить роботу заходить на сайт. Символ слеша в данном случае говорит о том, что для исполнения команды выбраны все страницы ресурса.

    В robots.txt запрет индексации для всех поисковых систем можно выполнить простой командой: «User-agent: * Disallow: /» (без кавычек). Символ звездочки в данном случае обозначает все поисковые роботы. Обычно такая команда нужна для того, чтобы приостановить индексацию сайта и начать кардинальные работы над ним, которые в противном случае могли бы повлиять на оптимизацию.

    Если ресурс крупный и имеет много страниц, зачастую там есть служебная информация, которую либо нежелательно разглашать, либо она может негативно повлиять на продвижение. В этом случае нужно понимать, как закрыть страницу от индексации в robots.txt.

    Можно спрятать либо папку, либо файл. В первом случае нужно снова-таки начать с обращения к определенному боту или всем, поэтому используем команду «User-agent», а ниже указываем команду «Disallow» для определенной папки. Выглядеть это будет следующим образом: «Disallow: /папка/» (без кавычек). Таким образом вы спрячете всю папку. Если же в ней есть какой-то важный файл, который вы хотели бы показать, то ниже нужно написать команду: «Allow: /папка/файл.php» (без кавычек).

    Проверка файла

    Если с помощью robots.txt закрыть сайт от индексации у вас получилось, но вы не знаете, сработали ли правильно все ваши директивы, можно проверить корректность работы.

    Для начала нужно снова проверить размещение документа. Помните, что он должен быть исключительно в корневой папке. Если он попал в подкорневную папку, то работать не будет. Далее открываем браузер и вводим туда следующий адрес: «http://вашсайт. com/robots.txt» (без кавычек). Если в веб-обозревателе появилась ошибка, значит, файл находится не там, где должен.

    Директивы проверить можно в специальных инструментах, которые используют практически все веб-мастера. Речь идет о продуктах Google и Yandex. Например, в Google Search Console есть панель инструментов, где нужно открыть «Сканирование», а после запустить «Инструмент проверки файла robots.txt». В окно необходимо скопировать все данные с документа и запустить сканирование. Точно такую же проверку можно сделать в «Яндекс.Вебмастер».