Как составить файл robots.txt

leadmaker
03.09.2016 0 Comment

Как вы уже знаете, файл robots.txt это специальный индексный файл предназначенный для указания поисковым роботам на то, что можно индексировать на сайте, а что нельзя. Но как было написано в другой статье, для закрытия некоторых страниц сайте нужно применять другие способы, но об этом далее.

Вы конечно можете вбить поисковый запрос «стандартный файл robots.txt» и зная админку на которой написан сайт, скачать его из интернета. Но каждый сайт является уникальным, и то что подходит одному не обязательно подходит другому. Именно поэтому необходимо индексный файл создавать индивидуально под сайт. И тогда вы точно будете уверены что робот правильно будет обходить страницы

С чего начать

Итак, составления файла robots.txt мы всегда начинаем с выгрузки сайта. Что это такое? Это специальный файл со всеми страницами сайта и их параметрами: url, title,description, тип, ответ сервера размер и т.д. Все это оформлено в отдельном файле в виде большой таблицы, некоторые сервисы предоставляют онлайн просмотр выгрузки. Программ для выгрузки и первичного анализа сайта просто масса, не буду акцентироваться на них, дабы не делать рекламы. Нам подойдет любая, которая выгружает адрес страницы, её тип и доступность.

Для чего он нужен

В первую очередь для того, чтобы увидеть полное количество страниц и файлов на сайте. Также с помощью него хорошо видно пути расположения тех или иных файлов и наличия страниц сортировок, фильтров и страниц с динамическими параметрами. Практически все современные программы показываю открыта ли страница для индексирования или нет.

Нужны доступы на ftp или хостинг, чтобы посмотреть структуру папок и каталогов. Чисто теоретически, роботс можно составить и без доступов, знаю админку сайта и примерную внутреннюю структура сайта. Для того чтобы определить админку, если вдруг вы не знаете можно воспользоваться  сервисом https://2ip.ru/cms/ .

Мы практикуем способ написания robots.txt по методу «закрой все – открой нужное», таким образом, мы минимизируем возможность попадания в поисковую выдачу мусорных страниц и файлов.

Начнем написание robots.txt

Первое, что нам нужно сделать — это создать на компьютере обычный текстовый документ с именем robots.txt и сохранить его в кодировке utf-8.

Примечание. Регистр символов в названии должен быть у всех букв одинаковый – нижний. Название должно быть не Robots.txt, не ROBOTS.txt – а именно robots.txt и ни как по другому.

Прописываем первую команду, которая для конкретного работа, указывает директивы на обход или на игнорирование. Это команда User-agent. После неё без пробела нужно поставить : (двоеточие), пробел и имя конкретного робота либо *(для всех роботов). Рассмотрим наш сайт wedex.com.ua

В своей практике мы не разделяем директивы под разные поисковики.

Примечание: Разделять их нужно только в том случае, когда вам необходимо для разных поисковиков индексировать различные файлы. Например, для Яндекса вам ненужно индексировать английскую версию сайта. Или еще часто бывает, когда под Яндекс и Google есть похожие сайты, и чтобы не попасть под фильтр-аффилиат для Яндекса закрывают один сайт, а для Гугла другой. Либо Сайт попал в одной из поисковых систем под фильтр, а по другой отлично лезет, тогда не стоит менять сайт, лучше скопировать его на другой домен и исправить ошибки – и таким образом у вас будет 2 сайта дающие трафик каждый со своей поисковой.

И так прописываем и смотрим что получилось.

Главный офис:
ул. Евгения Иванова 57-А, оф. 58, Киев, Украина

Почта: information@leadmaker.com

Телефон: +38 (044) 555-66-26