Заработок в интернете

При обращении поисковой системы к любому из сайтов, первым делом она проверяет наличие файла robots.txt в корневой директории этого сайта. Если такой имеется, значит бот-поисковик, прощупав его будет следовать инструкциям указанным в нем. Что за чудо-файл, это robots.txt?

Очень многие вебмастера не знают как правильно им пользоваться, в связи с чем его просто не создают. Не однократно бродя по Интернету, мне встречался в тематических форумах, вопрос – как составить файл robots.txt. Поэтому я и решил уделить внимание этому файлу и его составлению. Ведь на самом деле это очень даже нужный элемент при оптимизации сайта.

Файл robots.txt — в этом файле содержится написанная вебмастером инструкция для поискового бота. Размещается такой файл непосредственно в корневой директории сайта. Правильно настроив robots.txt, вы решаете возникновение многих проблем при индексации, не допускаете попадания ненужных страниц в индекс ПС, а также, решается такая проблема, как зазеркаливание.

Создание robots.txt

Создается файл robots.txt очень просто, для этого стоит всего лишь открыть блокнот, который идет в стандартном комплекте Windows и ввести в нем необходимые директивы. Когда все готово, файл сохраняется (в любое удобное для вас место, я лично сохраняю его в корневой папке сайта, а потом уже закидываю на сервер) под названием «robots», после этого слова, ставим точку и прописываем расширение «txt», а теперь загружаем его корень сайта. На одном сайте, может быть только один созданный файл robots.txt. Для всех поисковых систем указываются действия в одном таком файле.

Формат файла robots.txt

Имеется две обязательные директивы, которые должны присутствовать в любом файле robots.txt – это:

User-agent: — здесь прописываются для какого бота-поисковика будут следующие инструкции.

Disallow: — здесь вы указываете какую из директорий сайта не следует индексировать боту. Для всех поисковиков можно указать одинаковое действие, это делается установкой «звездочки» в User-agent. Это будет выглядеть примерно так:

User-agent: * — звездочка указывает, что для всех поисковых ботов инструкция будет одинаковой.
Disallow: /files.html – запрещается индексация указанного файла.
Disallow: /kontakt/ — запрещается индексация всех файлов находящихся в указанной папке.

Если вы хотите разрешить индексацию полностью всех файлов и папок, значит следует прописать так:

User-agent:*
Disallow:

Вот и весь ваш файл robots.txt, да а вы думали.

Robots.txt для Yandex (Яндекса)

В любом файле robots.txt, рекомендую указывать директиву «Host» для Яндекса. Директива host задает поисковику Яндекс индексацию сайта, то есть, будет он индексироваться с «www» либо без. Применение такой директивы помогает избегать проблемы, которые могут возникнуть с зеркалом сайта. Лучше все сделать изначально правильно, чем потом иметь проблему и ломать голову в писках ее решения. Для Яндекса robots.txt будет выглядеть, примерно так:

User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru – здесь Яша индексирует сайт с «www».

User-agent: Yandex
Disallow: /cgi-bin
Host: site.ru – а здесь, без «www»

Зачастую многие начинающие, задают мне один и тот же вопрос, а как же лучше без «www» или с «www». Я вам так скажу – разницы нет никакой. На работе сайта это никак не сказывается. Но в хосте, определившись с вариантом, вы должны обязательно это прописать. В противном случаи, через какое-то время в индексе Яндекса, появятся дубли страниц. То есть, страницы будут и те и другие (без «www» и с «www»). А это окажет негативное воздействие на раскрутку сайта.

И еще, это важно: host понимает только Яша, в связи с этим, директивы должны быть разделены, специально для него и для других ПС. Примерное содержание файла «роботс» будет таким:

User-agent: Yandex – это директива только для Яши
Disallow: /cgi-bin
Host: site.ru
User-agent: * — ну а здесь, для остальных поисковиков.
Disallow: /cgi-bin

По моему, этой информации вам должно хватить для составления роботс.тхт