Поисковый робот

Поисковый робот (бот, паук) - специальное программное обеспечение какой-либо поисковой системы, браузерного типа, в задачу которого входит вносить в базу (поисковый индекс) новые и обновленные документы. Поисковых роботов так-же называют: краулер, паук, бот, робот, spider, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Принцип работы поискового робота

Поисковый робот, он же паук, краулер - это программа браузерного типа. Она осуществляет сканирование сайта, подобно загрузке страницы вашим браузером. Бот посылает HTTP-запрос GET а сервер отвечает на запрос так же, как и в случае обращения браузера: передает заголовок ответа (HTTP Response Header) со всей информацией о запрашиваемом интернет-документе, а следом сам документ (обычно это HTML-страница, но могут быть и другие форматы документов). Поисковый робот анализирует и сохраняет документ в свою базу, для дальнейшей индексации (но не всегда это так), и отправляется по ссылкам, найденным в данном документе. Затем процедура повторяется вновь и вновь.


По мимо новых сайтов и страниц, робот так-же индексирует обновленный страницы и сайты, периодичность обновления которых фиксируется. Делается это для того, что бы определить, как часто роботу необходимо посещать сайт. Если зафиксировано, что ваш сайт в среднем обновляется раз в неделю - то и поисковый робот будет посещать вас примерно раз в неделю. Если контент добавляется и обновляется ежедневно, по несколько раз в день, то такой робот может заходить к вам так-же часто. Порой такие роботы практически «живут» у вас на сайте. Их так-же называют «быстророботами». Так как они отправляют новые страницы в поисковый индекс за считанные минуты.

Поисковые боты

Каждая поисковая система, имеет несколько видов поисковых ботов. Функционал и алгоритм роботы каждого из них, разные. Одни поисковые боты отвечают за сканирование изображений, другие боты отвечают за видео, третьи за страницы в общем, еще одни за разные документы и т.д. Я хотел бы привети виды поисковых ботов, таких популярных поисковых систем, как Яндекс и Google.

Поисковые боты Google:
Робот Googlebot — основной робот,
Googlebot News — сканирует и индексирует новости,
Google Mobile — индексирует сайты для мобильных устройств,
Googlebot Images — ищет и индексирует изображения,
Googlebot Video — индексирует видео,
Google AdsBot — проверяет качество целевой страницы,
Google Mobile AdSense и Google AdSense — индексирует сайты рекламной сети Google.

Поисковые боты Яндекса:
Yandex/1.01.001 I — основной бот, занимающийся индексацией,
Yandex/1.01.001 (P) — индексирует картинки,
Yandex/1.01.001 (H) — находит зеркала сайтов,
Yandex/1.03.003 (D) — определяет, соответствует ли страница, добавленная из панели вебмастера, параметрам индексации,
YaDirectBot/1.0 (I) — индексирует ресурсы из рекламной сети Яндекса,
Yandex/1.02.000 (F) — индексирует фавиконы сайтов.

Другие поисковые системы так-же имеют своих поисковых робот, функционалы и назначения которых различаются.

Управление поисковым роботом

Управлять поисковым роботом невозможно, это прерогатива поисковых систем, которые ими управляют. Да и алгоритмы сканирования этих роботов простым смертным неизвестны. Но мы можем давать роботам указания и рекомендации по сканированию сайта. Направить его в правильное русло, сообщить об обновлении страницы, сообщить дату этого обновления, либо наоборот, запретить индексацию. Все это описывать довольно долго, по этому хотелось бы дать вам ссылки, на статью, которые расскажут вам подробней, как можно управлять поисковым роботом и что ему сообщать.

Файл Robots.txt является важнейшим документом для поискового робота на вашем сайте. Изначально, он обращается к нему, учитывает ваши указания на запреты отдельных страниц и директорий, либо сайта целиком, берет во внимание другие директивы этого файла, и только после этого приступает к сканированию. Я настоятельно рекомендую вам ознакомиться с данной статьей.

META-теги важнейший инструмент в оптимизации сайта, и указания поисковому роботу той или иной информации о вашем сайте. Кто владелец сайта, какие ключевые слова на ним есть, как используется кодировка, когда контент обновлялся, какое описание страницы желательно выводить в поисковой выдаче, и много другое. В общем, так-же рекомендую к прочтение тем, кто еще не знает о META-тегах либо знает, но довольно мало.

Комментарии

ОтменитьДобавить комментарий