жучки, паучки и прочие animals ( не путать с пинк флойдом)
Как представляются индексирующие роботы поисковых систем, посещая сайт? С каких IP-адресов ходят роботы?
Яндекс использует несколько роботов для разных случаев:
Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот.
Посещает сайт примерно раз в месяц;
Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок.
Заходит только на файлы картинок. Для своей работы использует результаты работы робота (1);
Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала
сайтов.
Нерегулярно посещает страницы сайта, которые подозревает на предмет дублирования информации. Изредка посещает уже "склеенные" страницы для проверки на предмет убирания дублирования.
Важно! Если главные страницы двух сайтов признаются дублями, с большой долей вероятности робот считает все страницы сайта дублями (что не всегда верно);
Yandex/1.03.003 (compatible; Win16; D)—- робот, обращающийся к странице при добавлении ее через форму "Добавить URL".
Ходит только по команде человека (при сабмите формы "Добавить URL"). Каждый вносимый адрес посещает дважды (почему?). Иногда в один из разов представляется как AddUrl;
Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова».
Заходит на страницы сайта асинхронно каждый раз, как человек в результатах поиска нажмет ссылку "показать найденные слова" напротив адреса этой страницы.
Хитрость: Поисковую фразу, по которой найден сайт, и номер страницы результатаов поиска можно узнать, если анализировать Referer картинок, которые показываются на этой странице;
Bond, James Bond (version 0.07) — робот, заходящий на сайты из подсети Яндекса.
Официально никогда не упоминался. Ходит выборочно по страницам и очень аккуратно (на одном из сайтов за период октябрь-декабрь 2004 г. запросил всего 71 страницу; за один сеанс запрашивал не более 7-и страниц). Referer не передает. Картинки не загружает. Судя по повадкам, робот занимается проверкой сайтов на нарушения – клоакинг и пр.
IP-адреса роботов Яндекса со временем меняются. Смысла их отслеживать практически нет.
Робот Google представляется всегда одинаково—Googlebot/2.1 (+http://www.google.com/bot.html). Ходит он с разных адресов (если быть совсем точным, ходит сразу много роботов).
N.B. Указанные строки передаются роботами через поле User-Agent заголовка запроса и сохраняются сервером в логах. Как следствие, можно отлавливать роботов как "на лету", так и анализировать их поведение постфактум.
взято отседова http://www.seoman.ru/FAQ/article032.html
MORE...