Часто задаваемые вопросы гугле и ее ответы
Как часто Google-бот будет посещать мои веб-страницы?
Как запретить Google сканировать сайт полностью или частично?
Google-бот сканирует сайт слишком быстро. Что можно сделать?
Почему Google-бот запрашивает файл robots.txt, которого у меня на сервере нет?
Почему Google-бот пытается загрузить с моего сервера неправильные ссылки? Или с сервера, которого не существует?
Почему Google-бот загружает информацию с нашего "секретного" веб-сервера?
Почему Google-бот не выполняет инструкции из файла robots.txt?
Почему мой сайт посещали разные машины Google.com и неизменно посредством агента-пользователя Google-бота?
Нельзя ли узнать IP-адреса, с которых выполняет сканирование Google-бот, чтобы фильтровать журналы?
Почему Google-бот загружает одну и ту же страницу с моего сайта несколько раз?
Почему у вас в индексе нет моих страниц, которые Google-бот уже сканировал?
По каким ссылкам переходит Google-бот?
Как запретить Google-боту переходить по ссылкам на моих страницах?
Как запретить Google-боту переходить по одной из ссылок на странице?
На мой вопрос о Google-боте нет ответа. Куда мне обратиться?
Ответы
1. Как часто Google-бот будет посещать мои веб-страницы?
Больинство сайтов Google-бот посещает, в среднем, не чаще, чем раз в несколько секунд. Однако из-за задержек в сети возможно, что за короткий период скорость будет несколько выше.
2. Как запретить Google сканировать сайт полностью или частично?
robots.txt – стандартный документ, инструктирующий Google-бот не загружать никакую или некоторую информацию с веб-сервера. Формат файла robots.txt описан на сайте Стандарт исключений для роботов. Подробнее о том, как запретить Google-боту сканировать сайт или его часть, см. на странице Удаление. Не забывайте: Google отражает изменения, внесённые в файл robots.txt, не сразу, а только после очередного сканирования Вашего сайта ботом.
3. Google-бот сканирует сайт слишком быстро. Что можно сделать?
Свяжитесь с нами. Укажите URL-адрес Вашего сайта и подробно опишите проблему. Кроме того, приложите фрагмент веб-журнала, где зарегистрировано посещение сайта Google-ботом, чтобы мы могли быстро выявить проблему.
4. Почему Google-бот запрашивает файл robots.txt, которого у меня на сервере нет?
robots.txt – стандартный документ, инструктирующий Google-бот не загружать никакую или некоторую информацию с веб-сервера. О том, как создать файл robots.txt, говорится на сайте Стандарт исключений для роботов. Если Вы просто хотите, чтобы в журнале веб-сервера не было сообщений об ошибке "Файл не найден", можно создать пустой файл и присвоить ему имя robots.txt.
5. Почему Google-бот пытается загрузить с моего сервера неправильные ссылки? Или с сервера, которого не существует?
В любой момент времени в Интернете есть много неработающих и устаревших ссылок. Когда кто-нибудь размещает неправильную ссылку на Ваш сайт (например, из-за опечатки) или не обновляет ссылки после внесения в Ваш сервер изменений, Google-бот пытается загрузить эту неправильную ссылку с сайта. Этим же объясняются обращения с машин, которые даже не являются веб-серверами.
6. Почему Google-бот загружает информацию с нашего "секретного" веб-сервера?
Почти невозможно обеспечить секретность сайта за счёт отсутствия ссылок на него. Как только кто-нибудь перейдет с "секретного" сайта на другой сервер, "секретный" URL-адрес может появиться в теге реферера, после чего веб-сервер получает возможность сохранить его и опубликовать в журнале реферера. Таким образом, если где-нибудь в Интернете есть ссылка на "секретный" сервер или страницу, Google-бот, скорее всего, её найдет, так же как и другие сканеры.
7. Почему Google-бот не выполняет инструкции из файла robots.txt?
Для экономии ресурсов канала передачи данных Google-бот загружает файл robots.txt раз в день или после загрузки с сервера большого количества страниц. Поэтому может пройти некоторое время, прежде чем Google-бот узнает об изменениях, внесенных в файл robots.txt. Кроме того, Google-бот распределён по нескольким машинам. На каждой из них хранится свой экземпляр файла robots.txt.
Мы всегда рекомендуем проверять соответствие синтаксиса стандарту, опубликованному на сайте http://www.robotstxt.org/wc/exclusion.html#robotstxt Проблемы часто возникают из-за того, что файл robots.txt находится не в корневом каталоге сервера (например, www.myhost.com/robots.txt) Если разместить его в подкаталоге, роботы его не увидят.
Кроме того, Google-бот обрабатывает файл robots.txt не совсем так, как следует это делать в соответствии со стандартом (обратите внимание: следует не значит обязательно). Стандарт требует соблюдать первое применимое правило, а Google-бот соблюдает самое длинное (то есть самое конкретное). Эта интуитивно понятная процедура соответствует действиям и ожиданиям людей. Рассмотрим, например, такой файл robots.txt:
User-Agent: *
Allow: /
Disallow: /cgi-bin
Вебмастер, очевидно, хочет, чтобы роботы сканировали все, кроме каталога /cgi-bin. Следовательно, так мы и поступаем.
Дополнительная информация представлена в Часто задаваемых вопросах о роботах. Если по-прежнему возникают проблемы, свяжитесь с нами.
8. Почему мой сайт посещали разные машины Google.com и неизменно посредством агента-пользователя Google-бота?
Google-бот предназначен для работы на нескольких машинах для повышения производительности и увеличения масштабов по мере роста Интернета. Кроме того, чтобы сократить трафик, мы запускаем сканеры с машин, расположенных в сети рядом с индексируемыми сайтами.
9. Нельзя ли узнать IP-адреса, с которых выполняет сканирование Google-бот, чтобы фильтровать журналы?
IP-адреса, используемые Google-ботом, время от времени меняются. Лучший способ определить, когда сайт посещал Google-бот, – воспользоваться агентом-пользователем (Google-ботом).
10. Почему Google-бот загружает одну и ту же страницу с моего сайта несколько раз?
Вообще, за один сеанс сканирования Google-бот должен загружать по одному экземпляру файла с сайта. Изредка сканирование останавливается и перезапускается. В этом случае пройденные ранее страницы сканируются повторно.
11. Почему у вас в индексе нет моих страниц, которые Google-бот уже сканировал?
Не беспокойтесь, если не сможете сразу найти документы, сканированные Google-ботом, в поисковой системе Google. Документы добавляются в индекс вскоре после сканирования. Иногда по ряду причин этого не происходит (например, если речь идет о копиях других страниц в Интернете).
12. По каким ссылкам переходит Google-бот?
Google-бот переходит по ссылкам HREF и SRC.
13. Как запретить Google-боту переходить по ссылкам на моих страницах?
Чтобы Google-бот не переходил с Ваших страниц по ссылкам на другие страницы и документы, добавьте в заголовок HTML-документа следующий мета-тег:
Дополнительная информация о мета-тегах содержится на сайте http://www.robotstxt.org/wc/exclusion.html#meta Кроме того, можно прочитать, что говорится об этих тегах в стандарте HTML. Не забывайте: Google отражает изменения, внесённые в сайт, не сразу, а только после очередного сканирования Вашего сайта ботом.
14. Как запретить Google-боту переходить по одной из ссылок на странице?
Мета-теги запрещают переход по всем ссылкам на странице. Чтобы запретить Google-боту переходить по конкретной ссылке, можно добавить к ней rel="nofollow". Ссылки с этим атрибутом не помогают сайту подняться выше в списке результатов поиска. Например, ссылку
Это замечательная ссылка!
можно заменить ссылкой
Я бы за эту ссылку не поручился.
http://www.google.ru/intl/ru/webmasters/bot.html#whatlinks
MORE...