RSS





Наши полезные сервисы (Our useful services)
Подвальчик



Погода со спутника

Технология приготовления копченого сала (грудинки)

Рецепт капусты



<< Механизм работы фреймов   |   ARCHIVES   |   Русские совершили революцию в интернет-поиске >>

Часто задаваемые вопросы гугле и ее ответы

Как часто Google-бот будет посещать мои веб-страницы?
Как запретить Google сканировать сайт полностью или частично?
Google-бот сканирует сайт слишком быстро. Что можно сделать?
Почему Google-бот запрашивает файл robots.txt, которого у меня на сервере нет?
Почему Google-бот пытается загрузить с моего сервера неправильные ссылки? Или с сервера, которого не существует?
Почему Google-бот загружает информацию с нашего "секретного" веб-сервера?
Почему Google-бот не выполняет инструкции из файла robots.txt?
Почему мой сайт посещали разные машины Google.com и неизменно посредством агента-пользователя Google-бота?
Нельзя ли узнать IP-адреса, с которых выполняет сканирование Google-бот, чтобы фильтровать журналы?
Почему Google-бот загружает одну и ту же страницу с моего сайта несколько раз?
Почему у вас в индексе нет моих страниц, которые Google-бот уже сканировал?
По каким ссылкам переходит Google-бот?
Как запретить Google-боту переходить по ссылкам на моих страницах?
Как запретить Google-боту переходить по одной из ссылок на странице?
На мой вопрос о Google-боте нет ответа. Куда мне обратиться?

Ответы

1. Как часто Google-бот будет посещать мои веб-страницы?

Больинство сайтов Google-бот посещает, в среднем, не чаще, чем раз в несколько секунд. Однако из-за задержек в сети возможно, что за короткий период скорость будет несколько выше.

2. Как запретить Google сканировать сайт полностью или частично?

robots.txt – стандартный документ, инструктирующий Google-бот не загружать никакую или некоторую информацию с веб-сервера. Формат файла robots.txt описан на сайте Стандарт исключений для роботов. Подробнее о том, как запретить Google-боту сканировать сайт или его часть, см. на странице Удаление. Не забывайте: Google отражает изменения, внесённые в файл robots.txt, не сразу, а только после очередного сканирования Вашего сайта ботом.

3. Google-бот сканирует сайт слишком быстро. Что можно сделать?

Свяжитесь с нами. Укажите URL-адрес Вашего сайта и подробно опишите проблему. Кроме того, приложите фрагмент веб-журнала, где зарегистрировано посещение сайта Google-ботом, чтобы мы могли быстро выявить проблему.

4. Почему Google-бот запрашивает файл robots.txt, которого у меня на сервере нет?

robots.txt – стандартный документ, инструктирующий Google-бот не загружать никакую или некоторую информацию с веб-сервера. О том, как создать файл robots.txt, говорится на сайте Стандарт исключений для роботов. Если Вы просто хотите, чтобы в журнале веб-сервера не было сообщений об ошибке "Файл не найден", можно создать пустой файл и присвоить ему имя robots.txt.

5. Почему Google-бот пытается загрузить с моего сервера неправильные ссылки? Или с сервера, которого не существует?

В любой момент времени в Интернете есть много неработающих и устаревших ссылок. Когда кто-нибудь размещает неправильную ссылку на Ваш сайт (например, из-за опечатки) или не обновляет ссылки после внесения в Ваш сервер изменений, Google-бот пытается загрузить эту неправильную ссылку с сайта. Этим же объясняются обращения с машин, которые даже не являются веб-серверами.

6. Почему Google-бот загружает информацию с нашего "секретного" веб-сервера?

Почти невозможно обеспечить секретность сайта за счёт отсутствия ссылок на него. Как только кто-нибудь перейдет с "секретного" сайта на другой сервер, "секретный" URL-адрес может появиться в теге реферера, после чего веб-сервер получает возможность сохранить его и опубликовать в журнале реферера. Таким образом, если где-нибудь в Интернете есть ссылка на "секретный" сервер или страницу, Google-бот, скорее всего, её найдет, так же как и другие сканеры.

7. Почему Google-бот не выполняет инструкции из файла robots.txt?

Для экономии ресурсов канала передачи данных Google-бот загружает файл robots.txt раз в день или после загрузки с сервера большого количества страниц. Поэтому может пройти некоторое время, прежде чем Google-бот узнает об изменениях, внесенных в файл robots.txt. Кроме того, Google-бот распределён по нескольким машинам. На каждой из них хранится свой экземпляр файла robots.txt.

Мы всегда рекомендуем проверять соответствие синтаксиса стандарту, опубликованному на сайте http://www.robotstxt.org/wc/exclusion.html#robotstxt Проблемы часто возникают из-за того, что файл robots.txt находится не в корневом каталоге сервера (например, www.myhost.com/robots.txt) Если разместить его в подкаталоге, роботы его не увидят.

Кроме того, Google-бот обрабатывает файл robots.txt не совсем так, как следует это делать в соответствии со стандартом (обратите внимание: следует не значит обязательно). Стандарт требует соблюдать первое применимое правило, а Google-бот соблюдает самое длинное (то есть самое конкретное). Эта интуитивно понятная процедура соответствует действиям и ожиданиям людей. Рассмотрим, например, такой файл robots.txt:

User-Agent: *
Allow: /
Disallow: /cgi-bin
Вебмастер, очевидно, хочет, чтобы роботы сканировали все, кроме каталога /cgi-bin. Следовательно, так мы и поступаем.

Дополнительная информация представлена в Часто задаваемых вопросах о роботах. Если по-прежнему возникают проблемы, свяжитесь с нами.

8. Почему мой сайт посещали разные машины Google.com и неизменно посредством агента-пользователя Google-бота?

Google-бот предназначен для работы на нескольких машинах для повышения производительности и увеличения масштабов по мере роста Интернета. Кроме того, чтобы сократить трафик, мы запускаем сканеры с машин, расположенных в сети рядом с индексируемыми сайтами.

9. Нельзя ли узнать IP-адреса, с которых выполняет сканирование Google-бот, чтобы фильтровать журналы?

IP-адреса, используемые Google-ботом, время от времени меняются. Лучший способ определить, когда сайт посещал Google-бот, – воспользоваться агентом-пользователем (Google-ботом).

10. Почему Google-бот загружает одну и ту же страницу с моего сайта несколько раз?

Вообще, за один сеанс сканирования Google-бот должен загружать по одному экземпляру файла с сайта. Изредка сканирование останавливается и перезапускается. В этом случае пройденные ранее страницы сканируются повторно.

11. Почему у вас в индексе нет моих страниц, которые Google-бот уже сканировал?

Не беспокойтесь, если не сможете сразу найти документы, сканированные Google-ботом, в поисковой системе Google. Документы добавляются в индекс вскоре после сканирования. Иногда по ряду причин этого не происходит (например, если речь идет о копиях других страниц в Интернете).

12. По каким ссылкам переходит Google-бот?

Google-бот переходит по ссылкам HREF и SRC.

13. Как запретить Google-боту переходить по ссылкам на моих страницах?

Чтобы Google-бот не переходил с Ваших страниц по ссылкам на другие страницы и документы, добавьте в заголовок HTML-документа следующий мета-тег:



Дополнительная информация о мета-тегах содержится на сайте http://www.robotstxt.org/wc/exclusion.html#meta Кроме того, можно прочитать, что говорится об этих тегах в стандарте HTML. Не забывайте: Google отражает изменения, внесённые в сайт, не сразу, а только после очередного сканирования Вашего сайта ботом.

14. Как запретить Google-боту переходить по одной из ссылок на странице?

Мета-теги запрещают переход по всем ссылкам на странице. Чтобы запретить Google-боту переходить по конкретной ссылке, можно добавить к ней rel="nofollow". Ссылки с этим атрибутом не помогают сайту подняться выше в списке результатов поиска. Например, ссылку

Это замечательная ссылка!

можно заменить ссылкой

Я бы за эту ссылку не поручился.

http://www.google.ru/intl/ru/webmasters/bot.html#whatlinks

MORE...


Posted by: GreenWood on Oct 10, 05 | 6:34 pm | Profile

COMMENTS



Notify me when someone replies to this post?


SEO blog. На главную.

ppc


Партнерские программы


Google
 
Web bloggreenwood.com
черное море

#1 Online pharmacy
affiliate program!