Выходцы из России представили новую технологию поиска в интернете. Предполагается, что она позволить проиндексировать на миллиарды больше страниц, чем возможно сейчас.
Руководство недавно созданной компании Glenbrook Networks считает, что компании удалось разработать способ "глубокого поиска", позволяющего находить ранее недоступную информацию.
Речь идет о том, что общепринятые представления об объемах информации, находящейся в интернете, весьма далеки от реального положения вещей. В Сети сейчас выложены сотни миллиардов документов, что гораздо больше, чем от 8 до 20 млрд., проиндексированных Google и Yahoo. Однако большинство этих веб-страниц недоступно для большинства поисковых систем, так как они хранятся в базах данных, индексация которых невозможна.
Компания Glenbrook, основанная эмигрантами из России (отцом и дочерью), продемонстрировала новую поисковую технологию на примере извлечения информации о вакансиях из баз данных различных сайтов. По словам руководителей компании, большинство существующих поисковых машин на такое не способны. Кроме того, для новой технологии существует масса иных применений.
"Те, кто размещает информацию в базах данных, как правило хотят, чтобы ее могли найти другие люди", – говорит вице-президент Glenbrook Networks по продукции Юлия Комиссарчик. – Однако способ представления этой информации не позволяет ей быть обнаруженной при помощи поисковой машины. Для этого требуется участие человека".
Это особенно верно, когда речь идет о веб-страницах, хранящихся в базах данных. Обычные страницы являются статическими файлами, постоянно размещенными на своем сервере. Однако бессчетное множество страниц в действительности не существует до тех пор, пока человек не заполнит форму информационного запроса на веб-сайте. В качестве таких примеров можно назвать онлайн словари, сайты бюро путешествий, библиотечные каталоги и медицинские базы данных.
По утверждениям Юлии и ее отца Эдуарда Комиссарчика, ими разработан метод анализа веб-форм, позволяющий определить, информацией какого типа следует заполнять эти формы. С помощью этого метода «роботы» Glenbrook могут проходить все стадии заполнения достаточно сложных форм, отвечая на такие вопросы, как местонахождение желаемого места работы.
Для демонстрации новой технологии глубокого поиска в интернете компанией был создан сайт поиска вакансий Glendor.com. Он отбирает вакансии из сотен, размещаемых на сайтах компании Bay Area и крупном сайте HotJobs.com. Особенно эффектно демонстрация выглядит благодаря нанесению вакансий на карту Google Maps.
Glenbrook – далеко не единственная компания, ведущая исследования в области глубокого поиска в Сети. Так, компания Yahoo также предпринимает усилия по индексированию глубин инетрнета. Yahoo имеет партнерские отношения с Национальной общественной радиовещательной сетью, Библиотекой Конгресса, Нью-Йоркской публичной библиотекой и другими организациями, в рамках которых ведутся работы по индексированию содержимого их баз данных. Кроме того, компания Google к своей поисковой машине добавила поиск в обширной библиографической базе данных, которая раньше была доступна лишь в библиотеках.
Как часто Google-бот будет посещать мои веб-страницы?
Как запретить Google сканировать сайт полностью или частично?
Google-бот сканирует сайт слишком быстро. Что можно сделать?
Почему Google-бот запрашивает файл robots.txt, которого у меня на сервере нет?
Почему Google-бот пытается загрузить с моего сервера неправильные ссылки? Или с сервера, которого не существует?
Почему Google-бот загружает информацию с нашего "секретного" веб-сервера?
Почему Google-бот не выполняет инструкции из файла robots.txt?
Почему мой сайт посещали разные машины Google.com и неизменно посредством агента-пользователя Google-бота?
Нельзя ли узнать IP-адреса, с которых выполняет сканирование Google-бот, чтобы фильтровать журналы?
Почему Google-бот загружает одну и ту же страницу с моего сайта несколько раз?
Почему у вас в индексе нет моих страниц, которые Google-бот уже сканировал?
По каким ссылкам переходит Google-бот?
Как запретить Google-боту переходить по ссылкам на моих страницах?
Как запретить Google-боту переходить по одной из ссылок на странице?
На мой вопрос о Google-боте нет ответа. Куда мне обратиться?
Ответы
1. Как часто Google-бот будет посещать мои веб-страницы?
Больинство сайтов Google-бот посещает, в среднем, не чаще, чем раз в несколько секунд. Однако из-за задержек в сети возможно, что за короткий период скорость будет несколько выше.
2. Как запретить Google сканировать сайт полностью или частично?
robots.txt – стандартный документ, инструктирующий Google-бот не загружать никакую или некоторую информацию с веб-сервера. Формат файла robots.txt описан на сайте Стандарт исключений для роботов. Подробнее о том, как запретить Google-боту сканировать сайт или его часть, см. на странице Удаление. Не забывайте: Google отражает изменения, внесённые в файл robots.txt, не сразу, а только после очередного сканирования Вашего сайта ботом.
3. Google-бот сканирует сайт слишком быстро. Что можно сделать?
Свяжитесь с нами. Укажите URL-адрес Вашего сайта и подробно опишите проблему. Кроме того, приложите фрагмент веб-журнала, где зарегистрировано посещение сайта Google-ботом, чтобы мы могли быстро выявить проблему.
4. Почему Google-бот запрашивает файл robots.txt, которого у меня на сервере нет?
robots.txt – стандартный документ, инструктирующий Google-бот не загружать никакую или некоторую информацию с веб-сервера. О том, как создать файл robots.txt, говорится на сайте Стандарт исключений для роботов. Если Вы просто хотите, чтобы в журнале веб-сервера не было сообщений об ошибке "Файл не найден", можно создать пустой файл и присвоить ему имя robots.txt.
5. Почему Google-бот пытается загрузить с моего сервера неправильные ссылки? Или с сервера, которого не существует?
В любой момент времени в Интернете есть много неработающих и устаревших ссылок. Когда кто-нибудь размещает неправильную ссылку на Ваш сайт (например, из-за опечатки) или не обновляет ссылки после внесения в Ваш сервер изменений, Google-бот пытается загрузить эту неправильную ссылку с сайта. Этим же объясняются обращения с машин, которые даже не являются веб-серверами.
6. Почему Google-бот загружает информацию с нашего "секретного" веб-сервера?
Почти невозможно обеспечить секретность сайта за счёт отсутствия ссылок на него. Как только кто-нибудь перейдет с "секретного" сайта на другой сервер, "секретный" URL-адрес может появиться в теге реферера, после чего веб-сервер получает возможность сохранить его и опубликовать в журнале реферера. Таким образом, если где-нибудь в Интернете есть ссылка на "секретный" сервер или страницу, Google-бот, скорее всего, её найдет, так же как и другие сканеры.
7. Почему Google-бот не выполняет инструкции из файла robots.txt?
Для экономии ресурсов канала передачи данных Google-бот загружает файл robots.txt раз в день или после загрузки с сервера большого количества страниц. Поэтому может пройти некоторое время, прежде чем Google-бот узнает об изменениях, внесенных в файл robots.txt. Кроме того, Google-бот распределён по нескольким машинам. На каждой из них хранится свой экземпляр файла robots.txt.
Мы всегда рекомендуем проверять соответствие синтаксиса стандарту, опубликованному на сайте http://www.robotstxt.org/wc/exclusion.html#robotstxt Проблемы часто возникают из-за того, что файл robots.txt находится не в корневом каталоге сервера (например, www.myhost.com/robots.txt) Если разместить его в подкаталоге, роботы его не увидят.
Кроме того, Google-бот обрабатывает файл robots.txt не совсем так, как следует это делать в соответствии со стандартом (обратите внимание: следует не значит обязательно). Стандарт требует соблюдать первое применимое правило, а Google-бот соблюдает самое длинное (то есть самое конкретное). Эта интуитивно понятная процедура соответствует действиям и ожиданиям людей. Рассмотрим, например, такой файл robots.txt:
User-Agent: *
Allow: /
Disallow: /cgi-bin
Вебмастер, очевидно, хочет, чтобы роботы сканировали все, кроме каталога /cgi-bin. Следовательно, так мы и поступаем.
Дополнительная информация представлена в Часто задаваемых вопросах о роботах. Если по-прежнему возникают проблемы, свяжитесь с нами.
8. Почему мой сайт посещали разные машины Google.com и неизменно посредством агента-пользователя Google-бота?
Google-бот предназначен для работы на нескольких машинах для повышения производительности и увеличения масштабов по мере роста Интернета. Кроме того, чтобы сократить трафик, мы запускаем сканеры с машин, расположенных в сети рядом с индексируемыми сайтами.
9. Нельзя ли узнать IP-адреса, с которых выполняет сканирование Google-бот, чтобы фильтровать журналы?
IP-адреса, используемые Google-ботом, время от времени меняются. Лучший способ определить, когда сайт посещал Google-бот, – воспользоваться агентом-пользователем (Google-ботом).
10. Почему Google-бот загружает одну и ту же страницу с моего сайта несколько раз?
Вообще, за один сеанс сканирования Google-бот должен загружать по одному экземпляру файла с сайта. Изредка сканирование останавливается и перезапускается. В этом случае пройденные ранее страницы сканируются повторно.
11. Почему у вас в индексе нет моих страниц, которые Google-бот уже сканировал?
Не беспокойтесь, если не сможете сразу найти документы, сканированные Google-ботом, в поисковой системе Google. Документы добавляются в индекс вскоре после сканирования. Иногда по ряду причин этого не происходит (например, если речь идет о копиях других страниц в Интернете).
12. По каким ссылкам переходит Google-бот?
Google-бот переходит по ссылкам HREF и SRC.
13. Как запретить Google-боту переходить по ссылкам на моих страницах?
Чтобы Google-бот не переходил с Ваших страниц по ссылкам на другие страницы и документы, добавьте в заголовок HTML-документа следующий мета-тег:
Дополнительная информация о мета-тегах содержится на сайте http://www.robotstxt.org/wc/exclusion.html#meta Кроме того, можно прочитать, что говорится об этих тегах в стандарте HTML. Не забывайте: Google отражает изменения, внесённые в сайт, не сразу, а только после очередного сканирования Вашего сайта ботом.
14. Как запретить Google-боту переходить по одной из ссылок на странице?
Мета-теги запрещают переход по всем ссылкам на странице. Чтобы запретить Google-боту переходить по конкретной ссылке, можно добавить к ней rel="nofollow". Ссылки с этим атрибутом не помогают сайту подняться выше в списке результатов поиска. Например, ссылку
Если все же решено применять фреймы, то давайте разберемся с тем, как правильно писать HTML-код и работать с ними.
Любая страничка, содержащая фреймы, начинается с написания специальной странички-контейнера, которая сама не показывается, но содержит в себе указания для организации фреймовой структуры и ссылок на участвующие файлы. Вот, как она выглядит:
Чтобы проиндексировать всю информацию в мире и сделать ее доступной для поиска, потребуется 300 лет, сказал Эрик Шмидт. По оценкам Google, сейчас проиндексировано только 0,0034% мирового контента.
«Мы провели необходимые математически вычисления и результат был 300 лет», — сказал директор компании Google во время своего выступления на ежегодной конференции Национальной ассоциации рекламодателей США, отвечая на вопрос о том, на какой срок компания Google рассчитывает свою миссию.
Эрик Шмидт явно дал понять, что работы у Google еще непочатый край. По оценкам компании, в мире существует 5 млн ТБ информации, пригодной для поиска, а проиндексированной является всего 170 ТБ, то есть примерно 0,0034%. Такая оценка является гораздо более пессимистичной, чем проведенные ранее исследования объемов Невидимой сети. Специалистам Google действительно можно верить. Хотя их анализ основана на сугубо эмпирических оценках, однако, без сомнения, информация получена из самого компетентного источника.
Выступая перед аудиторией специалистов по рекламе, Эрик Шмидт также рассказал много интересного о рекламном бизнесе Google. Он признался, что четыре года назад, когда пришел на работу в компанию, очень скептически относился к идее контекстной рекламы. Когда ему показали рекламные ссылки на сайте, он очень удивился: «Вы шутите! Неужели народ действительно нажимает на них?». Каково было его изумление, когда оказалось, что да, действительно, новый рекламные ссылки весьма популярны. Но только при одном условии — если они действительно соответствуют поисковому запросу.
Вообще, новые технологии и присущая им интерактивность — например, учет каждого нажатия на рекламный баннер — сильно изменила индустрию рекламы. Образно говоря, теперь вся сила сконцентрирована не у корпораций, а у конечных пользователей. Раньше корпорация принимала решения относительно рекламного контента, а теперь каждый отдельный пользователь принимает такие решения.
В США объем рекламного рынка составляет примерно $283 млрд, из которых $11,3 млрд тратится на интернет-рекламу, а Google получает около 1% этих денег. По мнению Эрика Шмидта, реклама всегда будет в интернете, хотя в будущем могут быть созданы какие-то другие модели оплаты за контент, например, с помощью микроплатежей.
Peter: “Feelings ...” (53,200,000 results in Google)
Mary: “Feelings are ...” (2,100,000 results)
Jake: “Feelings are nothing ...” (1,090 results)
Susan: “Feelings are nothing and ...” (19 results)
Peter: “Feelings are nothing and we ...” (0 results)
первый однословное ..второй двухсловное и так далее .. кто достиг нулевой выдачи - тому и кружка Big Beer
Как было на самом деле :
Потоп. Ной плывет на своем корабле ..ну там понятно каждой твари по паре и три его сына. День плывут ..неделю..
Прибегает к бате младший сын и грит .. бать ..чего-то делать надо ..все трюмы от тварей в дерьме ...
Не трогать ! отвечает отец ... у меня с богом не было на этот счет договоренностей ..
Время прошло - средний сын паниковать уже начал ... бааатя !!! ё
калэ-мэнэ ... уже до палубы дерьма набралось .. давай хоть за борт покидаем немного ...
Не трожь ! сказано-же что не было уговору ..
Ладно ..плывут дальше .... дерьмо уже по борта ..корабль креном пошел ...
Не выдержал старший сын и все дерьмо спустил в окиян ...
плавало это дерьмо ..плавало ... пока на него Колумб не наткнулся ...
Вот так им и была открыта Америка !