Как работает веб-краулер (поисковой паук)

Материал из Самая полная в Рунете энциклопедия интернет-маркетинга
Перейти к: навигация, поиск

Основная статья: Поисковой паук (краулер): виды и функции

Как работает веб-краулер?

Функционирование поискового робота строится по тем же принципам, по которым работает браузер. Паук заходит на сайты, оценивает содержимое страниц, переносит их в базу поисковой системы, затем по ссылкам переходит на другой ресурс, повторяя вызубренный алгоритм действий. Результат этих путешествий — перебор веб-ресурсов в строгой последовательности, индексация новых страниц, включение неизвестных сайтов в базу. Попадая на ресурс, паук находит предназначенный для него файл robots.txt. Это необходимо, чтобы сократить время на попытки индексации закрытого контента. После изучения файла робот посещает главную страницу, а с нее переходит по ссылкам, продвигаясь в глубину. За одно посещение краулер редко обходит сайт целиком и никогда не добирается до глубоко размещенных страниц. Поэтому чем меньше переходов ведет к искомым страницам с главной, тем быстрее они будут проиндексированы.

Отметим, что веб-паук не делает анализа контента, он лишь передает его на серверы поисковых систем, где происходит дальнейшая оценка и обработка. Краулеры регулярно посещают сайты, оценивая их на предмет обновлений. Новостные ресурсы индексируются с интервалом в несколько минут, сайты с аналитическими статьями, обновляемые раз в 4 недели, — каждый месяц и т. п.

Как самостоятельно проиндексировать сайт?

Сайты, на которые не ведет достаточный объем внешних ссылок, паук не проиндексирует без вмешательства вебмастера. Чтобы ресурс попал в поисковую выдачу, потребуется добавить его в карту посещений краулера. Оперативная индексация сайта возможна при размещении систем веб-аналитики от поисковых сервисов: Google Analytics, Яндекс.Метрика, Рейтинг@Mail.ru.

Положительно влияют на индексацию сайта ссылки из социальных медиа, новостных порталов. Однако большой объём покупных ссылок грозит санкциями поисковых систем, к примеру, «Минусинска» от «Яндекса».

Зачем краулеров маскируют под реальных пользователей?

Владельцы ботов часто не готовы смириться с ограничениями, установленными на ресурсах. Представим ситуацию, когда паук создан для отбора и анализа сведений о 10 000 популярных картинах сайта http://kinopoisk.ru. Для отражения информации по каждому фильму потребуются, минимум, 10 запросов, в процессе необходимо:

1) открыть страницу картины для чтения описания; 2) посетить разделы «Премьеры», «Кадры», «Актеры», «Студии», «Награды»; 3) посетить имеющиеся подразделы.

С учетом ожиданий между запросами в 10 секунд на просмотр страниц уйдет 11 суток. К тому же 10 000 объектов — начальная ставка, если задача разработчиков провести обучение машины. По этой причине новых пауков маскируют под реальных пользователей. И тогда краулер в заголовке запроса представляется как браузер. Кроме скромных тружеников статистики, существуют спам-боты, которые извлекают с веб-страниц почтовые адреса для своих рассылок.

«Яндекс» обучил поискового робота анализировать JavaScript и CSS-код

«Яндекс» научил своего бота понимать коды JavaScript и CSS. Новый талант используется при анализе содержимого сайтов, при этом проверяется не только контент, но и его CSS и JavaScript коды. Новый тип индексации на начальном этапе применяется только к отдельным сайтам. Функция позволит пауку оценивать содержимое ресурса на более глубоком уровне и видеть его глазами пользователя. К перечню параметров, по которым оцениваются сайты, добавляется удобство пользовательского интерфейса.

Дополнительно краулер получит доступ к части контента, ранее закрытой для анализа. Полученные данные могут использоваться для сравнения с информацией, которая в текущий момент влияет на позицию ресурса в поисковой выдаче.

Работа паука в режиме онлайн

Поисковые роботы — ключевые компоненты поисковой системы, важные при выполнении функций, связанных с индексацией сайтов. Общая информация, добытая в ходе путешествий, образует индексную базу поисковой системы. От проворности пауков зависит качество и оперативность поиска. Как робот видит анализируемый сайт? Посмотреть на ресурс глазами веб-паука можно на сервисе http://pr-cy.ru/simulator. Воспользоваться ресурсом просто. Скопируйте адрес страницы, поместите в строку поиска и наблюдайте.

Читайте другие статьи на тему «Поисковой паук»:

Полезные ссылки