Поисковые роботы: решение полезных задач

Для начала определимся с понятием «поисковый робот».

Поисковый робот — это программа, способная перемещаться по сети, запрашивая определенные документы и возвращая их запрашивающему, использует стандартные протоколы.

Называют эти программы «веб-роботами», «пауками», «червями» и даже «странниками». Может, эти названия более поэтичны и привлекательны, но суть передают не точно. Пауки вроде как сами перемещаются, черви не только перемещаются, но и размножаются. А веб-робот — просто алгоритм, программа.

Поисковые роботы используются для выполнения целого ряда полезных задач.

Полезное использование

Для сбора данных, статистический анализ — подсчет документов на одном сервере, средние размеры интернет-страницы, определение релевантности ссылок, в общем, сбор статистических данных в сети, не противоречащий законодательству стран.

Гипертексты, обслуживание — при переносе ресурсов на другие серверы некоторые ссылки становятся «мертвыми». В случае сайтов с большим количеством страниц проверить вручную активность ссылок невозможно. Иногда пользователи сообщают о таких ссылках на сервер, но чаще это не происходит. Обнаружив подобное, веб-мастер исправляет вручную. Роботы могут помочь решить эту проблему. Кроме того, роботы проверяют HTML документы.

Зазеркаливание применяется для поддержания архивов. То есть, создается сайт — архив. Трудности зазеркаливания — регулярное изменение документов, которые изменены на сайте — доноре. Есть проблемы в уникальности контента, ведь, создавая идентичный сайт, мы автоматически его контент делаем неуникальным. Необходимо изменить и ссылки, которые должны теперь выводить не на страницы сайта-донора, а на копии. Программы-роботы для зазеркаливания существуют, но пока они нуждаются в доработке. Отметим, что иногда «зеркало» применяют для сайтов, попавших под санкции. Поисковики сообщают, что такие сайты распознавать могут, но веб-мастера говорят, что подобное распознавание происходит редко.

Исследование сайтов — интересное и перспективное применение роботов. Пользователю надо собрать информацию из множества источников. Вручную просмотреть все не представляется возможным. Существует несколько подобных программ, которые собирают информацию по сети и передают ее пользователю. Конечно, и роботы могут учесть не все. В любом случае данных будет больше, чем при самостоятельном просмотре сайтов.

Комбинированное использование — такие роботы существуют. Но пока их мало.

К сожалению, далеко не всегда использование роботов оправданно из-за большой нагрузки на сервера. И еще хуже то, что роботы часто используются далеко не в благих целях. Об этом в следующий раз.

В статье не рассматриваются программы, применяемые для сбора статистических данных и их анализа в поисковиках.