А.5. Поведение роботов на сайте
Чем отличается поведение робота на сайте от поведения обычного пользователя?
1. Управляемость. Прежде всего «интеллигентный» робот должен запросить с сервера файл robots . txt с инструкциями по индексации.
2. Выборочное выкачивание. При запросе документа робот четко указывает типы запрашиваемых данных, в отличие от обычного браузера, готового принимать все подряд. Основные роботы популярных поисковиков в первую очередь будут запрашивать гипертекстовые и обычные текстовые документы, оставляя без внимания файлы стилей оформления CSS, изображения, видео, ZIP-архивы и т.п. В настоящее время также востребована информация в форматах PDF, Rich Text, MS Word, MS Excel и некоторых других.
3. Hепредсказуемоспгь. Невозможно отследить или предсказать путь робота по сайгу, поскольку он не оставляет информации в гюле Referer — адрес страницы, откуда он пришел; робот просто запрашивает список документов, казалось бы, в случайном порядке, а на самом деле в соответствии со своим внутренним списком или очередью индексации.
4. Скорость. Небольшое время между запросами разных документов. Здесь речь идет о секундах или долях секунды между запросами двух разных документов. Для некоторых роботов есть даже специальные инструкции, которые указываются в файле robots . txt, по ограничению скорости запроса документов, чтобы не перегрузить сайт.
Как может выглядеть HTML-страница в глазах робота, мы не знаем, но можем попытаться себе это представить, отключая в браузере отображение графики и стилевого оформления.
1. Вид главной страницы сайта «Энциклопедия поисковых систем» в обычном браузере показан на рис. А.2.
