А.З. Немного истории
Еще в первой половине 1990-х годов, в период развития Интернета, существовала проблема веб-роботов, связанная с тем, что некоторые из первых роботов могли существенно загрузить веб-сервер, вплоть до его отказа, из-за того, что делали большое количество запросов к сайту за слишком короткое время. Системные администраторы и администраторы веб-серверов не имели возможности управлять поведением робота в пределах своих сайтов, а могли лишь полностью закрыть доступ роботу не только к сайту, а и к серверу.
В 1994 году был разработан протокол robots.txt, задающий исключения для роботов и позволяющий пользователям управлять поисковыми роботами в пределах своих сайтов. Об этих возможностях вы читали в главе 6 «Как сделать сайт доступным для поисковых систем».
В дальнейшем, по мере роста Сети, количество поисковых роботов увеличивалось, а функциональность их постоянно расширялась. Некоторые поисковые роботы не дожили до наших дней, оставшись только в архивах серверных лог-файлов конца 1990-х. Кто сейчас вспоминает робота T-Rex, собирающего информацию для системы Lycos? Вымер, как динозавр, по имени которого назван. Или где можно найти Scooter — робот системы Altavista? Нигде! А ведь в 2002 году он еще активно индексировал документы.
Даже в имени основного робота Яндекса можно найти эхо минувших дней: фрагмент его полного имени «compatible; Winl6;» был добавлен для совместимости с некоторыми старыми веб-серверами.
