Автор: admin
Условие релевантности — это не входящее в запрос предположение пользователя о том, какие страницы будут релевантным ответом на запрос. Фактически — это скрытая постановка задачи поиска в уме пользователя. Например, если пользователь вводит запрос ногу свело, то в большинстве случаев таким условием релевантности является имеющееся в уме пользователя дополнительное ограничение на поиск — "музыкальная группа". Значит, большинство пользователей поисковика, задавшие запрос ногу свело, имеют в виду именно музыкальную группу и будут довольны, если поисковая машина по запросу ногу свело выведет их прямиком на сайт группы "Ногу свело", на ее последний диск или еще на что-то, связанное с этой музыкальной группой. Заметим, что пользователь, как правило, держит это условие релевантности в уме, не сообщая его поисковику ! А тот редкий несчастный пользователь, у которого в самом деле свело ногу и который хочет узнать в Интернете, что делать в таком случае, скорее всего, вообще не получит никакой информации на первых страницах выдачи. Выдача будет забита ссылками на разные аспекты деятельности группы "Ногу свело", и ему придется как-то дополнительно уточнять свой "медицинский" запрос. Условие релевантности в уме пользователя прямо зависит от его намерений, от цели запроса, от того, что вообще хочет сделать пользователь с найденными по запросу сайтами.

    Автор: admin
В отношении поисковых машин очень часто можно слышать качественные оценки. "Я пользуюсь Яндексом, потому что он лучше ищет!", "Гугл круче всех" — довольно распространенные высказывания. Что такое качество поисковика? Обычно синонимом качества поиска считается его релевантность.

    Автор: admin
Более точно этот вопрос можно сформулировать так: как быстро новые страницы появляются в индексе поисковика и как часто поисковик их потом обновляет? Безусловно, идеальный поисковик должен иметь всякую страницу в своем индексе сразу же, как только она появилась. И существующие поисковики к этому стремятся. Однако огромный объем Интернета ставит здесь свои препятствия и ограничения.

    Автор: admin

Домены

Очень важно понимать, где находятся пределы зоны индексирования поисковика, какие сайты можно в нем найти, а какие нет, какие сайты можно добавить в поисковик, а какие нет. Хотя Яндекс и Рамблер — поисковые машины по русскоязычным сайтам, т.е. по Рунету, это не значит, что они индексируют только сайты с именами в зоне . ru. В оба поисковика можно добавить сайт с расширением . com, . info и другими, но при этом он должен быть на русском языке. До сайтов из этих и других доменных зон Яндекс и Рамблер добираются и сами, если на них ведут ссылки с сайтов, уже известных этим поисковикам.

Google, который позиционирует себя, как мировую поисковую машину, естественно, индексирует вообще любые сайты во всех доменных зонах.

Какие документы индексируют поисковики

Изначально целью поисковиков было проиндексировать веб-страницы, т.е. тексты в формате HTML, выложенные на сайт и отображаемые веб-сервером по протоколу HTTP . Позже обнаружилось, что много полезной информации выложено в Интернете в виде статей, прейскурантов, документации, руководств и т.п. в разных "офисных" форматах. Поэтому большинство поисковиков 2-3 года назад начали индексировать выложенные на сайт документы в форматах MS Word, PDF и MS Excel. Широкое распространение динамических страниц в формате Flash заставило поисковики индексировать и тексты, скрытые в этом формате файлов.

Однако не стоит рассчитывать на индексацию вашей информации в этих экзотических для Интернета форматах, поскольку нет гарантии, что поисковик заиндексирует их хорошо. Если есть возможность, всегда следует дублировать на сайте любые важные тексты в формате HTML.

Например, нужно всегда иметь прейскурант в виде обычной веб-страницы, потому что до прейскуранта в формате Excel поисковик может не добраться, а если и доберется, то индексация, поиск и показ его в результатах поиска будут обязательно хромать, поскольку поисковики не умеют разбирать структуру Excel-файлов так же хорошо, как HTML-страниц.

Заметим, что поисковики не индексируют тексты, которые выводятся на экран пользователя динамически разными программными средствами наподобие сценариев на языке JavaScript. Они так же невидимы для поисковика, как и тексты в графическом виде, о которых говорилось выше.

Глубина и объем индексации

А насколько глубоко поисковик "зарывается" в сайт, есть ли какие-то ограничения?

Теоретически таких ограничений нет, однако на практике поисковик не станет выкачивать с вашего сайта миллионы страниц (если они там есть). Ведь у поисковика в очереди на индексацию кроме вашего сайта стоят миллионы других сайтов, поэтому он старается за один раз, за один проход взять с каждого сайта некоторое разумное количество страниц. На следующем цикле индексации поисковик может взять еще какое-то количество ваших страниц и т.д. Чтобы не брать каждый раз слишком много, поисковик старается не погружаться слишком глубоко по ссылкам внутрь вашего сайта.

Это означает, что даже при большом количестве страниц сайт должен быть разумно организован, скажем, не должно быть страниц, до которых можно добраться только по цепочке из десяти ссылок. В главе б "Как сделать сайт доступным для поисковых систем" и главе 12 "Коррекция сайта с целью продвижения в поисковых системах" мы расскажем об этом подробнее.

Индексация баз данных

Очень часто сайты с большим объемом данных хранят свои страницы в какой-либо базе данных (например, MySQL или Microsoft SQL Server). Это гораздо удобнее для хранения и обновления сайта, поскольку база данных позволяет легко добавлять, модифицировать и удалять информацию.

Как поисковики обращаются с такими сайтами, могут ли они их индексировать?

Ответ тут простой: если страницы сайта выдаются из базы данных при переходе по ссылкам внутри сайта, то поисковику в принципе все равно, откуда они берутся при подобном переходе. Находится ли страница на сайте или генерируется динамически при переходе по ссылке — для индексации неважно. А вот если для получения страницы пользователь должен обязательно ввести какой-то запрос к базе данных, то поисковик таких страниц просто "не видит".

Поясним вышесказанное на примере. Допустим, у вас есть онлайновая энциклопедия по фильмам и актерам, содержащая 100 тысяч статей в алфавитном порядке. Конечно, хранить и редактировать такое количество страниц "россыпью", в виде HTML-файлов, крайне неудобно. Поэтому статьи энциклопедии будут, скорее всего, храниться в базе данных, где их достаточно просто свести в одну таблицу и хранить в нескольких файлах базы данных.

Пусть теперь вы подали свой сайт на индексацию в поисковиках. Если у вас на сайте будет полное оглавление статей энциклопедии, в виде иерархического оглавления (скажем, по буквам алфавита) или в виде простого линейного списка заголовков статей, то поисковик пройдет по этому оглавлению, как по обычным ссылкам, и проиндексирует всю вашу энциклопедию. Сделает он это, скорее всего, не сразу, а в несколько проходов (так как статей много), но в конце концов все статьи энциклопедии попадут в индекс.

Если же у автора сайта не хватило сил и времени сделать такое оглавление для доступа к отдельным статьям энциклопедии (а это большая работа — сделать 100 тысяч аккуратных ссылок в том или ином виде), то пользователь сможет найти статью только с помощью поиска в базе данных по ключевым словам, входящим в заголовок или тело статьи. Такие средства есть практически в любой базе данных, и вебмастера ими активно пользуются.

Но поисковик — не пользователь, он ведь не будет специально перебирать и подставлять все слова русского языка в окошко для поиска на вашем сайте! Он зайдет на страницу поиска, ссылок на статьи энциклопедии не обнаружит и отправится дальше индексировать Интернет по своему расписанию. Окошко поиска, так называемая форма поиска, не является ссылкой на другие страницы и интереса у поисковика не вызовет. Следовательно, в данном случае он проиндексирует только одну страницу — страницу поиска по энциклопедии, а сама энциклопедия останется для него невидимой.

Таким образом, при создании сайта нужно помнить, что поисковик индексирует на вашем сайте только то, на что есть гипертекстовая ссылка. Большие базы данных с единственным способом доступа к их содержимому в виде окна поиска — для поисковика невидимы. Таких баз в Интернете много, именно поэтому говорят о "глубинном Интернете", который невидим поисковикам и который больше видимого в десятки или даже сотни раз.


    Автор: admin
Как мы уже говорили, для индексации слов на страницах поисковику нужно знать, что именно считается словом. Что такое слово Например, слова с дефисом (красно синий, что-нибудь) — это одно слово или два? А числа — это тоже слова, или их следует выбрасывать как "мусор"? А слова на другом языке — выбрасывать или оставлять? Что делать с комбинацией букв и цифр (с названиями моделей электроники, например)? Индексируются ли адреса электронной почты, интернет-адреса или даты, и если да, то как? Все эти вопросы решаются разработчиками каждой поисковой машины по-своему. Более того, нам здесь нет смысла пытаться точно указать правила выделения слов для Яндекса или Google — они могут меняться хоть раз в месяц, с каждым вводом "в бой" очередной версии поискового механизма. Гораздо проще это проверять самостоятельно, когда требуется.

    Автор: admin
Индекс — слово, которое постоянно упоминается в связи с поисковыми машинами. Увы, большинство пользователей Интернета до сих пор довольно смутно представляют себе, что это такое. Хотя, как уже говорилось выше, ничего сложного в этом понятии нет, более того, ему много веков, и каждый из нас встречался с индексом в виде предметного указателя книги еще до своего первого выхода в Интернет.

    Автор: admin
Чтобы составить индекс, индексный робот поисковой машины должен выбрать все слова из всех выкачанных текстов и расположить их в алфавитном порядке, вместе с номерами страниц и разной служебной информацией о каждой странице. Для этого индексный робот перебирает все выкачанные страницы, нумерует их (а как же, ведь нужно как-то пометить страницы, чтобы потом находить их), удаляет из текста страниц всякий ненужный, нетекстовый "мусор" (например, разметку языка HTML ), затем извлекает из текста слова и помещает их в индекс. При этом слова снабжаются информацией о страницах, с которых они были взяты.

    Автор: admin
Поисковая машина — это программа, которая составляет и хранит предметный указатель Интернета, а также находит в нем заданные ключевые слова. Для этого программа составляет так называемый индекс. Вот из каких этапов состоит процесс составления индекса и поиска по нему.

    Автор: admin
За века, прошедшие со времени изобретения книг, человечество придумало только три основных способа поиска информации в большом количестве страниц. И каждый из нас встречался с ними еще до своего первого выхода в Интернет. В Интернете используются эти же способы для поиска нужной страницы, просто они автоматизированы и выполняются специальными программами. Это — оглавление, ссылки и предметный указатель. Оглавление Первый, самый естественный способ поиска нужной страницы — это оглавление книги. Читатель книги просматривает ее оглавление, находит нужную ему главу, видит номер нужной страницы и открывает ее, пролистав книгу до нужного номера страницы. Этому способу поиска в Интернете соответствуют каталоги. В них страницы (сайты Интернета) разложены по рубрикам, так что пользователь может, последовательно просматривая оглавление каталога, выбрать нужную рубрику, просмотреть сайты, относящиеся к ней, а затем перейти на нужный сайт или страницу. Сначала именно каталоги были основным способом упорядочения Интернета (в середине 1990-х годов), но потом постепенно уступили первенство поисковикам — и на то было много причин. О существующих каталогах мы рассказывали в главе 1 "Предложение и поиск информации в Интернете".

    Автор: admin
Поиск информации и поисковые машины О Как работает поисковая машина О Как устроен индекс поисков О Некоторые важные вопросы О Качество поисковой машины О Какая поисковая машина лучше О Выводы О Полезные ссылки Большинство пользователей только в общих чертах представляют себе, как работает поисковая машина. Поэтому в данной главе мы рассматриваем основные понятия и устройство поисковых систем (они же поисковые машины, или поисковики). Если вы хорошо зна ете, что такое индекс и поисковый запрос, можете смело пропустить эту главу. Главный элемент структуры современного Интернета — это поисковые машины, или поисковики. Разных поисковиков очень много, но среди них есть главные, наиболее известные и посещаемые. В мировом Интернете сейчас доминирует Google (произносится как гугл). В российском же, а точнее, в русскоязычном Интернете (Рунете), наиболее популярный поисковик — Яндекс. В два раза (по количеству поисковых запросов в день) от Яндекса отстает Рамблер, потом следует "русский" Google, затем, совсем далеко от лидеров, следует Апорт.

1 ... 3 4 5 6 7 8 9 10 11 12

 

 
 
Какой поисковик лучше?


   
 

 
Популярные новости