Вы находитесь здесь: Главная > Поисковые системы > В.1. Как ускорить индексацию сайтов СМИ

В.1. Как ускорить индексацию сайтов СМИ

Прежде чем рассказывать об ускорении индексации сайтов СМИ, следует разобраться, чем такие сайты отличаются от обычных сайтов: корпоративных либо рекламирующих или продающих услуги или товары.

Сайты СМИ отличает несколько характерных признаков.

• Очень большое количество страниц на сайте.

• Большое количество разнообразного текстового контента.

• Быстрое устаревание контента (время жизни сюжета).

• Быстро меняющаяся первая страница сайта, где чаще всего отображается лента новостей, актуальные темы и часто обновляемый контент.

Как ускорить индексацию такого сайта? Закрытие страниц от поисковых роботов

При публикации одной статьи на сайте СМИ обычно появляется сразу несколько страниц: основная страница статьи, версия для печати, форма «отправить другу», страница комментариев пользователей для данной статьи (изначально пустая)… Иногда при неправильно спроектированной и реализованной системе публикации контента страница с новостями появляется одновременно по нескольким адресам.

Исходя из всего вышесказанного можно сформулировать одно из правил продвижения сайтов СМИ: для ускорения индексации сайта СМИ следует закрывать от роботов поисковых систем неинформативные и служебные страницы.

Другими словами, можно и нужно направлять роботов поисковых систем на основной контент сайта с помощью сужения области индексации. При этом роботы не только будут активнее индексировать новые страницы, но и чаще переиндексировать быстро изменяющиеся страницы. Дополнительным плюсом такого подхода будет также снижение исходящего трафика и нагрузки на сервер со стороны всевозможных поисковых роботов.

Как именно пользоваться файлом robots . txt, мы рассказали в соответствующей главе. Но так ли просто на самом деле закрыть от индексации вспомогательные, неинформативные и служебные страницы?

Далеко не всегда. Приведем простой пример: пусть адрес страницы «Новости» на сайте выглядит следующим образом:

http : /’/ www . site, г u/news/12345/

где 12 34 5 — некий уникальный номер новости на сайте, а печатная версия этой же новости находится по адресу

http://www.site.ru/news/1234 5/print/

При такой схеме публикации нельзя написать однозначное правило в robots . txt, запрещающее индексацию страниц для печати, поскольку для каждой новости следовало бы писать свое правило. Можно, конечно, воспользоваться мета-тегом на странице для запрещения индексации, но тогда роботы поисковых систем, чтобы прочитать запрещающий мета-тег, все равно должны будут запросить с сервера и получить данный документ, так что это только полумера.

Было бы гораздо проще, если бы адрес страницы для печати любой статьи всегда формировался примерно так:

http : / / www .site, г u/print./ 12345/

Тогда все страницы для печати на сайте легко было быть закрыть для индексации всего одним правилом в файле robots . txt.

Можно даже не упоминать о том, что адреса страниц новостей должны иметь статический адрес, это требование скорее обязательное, чем желательное.

Комментарии закрыты.

кран мостовой ручной