В.1. Как ускорить индексацию сайтов СМИ
Прежде чем рассказывать об ускорении индексации сайтов СМИ, следует разобраться, чем такие сайты отличаются от обычных сайтов: корпоративных либо рекламирующих или продающих услуги или товары.
Сайты СМИ отличает несколько характерных признаков.
• Очень большое количество страниц на сайте.
• Большое количество разнообразного текстового контента.
• Быстрое устаревание контента (время жизни сюжета).
• Быстро меняющаяся первая страница сайта, где чаще всего отображается лента новостей, актуальные темы и часто обновляемый контент.
Как ускорить индексацию такого сайта? Закрытие страниц от поисковых роботов
При публикации одной статьи на сайте СМИ обычно появляется сразу несколько страниц: основная страница статьи, версия для печати, форма «отправить другу», страница комментариев пользователей для данной статьи (изначально пустая)… Иногда при неправильно спроектированной и реализованной системе публикации контента страница с новостями появляется одновременно по нескольким адресам.
Исходя из всего вышесказанного можно сформулировать одно из правил продвижения сайтов СМИ: для ускорения индексации сайта СМИ следует закрывать от роботов поисковых систем неинформативные и служебные страницы.
Другими словами, можно и нужно направлять роботов поисковых систем на основной контент сайта с помощью сужения области индексации. При этом роботы не только будут активнее индексировать новые страницы, но и чаще переиндексировать быстро изменяющиеся страницы. Дополнительным плюсом такого подхода будет также снижение исходящего трафика и нагрузки на сервер со стороны всевозможных поисковых роботов.
Как именно пользоваться файлом robots . txt, мы рассказали в соответствующей главе. Но так ли просто на самом деле закрыть от индексации вспомогательные, неинформативные и служебные страницы?
Далеко не всегда. Приведем простой пример: пусть адрес страницы «Новости» на сайте выглядит следующим образом:
http : /’/ www . site, г u/news/12345/
где 12 34 5 — некий уникальный номер новости на сайте, а печатная версия этой же новости находится по адресу
http://www.site.ru/news/1234 5/print/
При такой схеме публикации нельзя написать однозначное правило в robots . txt, запрещающее индексацию страниц для печати, поскольку для каждой новости следовало бы писать свое правило. Можно, конечно, воспользоваться мета-тегом на странице для запрещения индексации, но тогда роботы поисковых систем, чтобы прочитать запрещающий мета-тег, все равно должны будут запросить с сервера и получить данный документ, так что это только полумера.
Было бы гораздо проще, если бы адрес страницы для печати любой статьи всегда формировался примерно так:
http : / / www .site, г u/print./ 12345/
Тогда все страницы для печати на сайте легко было быть закрыть для индексации всего одним правилом в файле robots . txt.
Можно даже не упоминать о том, что адреса страниц новостей должны иметь статический адрес, это требование скорее обязательное, чем желательное.
