Текущая версия |
Ваш текст |
Строка 235: |
Строка 235: |
| | | |
| === Скорость индексации и обновления страниц === | | === Скорость индексации и обновления страниц === |
− |
| |
− | В идеале, как только создана новая страница, она должна быть сразу же проиндексирована. Однако большие объемы информации затрудняют индексацию новых страниц и обновление старых. Роботы поисковых систем постоянно обновляют базу данных, но чтобы она была доступна пользователям, ее необходимо переносить на «базовый поиск». База данных переносится туда не полностью. Исключаются зеркала сайтов, страницы, содержащие поисковый спам и другие ненужные, по мнению поисковика, документы.
| |
− |
| |
− |
| |
− | Однако для некоторых типов информации такая скорость обновления неприемлема. Примером может служить индексирование новостных
| |
− | сайтов. Размещенные новости должны быть доступны в поисковой системе практически сразу после их добавления. Для ускорения индексации часто обновляемых страниц и существует специальный «быстрый робот», который посещает новостные сайты несколько раз в день Поисковые роботы стремятся проиндексировать как можно больше информации, однако существует ряд факторов, которые накладываю ограничения на процесс индексации. Так, например, возможность попадания в индекс напрямую зависит от авторитетности ресурса, уровня вложенности страниц, наличия файла sitemap.xml, отсутствия ошибок, мешающих нормальной индексации сайта. Основными инструментами управления индексацией сайтов являются robots.txt, метатеги, теги, атрибуты noindex и nofollow.
| |
− |
| |
− |
| |
− | ''Robots.txt'' — это текстовый файл, в котором можно задавать параметры индексирования как для всех поисковых роботов сразу, так и по отдельности. Тег и метатег noindex отвечают за индексацию текста или самой страницы, а nofollow — за индексацию ссылок. В одной из следующих глав мы подробно разберем настройку этих элементов сайта.
| |
− |
| |
− |
| |
− | Помимо обычных текстов, размещенных на сайтах, все современные поисковые системы умеют индексировать и документы в закрытых форматах, хотя существуют некоторые ограничения на типы данных, размещенных в этих файлах. Так, в PDF индексируется только текстовое содержимое.
| |
− | Во flash-документе индексируется текст, который размещен только в определенных блоках
| |
| | | |
| === Типы роботов поисковых систем === | | === Типы роботов поисковых систем === |