Сейчас 126 заметки.

Поисковые системы

Материал из ЗАметки

Поисковая система глазами посетителя и владельца сайта[править]

Современная поисковая система — это сложнейший программно-аппаратный комплекс, механизмы работы которого являются коммерческой тайной компании-разработчика. С помощью специальных алгоритмов поисковые роботы собирают и индексируют информацию (заносят ее в базу данных, где она структурируется и располагается в определенном порядке). Когда пользователь вводит запрос в строку поиска, автоматически формируется обращение к базе данных. После этого система выдает в виде нумерованного списка наиболее релевантные (соответствующие запросу) документы. Сортировка документов (ранжирование) и присвоение им позиции в поисковой выдаче осуществляется на основе их значимости.


Первые поисковые системы появились в середине 90-х годов XX века и были похожи на обычный предметный указатель в книге: в базе поисковой системы хранились ключевые слова со страниц сотен сайтов, и поиск осуществлялся исключительно по ним.

Позднее был разработан полнотекстовый поиск. Каждое слово и фраза фиксировались в индексе поисковой системы для каждой страницы сайта в отдельности. Это дало возможность поиска по любьм словам и их сочетаниям.

Поисковые системы совершенствуются постоянно. Это обусловлено стремлением учесть особенности человеческого поведения, чтобы сделать выдачу для каждого посетителя уникальной. Теперь в механизмы обработки и поиска информации все чаще включаются технологии искусственного интеллекта, построенные на новейших вычислительных методах.

Рекламные возможности поисковых систем[править]

Пользователи привыкли, что поиск для них бесплатен, но в то же время современная поисковая система является одним из наиболее эффективных бизнес-инструментов как для ее владельцев, так и для рекламодателей. Сервис поиска — это коммерческое предприятие, ориентированное на прибыль. Чем больше людей пользуется поиском, тем больше рекламы можно продать, поэтому между поисковыми системами ведется конкурентная борьба — чтобы удержать пользователей, необходимо постоянно улучшать результаты поиска, строить качественную актуальную выдачу, а также предоставлять дополнительные услуги — игры, сервисы, приложения. Изучая интересы пользователей с помощью дополнительных сервисов, поисковая машина и. как следствие, рекламодатели получают весьма точный «социальный портрет» аудитории. Эти сведения позволяют заметно увеличить эффективность размещаемой рекламы за счет «подстройки» рекламного сообщения под интересы конкретного человека.


Чтобы привлекать пользователей из поисковых систем, выладельцам сайтов важно понимать механизмы работы поисковиков и основные принципы ранжирования. Для этого на свой сайт и сайты конкурентов следует смотреть с двух позиций: как хозяина бизнеса и как рядового посетителя сайта. Сейчас поисковые систем все больше стараются «видеть» сайт именно глазами рядового посетителя.

Контекстная реклама[править]

Контекстная реклама — это короткое текстовое объявление, которое размещается в выдаче поисковой системы и показывается пользователю только если он ввел в строку поиска запрос, соответствующий тематике данного объявления.

Contex.png

Схема работы контекстной рекламы проста: рекламодатель определяет набор ключевых слов, по которым требуются переходы; затем указывается адрес страницы, на которую будет осуществлен переход, текст объявления и цена, которую может позволить себе заплатить рекламодатель за каждый клик по объявлению. Когда пользователь вводит ключевое слово в поисковую систему, обычно справа выводятся объявления всех рекламодателей, купивших это слово. Очередность показа определяется ценой за клик, указанной при покупке контекстной рекламы. Соответственно, чем выше стоимость клика заявил рекламодатель относительно конкурентов, тем больше шансов получить лучшее место — используется принцип аукциона.

Преимущества контекстной рекламы:

  • четкое попадание в целевую аудиторию;
  • быстрый запуск рекламной кампании;
  • точное прогнозирование;
  • оперативная корректировка рекламной кампании;
  • прозрачность статистики.

Однако следует помнить, что контекстная реклама эффективно работает только тогда, когда за ходом кампании пристально следят, а не просто платят за размещение. Поэтому, если у вас нет возможности корректировать цены для удержания гарантированных показов или формулировать качественные, привлекающие внимание объявления, доверьтесь профессионалам. Это позволит более рационально использовать бюджет и в разы увеличить эффективность.


Ограничения:

  • для достижения значимого эффекта требуется большой рекламный бюджет;
  • конверсия посетителей в клиентов во многом зависит от качества страницы, на которую ведет объявление;
  • открытое упоминание отдельных видов товаров и услуг запрещено законом «О рекламе».

Контекстно-медийная реклама[править]

Контекстно-медийная реклама — размещение графических рекламных материалов в результатах поиска. Плата взимается за количество показов баннера.

Преимущества контекстно-медийной рекламы:

  • рекламный модуль заметен на странице, можно показать товар лицом;
  • баннер показывается только заинтересованной аудитории.

Используйте медийно-контекстный баннер, если вы хотите:

  • повысить популярность бренда;
  • вывести на рынок новый продукт;
  • добиться устойчивой ассоциации определенной тематики с вашим брендом;
  • провести короткую рекламную акцию, проинформировать аудиторию о скидках

Ограничения:

  • высокая стоимость рекламной кампании;
  • подходят не все ключевые слова (требуется квалифицированное формирование базы ключевых слов);
  • необходимость разработки баннера.

Contextmedia.png

Поисковое продвижение[править]

Поисковое продвижение — это комплекс мер, направленный на выведение сайта на первые позиции в выдаче поисковых систем по установленным ключевым словам. Это самый дешевый (хотя и самый продолжительный по времени подготовки) способ увеличения продаж за счет роста посещаемости вашего ресурса. Поисковое продвижение не обладает рекламным эффектом. Пользователь уверен, что он сам нашел и выбрал вашу компанию с помощью поисковой системы. Именно этот факт обеспечивает недостижимую для других видов рекламы конверсию (превращение посетителя в покупателя) — до 60%.

Propoisk.png

Схема работы поискового продвижения заключается в выборе ключевых слов и последующей непрерывной работе по выводу и удержанию сайта на заданных местах в выдаче.


Преимущества поискового продвижения:

  • низкая стоимость одного привлеченнного на сайт посетителя;
  • настраиваемый охват целевой аудитории вне зависимости от размера

бизнеса;

  • гибкое масштабирование рекламной кампании — при необходимости

число ключевых фраз можно сократить или увеличить;

  • экспоненциальная эффективность: продвижение одних запросов влечет

за собой рост позиций по другим, поэтому нет необходимости платить дополнительно;

  • региональный характер рекламной кампании: возможность сужать или

расширять целевую аудиторию до конкретного региона. Таким образом, поисковое продвижение может дать следующие результаты:

  • рост продаж: на сайт приходят люди, уже замотивированные в

приобретении товара или услуги, остается лишь «удержать» их;

  • повышение числа посетителей сайта: продвижение по большому числу

запросов положительно влияет на посещаемость вашего ресурса;

  • увеличение узнаваемости бренда: продвижение по профильным запросам — серьезное преимущество в конкурентной борьбе.


Ограничения:

  • проблематичность работы с сайтами, построенными на flash-технологиях;
  • результат и скорость его достижения в значительной степени зависит от

состояния сайта;

  • данный вид рекламы не позволяет получить мгновенный

эффект. На реализацию требуется 4 и более месяцев, однако видимые результаты оптимизации будут ощутимы уже в течение первого месяца работы.

Трафиковое продвижение[править]

Трафиковое продвижение увеличивает посещаемость сайта за счет продвижения по большому числу (часто — несколько тысяч) низкочастотных запросов. Помимо поисковых систем, используются внешние источники привлечения посетителей — форумы и сообщества, контекстная, баннерная и медийная реклама.

Трафиковое продвижение подходит подходит следующим компаниям:

  • крупным интернет-магазинам, которые ориентированы на продажу совершенно разных видов товаров;
  • интернет-порталам, которые зарабатывают деньги на продаже рекламы и публикации различной информации.

Ограничения:

  • невозможность работы с сайтами, построенными исключительно на flash-технологиях, т.к. в этом случае срезается большая доля поискового трафика;
  • поскольку трафиковое продвижение использует поисковое продвижение по большому количеству запросов, требуется сайт с большим количеством

страниц;

  • расходы будут высокими, однако увеличение количества посетителей быстро их окупит;
  • на разработку и реализацию стратегии требуется несколько месяцев.

Обзор современных поисковых систем[править]

Исследовательская компания comScore, по данным сентября 2011 года, выделяет следующую пятерку популярных поисковых систем мира:

«« Google, обрабатывает более 118 млрд запросов в месяц (70% всех поисковых запросов);

«« Baidu, обрабатывает 11 млрд запросов в месяц;

«« Yahoo, обрабатывает 11 млрд запросов в месяц;

«« Bing, обрабатывает 5 млрд запросов в месяц;

«« Яндекс, обрабатывает свыше 3 млрд запросов в месяц.

Российская аудитория практически полностью распределяется между двумя поисковыми системами: Яндекс и Google. По состоянию на ноябрь 2012 года у Яндекса 51.4% рынка, у Google — 34.8%.

Краткая история Яндекса[править]

Яндекс — крупнейшая российская поисковая система и интернет-портал. Яндекс имеет локализированные версии сервиса в России, Украине, Казахстане, Беларуси и Турции. Как и любая современная поисковая система, Яндекс предоставляет различные виды поисков — по новостям и записям в блогах, картинкам и видео, товарам и адресам; и, естественно, большой набор дополнительных сервисов, не связанных с поиском, — фотоальбомы, блоги, почту и др.


Официальным днем рождения поисковой системы Яндекс считается 23 сентября 1997 года. Уже тогда система учитывала морфологию русского языка, расстояние между словами и умела ранжировать документы в соответствии с их релевантностью. В 2011 году был внедрен уникальный метод машинного обучения «Матрикснет», благодаря которому стало возможным учитывать при поиске в разы больше факторов и их комбинаций. Таким образом, поиск стал еще более точным, что существенно улучшило качество ответов на отдельные классы запросов.


Среди современных и важных нововведений Яндекса эксперты отмечают:

  • разработку механизма различных подсказок, автоматического исправления ошибок, распознавание аббревиатур, обработку транслита;
  • введение геозависимости запросов, региона пользователя и принадлежности сайта к тому или иному городу;
  • использование поисковой технологии «Спектр», которая позволяет учитывать невыраженные потребности пользователей, если они не были явно сформулированы в запросе;
  • борьбу с переоптимизированными текстами, seo-ссылками, поведенческими накрутками, неуникальным контентом;
  • ориентацию на пользовательские интересы по коммерческим запросам — учет поведенческих факторов.


В 2001 году был запущен сервис контекстной рекламы (Яндекс.Директ), впоследствии ставший основным способом заработка компании. За счет него и других наработок в 2002 году Яндекс вышел на самоокупаемость — на праньше, чем планировалось. В мае 2011 года компания «Яндекс» провела первичное размещение акций на Нью-Йоркской бирже Nasdaq. По уровню доходов Яндекс значительно опережает все остальные российские интернет-компании.

У Яндекса есть специальные инструменты для владельцев сайтов, которые важно использовать для эффективного продвижения. Мы рассмотрим их подробно в следующих главах.


  • Яндекс.Метрика — сервис сбора статистики о посетителях вашего сайта.
  • Яндекс.Вебмастер — сервис для настройки отображения вашего сайта в результатах поиска Яндекса.

Краткая история Google[править]

Поисковая система Google является признанным мировым лидером по числу обрабатываемых запросов. Это первый в мире поисковик, который за десятилетие создал более 100 региональных версий и в некоторых странах остается единственной поисковой системой.

Google начал свою работу в 1996 году как поисковый механизм для цифровой библиотеки Стэнфорда. Название Google было придумано Ларри Пейджем и Сергеем Брином в 1997 году. Корпорация была основана в 1998 году.


В настоящий момент Google — это не только поиск, но еще и более 50 сервисов, преимущественно бесплатных. Владельцам веб-сайтов крайне важны следующие инструменты:

  • Google Analytics — сервис, собирающий информацию о посещаемости

вашего сайта;

Подробнее эти сервисы будут рассмотрены в следующих главах.

This is exactly what I was looking for. Thanks for writgni!

Как устроены поисковые системы[править]

Современные поисковые машины обрабатывают десятки тысяч обращений в секунду. Давайте рассмотрим, как устроены механизмы поиска.

Поисковые системы на физическом уровне[править]

Современная поисковая машина — это сложнейшая структура, состоящая из сотен тысяч, а в случае с Google — миллионов физических серверов. Вся информация, которая на них хранится, надежно защищена и распределена по дата-центрам по всему миру.

Serveryandex.png

Еще в 1997 году обработкой запросов для пользователей Яндекса и выдачей результатов поиска занимался всего один сервер, который был слабее любого современного домашнего компьютера. Сервер располагался в кабинете одного из основателей компании. Уже к 2000 году у Яндекса было около 50 серверов. Каждый месяц число серверов увеличивалось, что со временем привело к появлению собственного дата-центра (сейчас у Яндекса их уже четыре). Современный дата-центр — это сотни серверов, объединенных в единую сеть, которые позволяют справляться с большим объемом запросов и высокой посещаемостью сервиса. Для примера, посещаемость только поиска Яндекса за сентябрь 2012 года составила 27,6 млн человек.

You Sir/Madam are the enemy of confusion evhwereyre!

Процессы поисковых систем[править]

Каждый процесс, происходящий в поисковых системах, уникален и интересен. Зная архитектуру поисковой системы, можно понимать причины «выпадения» сайта из выдачи или повышения его позиций. Рассмотрим каждый процесс в отдельности.

Процесс индексирования[править]

Индексация — это процесс, во время которого поисковые роботы посещают сайты, собирая с их страниц разнообразную информацию и занося ее в специальные базы данных. Потом эти данные обрабатываются, и строится индекс — выжимка из документов. Именно по индексу поисковая система ищет и выдает ссылки на сайты, исходя из запросов пользователей.


Рассмотрим процесс индексирования на примере поисковой системы Яндекс.


В поисковой системе есть 2 типа роботов: быстрый (быстро-робот) и основной. Задача основного робота — индексация всего контента, а быстрого — занесение в базы данных самой свежей информации. Планировщик поискового робота составляет маршруты посещения и передает его «пауку», который ходит по выбранным страницам и выкачивает из них информацию. Если во время индексации в документах обнаруживаются новые ссылки, они добавляются в общий список.


При первом посещении «паук» проверяет состояние ресурса. Если его характеристики подходят под требования Яндекса, сайт заносится в базу. При повторном посещении «пауком» уже проиндексированной страницы происходит ее обновление.

Indexyandex.png

Документы в индекс попадают следующими способами: автоматически, когда поисковый робот сам переходит по внешним и внутренним ссылкам, либо если владелец сайта сам добавил URL через специальную форму или через установленную на сайте Яндекс.Метрику. Этот сервис передает URL страниц на индексацию Яндексу. При необходимости в интерфейсе Метрики можно отключить данную опцию.

Скорость индексации и обновления страниц[править]

В идеале, как только создана новая страница, она должна быть сразу же проиндексирована. Однако большие объемы информации затрудняют индексацию новых страниц и обновление старых. Роботы поисковых систем постоянно обновляют базу данных, но чтобы она была доступна пользователям, ее необходимо переносить на «базовый поиск». База данных переносится туда не полностью. Исключаются зеркала сайтов, страницы, содержащие поисковый спам и другие ненужные, по мнению поисковика, документы.


Однако для некоторых типов информации такая скорость обновления неприемлема. Примером может служить индексирование новостных сайтов. Размещенные новости должны быть доступны в поисковой системе практически сразу после их добавления. Для ускорения индексации часто обновляемых страниц и существует специальный «быстрый робот», который посещает новостные сайты несколько раз в день Поисковые роботы стремятся проиндексировать как можно больше информации, однако существует ряд факторов, которые накладываю ограничения на процесс индексации. Так, например, возможность попадания в индекс напрямую зависит от авторитетности ресурса, уровня вложенности страниц, наличия файла sitemap.xml, отсутствия ошибок, мешающих нормальной индексации сайта. Основными инструментами управления индексацией сайтов являются robots.txt, метатеги, теги, атрибуты noindex и nofollow.


Robots.txt — это текстовый файл, в котором можно задавать параметры индексирования как для всех поисковых роботов сразу, так и по отдельности. Тег и метатег noindex отвечают за индексацию текста или самой страницы, а nofollow — за индексацию ссылок. В одной из следующих глав мы подробно разберем настройку этих элементов сайта.


Помимо обычных текстов, размещенных на сайтах, все современные поисковые системы умеют индексировать и документы в закрытых форматах, хотя существуют некоторые ограничения на типы данных, размещенных в этих файлах. Так, в PDF индексируется только текстовое содержимое. Во flash-документе индексируется текст, который размещен только в определенных блоках

Типы роботов поисковых систем[править]

Среди всех существующих поисковых роботов выделяют 4 основных типа:

  • индексирующий робот,
  • робот по изображениям,
  • робот по зеркалам сайта;
  • робот, проверяющий работоспособность сайта или страницы.


Некоторые посторонние роботы могут маскироваться под роботов Яндекса путем указания соответствующего user-agent. Вы можете проверить подлинность робота с помощью идентификации, основанной на обратных DNS-запросах.

Индексирующий робот обнаруживает и индексирует страницы, чтобы создать базу для основного поиска.

Робот по изображениям заносит в индекс графическую информацию, которая в дальнейшем отображается в выдаче соответствующего сервиса, например, Яндекс.Картинки или Картинки Google.

Робот, определяющий зеркала, проверяет зеркала сайтов, прописанных в файле robots.txt. Если они идентичны, то в результатах выдачи поисковика будет только один сайт — главное зеркало.

Специальный робот проверяет доступность сайта, добавленного через форму «Добавить URL» в Яндекс.Вебмастер


Существуют и другие типы индексирующих роботов: индексаторы видео и пиктограмм (иконок) сайтов; робот, проверяющий работоспособность сайтов в Яндекс.Каталоге; индексатор «быстрого» контента на площадках типа Яндекс.Новостей и др. Важно понимать, что процесс индексации является длительным, за ним следует процесс обновления индексных баз, который также требует временных затрат. Поэтому результат внесенных на сайте изменений будет виден только через 1-2 недели.

Представление сайтов внутри поисковых систем[править]

Для удобства обработки данных поисковая система заносит все найденные в интернете страницы в индекс, который помогает сжать их объемы для оптимального хранения. Чтобы понимать, за счет чего возможно сокращение объема информации, необходимо знать, как документ представляется в поисковой системе. Сначала происходит очистка страницы от различных нетекстовых элементов, таких как графика, HTML-теги и т.п. В результате остается «чистый» текст для дальнейшей обработки. Далее все слова из текста располагаются в алфавитном порядке, а все элементы, которые словами не являются (пробелы, знаки препинания

и прочее), отбрасываются. При этом поисковая машина не заносит в индекс слова в той форме, в которой они приведены в тексте. С помощью алгоритма лингвистической обработки все слова приводятся к начальным грамматическим формам или основам. Это позволяет сократить место в индексе и сделать поиск более точным. Из обработанных основ составляется подобие словаря, где указывается адрес страницы и конкретное место расположения каждой основы (номер вхождения). В поисковом индексе хранятся только номера основ, а сами основы располагаются отдельно. Если на странице находится несколько вхождений одного слова, то в индексе указывается номер этой страницы и все вхождения этого слова на ней. Получается что-то вроде обратной копии всех страниц интернета. Такой индекс поисковой машины называется инвертированным, или инверсным. Поисковые машины сохраняют и прямой индекс, который представляет собой сжатую текстовую копию всех страниц интернета. Это значительно экономит время, например, при показе цитат. Сохраненная копия сайта — это страница, сохраненная в прямом индексе поисковой системы.

Процесс поиска связанной информации[править]

Чтобы понять, что именно ищет пользователь, поисковая система проводит тщательный лингвистический анализ запроса. Сначала определяется язык, на котором был сформулирован запрос. Например, в Яндексе индикатором языка является алфавит, используемый в запросе, а также характерные особенности сочетания букв, присущие различным языковым группам.

Далее проводится работа по трактовке морфологии. Поисковая система различает не только слова из запроса во всех их морфологических формах, но и синонимы, однако при ранжировании предпочтение отдается точному вхождению.

Также поисковым системам приходится разграничивать омонимы (слова с одинаковым написанием, но разным значением). Например, одно и то жеслово может быть истолковано и как глагол, и как существительное.

Info.png

Определиться с наиболее вероятным списком форм помогает статистика совместной встречаемости слов и грамматических признаков. Для сбора статистики Яндекс использует национальный корпус русского языка и свои собственные корпусы, в которых собрано огромнейшее количество текстов. Следует отметить, что все действия по лингвистическому анализу запроса поисковая система успевает осуществить за доли секунды!

В результате лингвистической обработки тот запрос, который вводит пользователь, и тот, который обрабатывается поисковой системой, сильно отличаются друг от друга.

Язык, на котором сформулированы запросы к поисковым машинам, называется информационно-поисковым языком, или языком поисковых запросов.

Информационно-поисковый язык состоит из логических операторов, морфологии языка, регистра слов, префиксов обязательности, возможности учета расстояния между словами и расширенного поиска.

Подобное представление запроса помогает быстрее ориентироваться в индексных базах.

Набор команд языка запросов может изменяться в зависимости от особенностей конкретной поисковой машины. Но есть определенные правила, которые используют все. Рассмотрим наиболее распространенные из них:



1. Команды логического объединения и исключения. Символы «+» и «-» в запросе позволяют добавлять или исключать какие-либо слова из текста. Слово, помеченное «+», будет обязательно присутствовать в документах, которые найдет поисковая система по запросу. Слово, помеченное «-», будет отсутствовать в выдаче.

Команды «+» и «-» должны быть написаны слитно со словом, к которому они относятся. В противном случае поисковая машина начнет рассматривать их как элементы запроса, а не как команды.

2. «Логическое И» (обозначается как амперсанд (&)). Позволяет перечислить слова, которые обязательно должны встречаться в пределах одного предложения в искомом документе.

3. «Логическое ИЛИ » (обозначается символом «|»). Дает возможность осуществлять поиск по документам, в тексте которых присутствует только одно из перечисленных слов.

Если правило необходимо распространить не только на одно предложение, но и на весь документ, используется удвоение команды. Чтобы применить несколько команд в одном запросе, следует использовать символы открывающей и закрывающей скобки. Допускается комбинирование логических операторов и без использования скобок. Также поисковые системы могут производить поиск по точному вхождению.Для этого используются кавычки.

Как правило, поисковые системы учитывают все словоформы исходного запроса согласно правилам русского языка. Поэтому в выдаче можно увидеть документы, в которых встречаются не только точные вхождения запроса, но и различные его формы. Для того чтобы осуществить поиск по точной словоформе, в Яндексе перед запросом необходимо поставить восклицательный знак. Если запрос состоит из 2 и более слов, можно использовать уже знакомые нам кавычки или поставить «!» перед скобками, в которых заключена фраза.

Меняя местами слова в тексте запроса, можно заметить следующее: если слова располагаются в разных предложениях, в одном случае поисковая система не считает страницу со всеми словами в тексте релевантной запросу, а в другом случае считает. Расположение ключевых слов в тексте можно оценить, посмотрев сохраненную копию страницы из поисковой выдачи Яндекса. В ней подсвечиваются все учитывающиеся ключевики. Также Яндекс подсвечивает ключевые слова в сниппетах и заголовках страниц.

Поисковые системы постоянно развиваются и, конечно, не ограничиваются поиском только по словам из запроса. Чтобы учесть все возможные варианты ответа на запрос пользователя, Яндекс расширяет исходный текст, введенный в строку поиска. Он добавляет другие формулировки с тем же значением и ведет поиск уже по новому запросу.

Используя информационно-поисковый язык запросов, можно находить необходимую информацию за максимально короткое время. Знание языка запросов также дает возможность анализировать выдачу с различных сторон. Это помогает написать текст, который будет влиять на позиции и станет интересен пользователям.

Поиск релевантной информации[править]

Сегодня почти невозможно придумать запрос, по которому поисковая система сможет найти менее 10 источников. Для большинства осмысленных запросов результат поиска — сотни, тысячи, миллионы страниц. Интернет растет, а следовательно, и страниц становится все больше. Поэтому основная цель поисковой системы — показать наиболее релевантную информацию, только те страницы, которые соответствуют запросу.

Thanks for spending time on the computer (wgnriit) so others don't have to.

Как определить релевантные запросы страницы на своем сайте?[править]

Для определения на своем сайте релевантных страниц, которые видит поисковая система, можно воспользоваться расширенной версией поиска или языком запросов. В первом случае необходимо открыть страницу расширенного поиска. Для Яндекса это страница http://yandex.ru/search/advanced, а для Google — https://www.google.com/advanced_search. В соответствующие строки нужно ввести запрос и сайт, на котором требуется найти релевантные страницы. При необходимости вводятся дополнительные параметры. После нажатия кнопки «Найти» выдается список релевантных страниц на сайте. Если необходимо определить релевантные страницы для списка запросов, то можно воспользоваться различными сервисами. Например, агрегатором rookee.ru. Необходимо добавить сайт и список запросов в систему, и она сама определит релевантные страницы. Зная релевантные страницы и умея их определять, можно грамотно подбирать страницы для продвижения желаемых запросов.

Процесс ранжирования[править]

Ранжирование — процесс сортировки страниц в порядке убывания их значимости для пользователя (релевантности). Со времен основания поисковых систем алгоритмы ранжирования существенно усложнились, качество поиска выросло. Так, поисковая система Яндекс с ноября 2009 года использует метод машинного обучения «Матрикснет», запущенный в новом алгоритме под названием «Снежинск». Он позволяет строить и применять сложную формулу ранжирования, в которой используются тысячи факторов и их комбинации.

Rang.png Условно процесс ранжирования можно разделить на два этапа:

  • выбор наиболее релевантной страницы каждого сайта;
  • вычисление значения релевантности для каждой страницы.

Поскольку на одном сайте может быть несколько страниц, дающих ответ на запрос пользователя, из них выбирается одна, наиболее релевантная. Чтобы показать наибольшее количество сайтов, в поисковой выдаче для одного сайта показывается, как правило, только одна страница. В некоторых случаях могут показываться по несколько страниц с одного сайта.

Показатель релевантности определяется посредством применения сложных многоступенчатых формул, где учитываются различные факторы и их комбинации. Одним из главных факторов оценки релевантности считается степень соответствия содержимого страницы введенному запросу. В Яндексе к этому фактору практически всегда добавляется региональная принадлежность сайта.

Страницы, которые были отобраны при первой фильтрации, участвуют в дальнейшем, более строгом, отборе. Чем выше значение релевантности, тем больше факторов участвует в процессе ранжирования страницы и тем точнее она оценивается. Причем для самых релевантных страниц значение тех или иных факторов может быть различным.

При вычислении релевантности поисковыми системами используются несколько основных групп факторов:

  • Факторы страницы, или статические факторы. Связаны непосредственно с самой страницей. Например, количество ссылок на данную страницу, возраст страницы и домена, технические параметры, поведенческие показатели сайта и страницы.

Результаты поиска и их оценка[править]

Цель поисковой системы — дать ответ на вопрос пользователя. Ответ должен быть релевантным, свежим и исчерпывающим. Для пользователя страница результатов поиска по его запросу выглядит следующим образом:

Страница результата поиска[править]

Рассмотрим элементы страницы результатов поиска.

Чтобы разнообразить результаты поиска и охватить большее количество ответов на запрос пользователя, поисковые системы ищут не только в интернете, но и на своих собственных сервисах. За данный процесс отвечает колдунщик — робот, который подмешивает в выдачу самую разнообразную информацию: видеозаписи, новости, картинки, музыку и т.д.

Контекстные объявления — это оплаченные ссылки контекстной рекламы, связанные со словами запроса. Они находятся справа от основных результатов поиска и колдунщика в отдельном столбце. Также к ним относится «спецразмещение» — самая дорогая позиция в контекстной рекламе, так как оплаченные ссылки на сайты расположены выше всех в блоке с результатами поиска.

Результаты поиска по интернету — это ссылки на найденные документы с краткой информацией о них: заголовок, сниппет и дополнительные данные. В качестве заголовка в выдаче чаще всего отображается заголовок вашей страницы, указанный в теге <title>. Если заголовок слишком велик для отображения, поисковая система сокращает его, оставляя только самую важную, по мнению поисковика, часть. Также Яндекс может сформировать заголовок из информации на странице сайта, если посчитает, что он больше подходит по тематике запроса.

Сниппет — это краткое описание результата поиска, формирующееся автоматически на основании содержимого страницы. Это может быть как фрагмент текста, так и данные из мета-тега Description.

Поисковая система Яндекс постоянно совершенствует оформление результатов поиска. В связи с этим на странице выдачи стала указываться дополнительная информация по сайту: адрес организации со ссылкой на Яндекс.Карты, телефон, регион организации. Эти данные можно ввести в базу Яндекса вручную через панель веб-мастера (после прохождения процедуры регистрации и подтверждения своих прав на управление ресурсом). В качестве дополнительных данных также выступают быстрые ссылки, которые формируются алгоритмически на основе структуры сайта, и ссылки на аккаунты компании в социальных сетях, адреса которых также указываются через панель веб-мастера Яндекса. Кроме того, существует возможность сразу в выдаче указать информацию о доставке, цене на конкретную продукцию и т.д. Это можно сделать с помощью специального языка программирования для создания YML-файлов.

Умелое управление информацией о своем сайте в результатах выдачи поисковой системы позволяет значительно повысить посещаемость сайта. Удачно подобранный заголовок страницы, правильный сниппет, использование побудительных глаголов и т.п. сделают сайт заметным в выдаче. В этом случае даже на 10 месте списка вы сможете получать больше трафика, чем если бы ссылка на ваш сайт была на первом месте.

Оценка результатов поиска[править]

Поисковые системы постоянно оценивают качество результатов поиска и вносят необходимые поправки в алгоритм. Так, в Google идут активные разработки персонализированного поиска, основанного на данных о предпочтениях пользователя. Перед сменой своих алгоритмов ранжирования Яндекс и Рамблер активно используют динамическую выдачу, когда разным пользователям по одинаковым запросам показываются разные результаты поиска для оценки кликабельности элементов.

Среди основных критериев оценки выдачи выделяются:

  • скорость поиска — как быстро пользователь получает ответ на свой опрос, поскольку время ожидания значительно влияет на лояльность пользователей;
  • полнота ответа — все ли ответы представлены, поскольку часть запросов имеет более одного значения, а другие запросы направлены на получение нетекстовой информации;
  • точность ответа — полностью ли отвечают на вопрос пользователя документы, присутствующие в результатах поиска.

Для повышения оценок выдачи проводятся дополнительные исследования. Например, в Яндексе прибегают к помощи асессоров — специально обученных сотрудников, которые проверяют сайты на соответствие поисковому запросу. На основании отчетов асессоров проводится машинное обучение с цель обновления алгоритмов ранжирования. Также в своей работе Яндекс активно прибегает к помощи заинтересованных лиц. Пользователям предлагается перед выкладкой нового алгоритма ранжирования провести его тестирование на сервисе Буки.Яндекс, а затем оставить свое мнение.

Как определить характер изменения выдачи?[править]

Для оценки состояния выдачи существует несколько анализаторов. Самый распространенный из них — Правильные апдейты Яндекса. Этот сервис позволяет увидеть, когда был апдейт и что именно учитывалось при этом обновлении.

Также есть возможность самостоятельно выяснить характер изменения.

Ниже приведена схема, с помощью которой можно определить тип изменения в выдаче: апдейт, смена или доработка алгоритма, сбой.

Выкладка базы[править]

Прежде всего следует обратить внимание, был ли выложен новый индекс. Для этого необходимо посмотреть сохраненную копию страницы сайта, на которой произошли изменения. Тенденция должна прослеживаться на многих ресурсах.

Алгоритм действий следующий:

1) заменить site.ru на URL проверяемой страницы;

2) ввести данный запрос в адресную строку Яндекса;

3) нажать на ссылку «Копия».

Если измененные данные проиндексировались, то копия страницы будет совпадать с оригиналом. Также в сохраненной копии можно увидеть дату последней индексации роботом. В случае сбоя или доработки алгоритма обновлений не происходит.

Релиз[править]

Об изменениях выкладки алгоритма можно узнать в официальном блоге Яндекса. Если анонс был опубликован, то изменения в выдаче связаны со сменой алгоритма. Если же релиз был, но не выкладывалась база, вероятнее всего, ведется доработка. Если анонса не было, то изменения могут быть связаны с обычным апдейтом, подкруткой или сбоем алгоритма.

Анализ изменений[править]

Необходимо проанализировать, что произошло в выдаче. Если никаких резких изменений не наблюдается по большинству запросов, база была обновлена, а новый алгоритм не анонсировался, то это рядовой апдейт.

Качество выдачи[править]

Если есть резкие изменения, в выдаче появились подозрительные сайты и это повторяется уже не первый раз, то, скорее всего, производится доработка текущего алгоритма. Если периодичность отсутствует, но сократилось число сайтов в выдаче, вероятно, произошел системный сбой, и в ближайшее время будет возврат системы в исходное состояние — откат.

Приведенная схема определения запроса отражает совокупность опыта и знаний. Однако она не является окончательным вариантом, и каждый может совершенствовать ее, ориентируясь на свои наблюдения.


Up.png


Источник http://www.ingate.ru/