Сейчас 127 заметки.

Поисковые системы

Материал из ЗАметки

Поисковая система глазами посетителя и владельца сайта

Современная поисковая система — это сложнейший программно-аппаратный комплекс, механизмы работы которого являются коммерческой тайной компании-разработчика. С помощью специальных алгоритмов поисковые роботы собирают и индексируют информацию (заносят ее в базу данных, где она структурируется и располагается в определенном порядке). Когда пользователь вводит запрос в строку поиска, автоматически формируется обращение к базе данных. После этого система выдает в виде нумерованного списка наиболее релевантные (соответствующие запросу) документы. Сортировка документов (ранжирование) и присвоение им позиции в поисковой выдаче осуществляется на основе их значимости.


Первые поисковые системы появились в середине 90-х годов XX века и были похожи на обычный предметный указатель в книге: в базе поисковой системы хранились ключевые слова со страниц сотен сайтов, и поиск осуществлялся исключительно по ним.

Позднее был разработан полнотекстовый поиск. Каждое слово и фраза фиксировались в индексе поисковой системы для каждой страницы сайта в отдельности. Это дало возможность поиска по любьм словам и их сочетаниям.

Поисковые системы совершенствуются постоянно. Это обусловлено стремлением учесть особенности человеческого поведения, чтобы сделать выдачу для каждого посетителя уникальной. Теперь в механизмы обработки и поиска информации все чаще включаются технологии искусственного интеллекта, построенные на новейших вычислительных методах.

Рекламные возможности поисковых систем

Пользователи привыкли, что поиск для них бесплатен, но в то же время современная поисковая система является одним из наиболее эффективных бизнес-инструментов как для ее владельцев, так и для рекламодателей. Сервис поиска — это коммерческое предприятие, ориентированное на прибыль. Чем больше людей пользуется поиском, тем больше рекламы можно продать, поэтому между поисковыми системами ведется конкурентная борьба — чтобы удержать пользователей, необходимо постоянно улучшать результаты поиска, строить качественную актуальную выдачу, а также предоставлять дополнительные услуги — игры, сервисы, приложения. Изучая интересы пользователей с помощью дополнительных сервисов, поисковая машина и. как следствие, рекламодатели получают весьма точный «социальный портрет» аудитории. Эти сведения позволяют заметно увеличить эффективность размещаемой рекламы за счет «подстройки» рекламного сообщения под интересы конкретного человека.


Чтобы привлекать пользователей из поисковых систем, выладельцам сайтов важно понимать механизмы работы поисковиков и основные принципы ранжирования. Для этого на свой сайт и сайты конкурентов следует смотреть с двух позиций: как хозяина бизнеса и как рядового посетителя сайта. Сейчас поисковые систем все больше стараются «видеть» сайт именно глазами рядового посетителя.

Контекстная реклама

Контекстная реклама — это короткое текстовое объявление, которое размещается в выдаче поисковой сист емы и показывается пользователю только если он ввел в строку поиска запрос, соответствующий тематике данного объявления.

Contex.png

Схема работы контекстной рекламы проста: рекламодатель определяет набор ключевых слов, по которым требуются переходы; затем указывается адрес страницы, на которую будет осуществлен переход, текст объявления и цена, которую может позволить себе заплатить рекламодатель за каждый клик по объявлению. Когда пользователь вводит ключевое слово в поисковую систему, обычно справа выводятся объявления всех рекламодателей, купивших это слово. Очередность показа определяется ценой за клик, указанной при покупке контекстной рекламы. Соответственно, чем выше стоимость клика заявил рекламодатель относительно конкурентов, тем больше шансов получить лучшее место — используется принцип аукциона.

Преимущества контекстной рекламы:

  • четкое попадание в целевую аудиторию;
  • быстрый запуск рекламной кампании;
  • точное прогнозирование;
  • оперативная корректировка рекламной кампании;
  • прозрачность статистики.

Однако следует помнить, что контекстная реклама эффективно работает только тогда, когда за ходом кампании пристально следят, а не просто платят за размещение. Поэтому, если у вас нет возможности корректировать цены для удержания гарантированных показов или формулировать качественные, привлекающие внимание объявления, доверьтесь профессионалам. Это позволит более рационально использовать бюджет и в разы увеличить эффективность.


Ограничения:

  • для достижения значимого эффекта требуется большой рекламный

бюджет,

  • конверсия посетителей в клиентов во многом зависит от качества

страницы, на которую ведет объявление;

  • открытое упоминание отдельных видов товаров и услуг запрещено

законом «О рекламе».

Контекстно-медийная реклама

Контекстно-медийная реклама — размещение графических рекламных материалов в результатах поиска. Плата взимается за количество показов баннера.

Преимущества контекстно-медийной рекламы:

  • рекламный модуль заметен на странице, можно показать товар лицом;
  • баннер показывается только заинтересованной аудитории.

Используйте медийно-контекстный баннер, если вы хотите:

  • повысить популярность бренда;
  • вывести на рынок новый продукт;
  • добиться устойчивой ассоциации определенной тематики с вашим брендом;
  • провести короткую рекламную акцию, проинформировать аудиторию о скидках

Ограничения:

  • высокая стоимость рекламной кампании;
  • подходят не все ключевые слова (требуется квалифицированное формирование базы ключевых слов);
  • необходимость разработки баннера.

Contextmedia.png

Поисковое продвижение

Поисковое продвижение — это комплекс мер, направленный на выведение сайта на первые позиции в выдаче поисковых систем по установленным ключевым словам. Это самый дешевый (хотя и самый продолжительный по времени подготовки) способ увеличения продаж за счет роста посещаемости вашего ресурса. Поисковое продвижение не обладает рекламным эффектом. Пользователь уверен, что он сам нашел и выбрал вашу компанию с помощью поисковой системы. Именно этот факт обеспечивает недостижимую для других видов рекламы конверсию (превращение посетителя в покупателя) — до 60%.

Propoisk.png

Схема работы поискового продвижения заключается в выборе ключевых слов и последующей непрерывной работе по выводу и удержанию сайта на заданных местах в выдаче.


Преимущества поискового продвижения:

  • низкая стоимость одного привлеченнного на сайт посетителя;
  • настраиваемый охват целевой аудитории вне зависимости от размера

бизнеса;

  • гибкое масштабирование рекламной кампании — при необходимости

число ключевых фраз можно сократить или увеличить;

  • экспоненциальная эффективность: продвижение одних запросов влечет

за собой рост позиций по другим, поэтому нет необходимости платить дополнительно;

  • региональный характер рекламной кампании: возможность сужать или

расширять целевую аудиторию до конкретного региона. Таким образом, поисковое продвижение может дать следующие результаты:

  • рост продаж: на сайт приходят люди, уже замотивированные в

приобретении товара или услуги, остается лишь «удержать» их;

  • повышение числа посетителей сайта: продвижение по большому числу

запросов положительно влияет на посещаемость вашего ресурса;

  • увеличение узнаваемости бренда: продвижение по профильным запросам — серьезное преимущество в конкурентной борьбе.


Ограничения:

  • проблематичность работы с сайтами, построенными на flash-технологиях;
  • результат и скорость его достижения в значительной степени зависит от

состояния сайта;

  • данный вид рекламы не позволяет получить мгновенный

эффект. На реализацию требуется 4 и более месяцев, однако видимые результаты оптимизации будут ощутимы уже в течение первого месяца работы.

Трафиковое продвижение

Трафиковое продвижение увеличивает посещаемость сайта за счет продвижения по большому числу (часто — несколько тысяч) низкочастотных запросов. Помимо поисковых систем, используются внешние источники привлечения посетителей — форумы и сообщества, контекстная, баннерная и медийная реклама.

Трафиковое продвижение подходит подходит следующим компаниям:

  • крупным интернет-магазинам, которые ориентированы на продажу совершенно разных видов товаров;
  • интернет-порталам, которые зарабатывают деньги на продаже рекламы и публикации различной информации.

Ограничения:

  • невозможность работы с сайтами, построенными исключительно на flash-технологиях, т.к. в этом случае срезается большая доля поискового трафика;
  • поскольку трафиковое продвижение использует поисковое продвижение по большому количеству запросов, требуется сайт с большим количеством

страниц;

  • расходы будут высокими, однако увеличение количества посетителей быстро их окупит;
  • на разработку и реализацию стратегии требуется несколько месяцев.

Обзор современных поисковых систем

Исследовательская компания comScore, по данным сентября 2011 года, выделяет следующую пятерку популярных поисковых систем мира:

«« Google, обрабатывает более 118 млрд запросов в месяц (70% всех поисковых запросов);

«« Baidu, обрабатывает 11 млрд запросов в месяц;

«« Yahoo, обрабатывает 11 млрд запросов в месяц;

«« Bing, обрабатывает 5 млрд запросов в месяц;

«« Яндекс, обрабатывает свыше 3 млрд запросов в месяц.

Российская аудитория практически полностью распределяется между двумя поисковыми системами: Яндекс и Google. По состоянию на ноябрь 2012 года у Яндекса 51.4% рынка, у Google — 34.8%.

Краткая история Яндекса

Яндекс — крупнейшая российская поисковая система и интернет-портал. Яндекс имеет локализированные версии сервиса в России, Украине, Казахстане, Беларуси и Турции. Как и любая современная поисковая система, Яндекс предоставляет различные виды поисков — по новостям и записям в блогах, картинкам и видео, товарам и адресам; и, естественно, большой набор дополнительных сервисов, не связанных с поиском, — фотоальбомы, блоги, почту и др.


Официальным днем рождения поисковой системы Яндекс считается 23 сентября 1997 года. Уже тогда система учитывала морфологию русского языка, расстояние между словами и умела ранжировать документы в соответствии с их релевантностью. В 2011 году был внедрен уникальный метод машинного обучения «Матрикснет», благодаря которому стало возможным учитывать при поиске в разы больше факторов и их комбинаций. Таким образом, поиск стал еще более точным, что существенно улучшило качество ответов на отдельные классы запросов.


Среди современных и важных нововведений Яндекса эксперты отмечают:

  • разработку механизма различных подсказок, автоматического исправления ошибок, распознавание аббревиатур, обработку транслита;
  • введение геозависимости запросов, региона пользователя и принадлежности сайта к тому или иному городу;
  • использование поисковой технологии «Спектр», которая позволяет учитывать невыраженные потребности пользователей, если они не были явно сформулированы в запросе;
  • борьбу с переоптимизированными текстами, seo-ссылками, поведенческими накрутками, неуникальным контентом;
  • ориентацию на пользовательские интересы по коммерческим запросам — учет поведенческих факторов.


В 2001 году был запущен сервис контекстной рекламы (Яндекс.Директ), впоследствии ставший основным способом заработка компании. За счет него и других наработок в 2002 году Яндекс вышел на самоокупаемость — на праньше, чем планировалось. В мае 2011 года компания «Яндекс» провела первичное размещение акций на Нью-Йоркской бирже Nasdaq. По уровню доходов Яндекс значительно опережает все остальные российские интернет-компании.

У Яндекса есть специальные инструменты для владельцев сайтов, которые важно использовать для эффективного продвижения. Мы рассмотрим их подробно в следующих главах.


  • Яндекс.Метрика — сервис сбора статистики о посетителях вашего сайта.
  • Яндекс.Вебмастер — сервис для настройки отображения вашего сайта в результатах поиска Яндекса.

Краткая история Google

Поисковая система Google является признанным мировым лидером по числу обрабатываемых запросов. Это первый в мире поисковик, который за десятилетие создал более 100 региональных версий и в некоторых странах остается единственной поисковой системой.

Google начал свою работу в 1996 году как поисковый механизм для цифровой библиотеки Стэнфорда. Название Google было придумано Ларри Пейджем и Сергеем Брином в 1997 году. Корпорация была основана в 1998 году.


В настоящий момент Google — это не только поиск, но еще и более 50 сервисов, преимущественно бесплатных. Владельцам веб-сайтов крайне важны следующие инструменты:

  • Google Analytics — сервис, собирающий информацию о посещаемости

вашего сайта;

Подробнее эти сервисы будут рассмотрены в следующих главах.

Другие поисковые системы

В числе поисковых систем для русскоязычной аудитории следует отметить:

  • Mail.ru, использующую для поиска свои технологии в сочетании с технологиями Google;
  • Rambler.ru, который с июня 2011 года начал использовать механизмы поиска Яндекса и присоединился к его рекламной сети;
  • Nigma.ru, которая является поисковой системой с различными полезными наработками — табличным поиском, решением математических

и химических задач, поиском музыкальных произведений, поиском по торрентам Поисковые системы, которые перестали развиваться, постепенно заменяют свои поисковые технологии альтернативными. Так, Аpоrt и Rambler стали использовать поисковую технологию Яндекса, AltaVista — технологию поиска Yahoo, а он, в свою очередь, — технологию Bing. Помимо широко распространенных поисковых систем прямого назначения, существует большое количество специализированных, которые работают с тематическими запросами. Многие из них созданы для узконаправленного поиска различной медиаинформации: фильмов, музыки, фотографий и т.п. Среди специализированных поисковых систем можно отметить недавно созданную систему Solomono.ru, осуществляющую поиск по внешним ссылкам доменов. Также к специализированным относятся следующие поисковики: Tagoo.ru — поиск исключительно бесплатной музыки, Kinopoisk.ru — поиск информации о фильмах.

Как устроены поисковые системы

Современные поисковые машины обрабатывают десятки тысяч обращений в секунду. Давайте рассмотрим, как устроены механизмы поиска.

Поисковые системы на физическом уровне

Современная поисковая машина — это сложнейшая структура, состоящая из сотен тысяч, а в случае с Google — миллионов физических серверов. Вся информация, которая на них хранится, надежно защищена и распределена по дата-центрам по всему миру.

Serveryandex.png

Еще в 1997 году обработкой запросов для пользователей Яндекса и выдачей результатов поиска занимался всего один сервер, который был слабее любого современного домашнего компьютера. Сервер располагался в кабинете одного из основателей компании. Уже к 2000 году у Яндекса было около 50 серверов. Каждый месяц число серверов увеличивалось, что со временем привело к появлению собственного дата-центра (сейчас у Яндекса их уже четыре). Современный дата-центр — это сотни серверов, объединенных в единую сеть, которые позволяют справляться с большим объемом запросов и высокой посещаемостью сервиса. Для примера, посещаемость только поиска Яндекса за сентябрь 2012 года составила 27,6 млн человек.

Поисковые системы на логическом уровне

Когда пользователь хочет что-то найти, он вводит запрос. Его сначала обрабатывает «балансировщик нагрузки» — специализированное устройство, которое автоматически перенаправляет запрос пользователя в наименее загруженный на данный момент кластер. Это позволяет максимально эффективно использовать имеющиеся вычислительные мощности.

Затем поисковый запрос попадает в «метапоиск». Эта система получает все необходимые данные и узнает, к какому типу данных запрос относится. На этом же этапе запрос проверяется на орфографию. Также система определяет, из какого региона поступил запрос и стоит ли по нему показывать региональные сайты.

5673.png

Далее метапоиск проверяет, не было ли похожего запроса к системе в последнее время. Это связано с тем, что некоторые запросы становятся очень популярными в определенные моменты (значимое событие, катастрофа или даже рекламная кампания нового продукта), а другие популярны постоянно (например, связанные с социальными сетями). Чтобы снизить нагрузку, поисковая система некоторое время хранит ответы на запросы пользователей в кэше и в случае повторных обращений показывает уже готовые результаты, вместо того чтобы формировать ответы заново. Если при проверке не получилось найти уже готовый ответ в кэше, поисковая система начинает формирование нового ответа и запрос пользователя передается дальше, на серверы «базового поиска». Именно в базовом поиске находится индекс поисковой системы, разбитый на отдельные части и распределенный по серверам, поскольку поиск по частям всегда быстрее. Стоит обратить внимание, что каждый сервер имеет несколько копий. Это позволяет не только защитить информацию от потери, но и распределить нагрузку.

Если информация с конкретного сервера окажется слишком востребованной и один из серверов будет перегружен, проблема решится подключением копий этого сервера.

По результатам поиска каждый сервер базового поиска возвращает метапоиску результаты, связанные с запросом пользователя. Далее к работе подключается алгоритм ранжирования «Матрикснет», который и определяет, на каком месте в поисковой выдаче будет каждая конкретная ссылка.

Процессы поисковых систем

Каждый процесс, происходящий в поисковых системах, уникален и интересен. Зная архитектуру поисковой системы, можно понимать причины «выпадения» сайта из выдачи или повышения его позиций. Рассмотрим каждый процесс в отдельности.

Процесс индексирования

Индексация — это процесс, во время которого поисковые роботы посещают сайты, собирая с их страниц разнообразную информацию и занося ее в специальные базы данных. Потом эти данные обрабатываются, и строится индекс — выжимка из документов. Именно по индексу поисковая система ищет и выдает ссылки на сайты, исходя из запросов пользователей.


Рассмотрим процесс индексирования на примере поисковой системы Яндекс.


В поисковой системе есть 2 типа роботов: быстрый (быстро-робот) и основной. Задача основного робота — индексация всего контента, а быстрого — занесение в базы данных самой свежей информации. Планировщик поискового робота составляет маршруты посещения и передает его «пауку», который ходит по выбранным страницам и выкачивает из них информацию. Если во время индексации в документах обнаруживаются новые ссылки, они добавляются в общий список.


При первом посещении «паук» проверяет состояние ресурса. Если его характеристики подходят под требования Яндекса, сайт заносится в базу. При повторном посещении «пауком» уже проиндексированной страницы происходит ее обновление.

Indexyandex.png

Документы в индекс попадают следующими способами: автоматически, когда поисковый робот сам переходит по внешним и внутренним ссылкам, либо если владелец сайта сам добавил URL через специальную форму или через установленную на сайте Яндекс.Метрику. Этот сервис передает URL страниц на индексацию Яндексу. При необходимости в интерфейсе Метрики можно отключить данную опцию.

Скорость индексации и обновления страниц

В идеале, как только создана новая страница, она должна быть сразу же проиндексирована. Однако большие объемы информации затрудняют индексацию новых страниц и обновление старых. Роботы поисковых систем постоянно обновляют базу данных, но чтобы она была доступна пользователям, ее необходимо переносить на «базовый поиск». База данных переносится туда не полностью. Исключаются зеркала сайтов, страницы, содержащие поисковый спам и другие ненужные, по мнению поисковика, документы.


Однако для некоторых типов информации такая скорость обновления неприемлема. Примером может служить индексирование новостных сайтов. Размещенные новости должны быть доступны в поисковой системе практически сразу после их добавления. Для ускорения индексации часто обновляемых страниц и существует специальный «быстрый робот», который посещает новостные сайты несколько раз в день Поисковые роботы стремятся проиндексировать как можно больше информации, однако существует ряд факторов, которые накладываю ограничения на процесс индексации. Так, например, возможность попадания в индекс напрямую зависит от авторитетности ресурса, уровня вложенности страниц, наличия файла sitemap.xml, отсутствия ошибок, мешающих нормальной индексации сайта. Основными инструментами управления индексацией сайтов являются robots.txt, метатеги, теги, атрибуты noindex и nofollow.


Robots.txt — это текстовый файл, в котором можно задавать параметры индексирования как для всех поисковых роботов сразу, так и по отдельности. Тег и метатег noindex отвечают за индексацию текста или самой страницы, а nofollow — за индексацию ссылок. В одной из следующих глав мы подробно разберем настройку этих элементов сайта.


Помимо обычных текстов, размещенных на сайтах, все современные поисковые системы умеют индексировать и документы в закрытых форматах, хотя существуют некоторые ограничения на типы данных, размещенных в этих файлах. Так, в PDF индексируется только текстовое содержимое. Во flash-документе индексируется текст, который размещен только в определенных блоках

Типы роботов поисковых систем

Среди всех существующих поисковых роботов выделяют 4 основных типа:

  • индексирующий робот,
  • робот по изображениям,
  • робот по зеркалам сайта;
  • робот, проверяющий работоспособность сайта или страницы.


Некоторые посторонние роботы могут маскироваться под роботов Яндекса путем указания соответствующего user-agent. Вы можете проверить подлинность робота с помощью идентификации, основанной на обратных DNS-запросах.

Индексирующий робот обнаруживает и индексирует страницы, чтобы создать базу для основного поиска.

Робот по изображениям заносит в индекс графическую информацию, которая в дальнейшем отображается в выдаче соответствующего сервиса, например, Яндекс.Картинки или Картинки Google.

Робот, определяющий зеркала, проверяет зеркала сайтов, прописанных в файле robots.txt. Если они идентичны, то в результатах выдачи поисковика будет только один сайт — главное зеркало.

Специальный робот проверяет доступность сайта, добавленного через форму «Добавить URL» в Яндекс.Вебмастер

Представление сайтов внутри поисковых систем

Процесс поиска связанной информации

Поиск релевантной информации

Процесс ранжирования

Результаты поиска и их оценка


http://www.ingate.ru/