Сейчас 127 заметки.
Редактирование: Поисковые системы
Материал из ЗАметки
Внимание! Вы не авторизовались на сайте. Ваш IP-адрес будет публично видимым, если вы будете вносить любые правки. Если вы войдёте или создадите учётную запись, правки вместо этого будут связаны с вашим именем пользователя, а также у вас появятся другие преимущества.
Правка может быть отменена. Пожалуйста, просмотрите сравнение версий, чтобы убедиться, что это именно те изменения, которые вас интересуют, и нажмите «Записать страницу», чтобы ваша отмена правки была сохранена.
Текущая версия | Ваш текст | ||
Строка 20: | Строка 20: | ||
==== Контекстная реклама ==== | ==== Контекстная реклама ==== | ||
− | Контекстная реклама — это короткое текстовое объявление, которое размещается в выдаче поисковой | + | Контекстная реклама — это короткое текстовое объявление, которое размещается в выдаче поисковой сист емы и показывается пользователю только если он ввел в строку поиска запрос, соответствующий тематике данного объявления. |
[[Файл:Contex.png]] | [[Файл:Contex.png]] | ||
Строка 39: | Строка 39: | ||
''Ограничения'': | ''Ограничения'': | ||
− | * для достижения значимого эффекта требуется большой рекламный бюджет | + | * для достижения значимого эффекта требуется большой рекламный |
− | * конверсия посетителей в клиентов во многом зависит от качества страницы, на которую ведет объявление; | + | бюджет, |
− | * открытое упоминание отдельных видов товаров и услуг запрещено законом «О рекламе». | + | * конверсия посетителей в клиентов во многом зависит от качества |
+ | страницы, на которую ведет объявление; | ||
+ | * открытое упоминание отдельных видов товаров и услуг запрещено | ||
+ | законом «О рекламе». | ||
==== Контекстно-медийная реклама ==== | ==== Контекстно-медийная реклама ==== | ||
Строка 162: | Строка 165: | ||
В 2001 году был запущен сервис контекстной рекламы (Яндекс.Директ), впоследствии ставший основным способом заработка компании. За счет него | В 2001 году был запущен сервис контекстной рекламы (Яндекс.Директ), впоследствии ставший основным способом заработка компании. За счет него | ||
и других наработок в 2002 году Яндекс вышел на самоокупаемость — на праньше, чем планировалось. В мае 2011 года компания «Яндекс» | и других наработок в 2002 году Яндекс вышел на самоокупаемость — на праньше, чем планировалось. В мае 2011 года компания «Яндекс» | ||
− | провела первичное размещение акций на Нью-Йоркской бирже Nasdaq. По уровню | + | провела первичное размещение акций на Нью-Йоркской бирже Nasdaq. По уровню доходов Яндекс значительно опережает все остальные российские |
интернет-компании. | интернет-компании. | ||
Строка 188: | Строка 191: | ||
Подробнее эти сервисы будут рассмотрены в следующих главах. | Подробнее эти сервисы будут рассмотрены в следующих главах. | ||
− | + | ==== Другие поисковые системы ==== | |
+ | |||
+ | ''В числе поисковых систем для русскоязычной аудитории следует отметить:'' | ||
+ | |||
+ | * '''Mail.ru''', использующую для поиска свои технологии в сочетании с технологиями Google; | ||
+ | |||
+ | * '''Rambler.ru''', который с июня 2011 года начал использовать механизмы поиска Яндекса и присоединился к его рекламной сети; | ||
+ | |||
+ | * '''Nigma.ru''', которая является поисковой системой с различными полезными наработками — табличным поиском, решением математических | ||
+ | и химических задач, поиском музыкальных произведений, поиском по торрентам Поисковые системы, которые перестали развиваться, постепенно заменяют | ||
+ | свои поисковые технологии альтернативными. Так, [http://www.aport.ru/ Аpоrt] и [http://www.rambler.ru/ Rambler] стали | ||
+ | использовать поисковую технологию Яндекса, [http://www.altavista.com/ AltaVista] — технологию поиска [http://ru.yahoo.com/ Yahoo], а он, в свою очередь, — технологию [http://www.bing.com/ Bing]. | ||
+ | Помимо широко распространенных поисковых систем прямого назначения, существует большое количество специализированных, которые работают с | ||
+ | тематическими запросами. Многие из них созданы для узконаправленного поиска различной медиаинформации: фильмов, музыки, фотографий и т.п. | ||
+ | Среди специализированных поисковых систем можно отметить недавно созданную систему [http://solomono.ru/ Solomono.ru], осуществляющую поиск по внешним ссылкам доменов. Также к специализированным относятся следующие поисковики: [http://tagoo.ru/ Tagoo.ru] — поиск исключительно бесплатной музыки, [http://www.kinopoisk.ru/ Kinopoisk.ru] — поиск | ||
+ | информации о фильмах. | ||
=== Как устроены поисковые системы === | === Как устроены поисковые системы === | ||
Строка 205: | Строка 223: | ||
и высокой посещаемостью сервиса. Для примера, посещаемость только поиска Яндекса за сентябрь 2012 года составила 27,6 млн человек. | и высокой посещаемостью сервиса. Для примера, посещаемость только поиска Яндекса за сентябрь 2012 года составила 27,6 млн человек. | ||
− | + | ==== Поисковые системы на логическом уровне ==== | |
+ | |||
+ | Когда пользователь хочет что-то найти, он вводит запрос. Его сначала обрабатывает «балансировщик нагрузки» — специализированное устройство, | ||
+ | которое автоматически перенаправляет запрос пользователя в наименее загруженный на данный момент кластер. Это позволяет максимально эффективно использовать имеющиеся вычислительные мощности. | ||
+ | |||
+ | Затем поисковый запрос попадает в «метапоиск». Эта система получает все необходимые данные и узнает, к какому типу данных запрос относится. На этом же этапе запрос проверяется на орфографию. Также система определяет, из какого региона поступил запрос и стоит ли по нему показывать региональные сайты. | ||
+ | |||
+ | [[Файл:5673.png]] | ||
+ | |||
+ | Далее метапоиск проверяет, не было ли похожего запроса к системе в последнее время. Это связано с тем, что некоторые запросы становятся | ||
+ | очень популярными в определенные моменты (значимое событие, катастрофа или даже рекламная кампания нового продукта), а другие популярны постоянно (например, связанные с социальными сетями). Чтобы снизить нагрузку, поисковая система некоторое время хранит ответы на запросы | ||
+ | пользователей в кэше и в случае повторных обращений показывает уже готовые результаты, вместо того чтобы формировать ответы заново. | ||
+ | Если при проверке не получилось найти уже готовый ответ в кэше, поисковая система начинает формирование нового ответа и запрос пользователя | ||
+ | передается дальше, на серверы «базового поиска». Именно в базовом поиске находится индекс поисковой системы, разбитый на отдельные части | ||
+ | и распределенный по серверам, поскольку поиск по частям всегда быстрее. Стоит обратить внимание, что каждый сервер имеет несколько копий. Это | ||
+ | позволяет не только защитить информацию от потери, но и распределить нагрузку. | ||
+ | |||
+ | Если информация с конкретного сервера окажется слишком востребованной и один из серверов будет перегружен, проблема решится подключением копий этого сервера. | ||
+ | |||
+ | По результатам поиска каждый сервер базового поиска возвращает метапоиску результаты, связанные с запросом пользователя. Далее к работе | ||
+ | подключается алгоритм ранжирования «Матрикснет», который и определяет, на каком месте в поисковой выдаче будет каждая конкретная ссылка. | ||
=== Процессы поисковых систем === | === Процессы поисковых систем === | ||
Строка 307: | Строка 345: | ||
=== Процесс поиска связанной информации === | === Процесс поиска связанной информации === | ||
− | Чтобы понять, что именно ищет пользователь, поисковая система проводит тщательный лингвистический анализ запроса. Сначала определяется язык, на котором был сформулирован запрос. Например, в Яндексе индикатором языка является алфавит, используемый в запросе, а также характерные особенности сочетания букв, присущие различным языковым группам | + | Чтобы понять, что именно ищет пользователь, поисковая система проводит |
− | + | тщательный лингвистический анализ запроса. Сначала определяется язык, на | |
− | + | котором был сформулирован запрос. Например, в Яндексе индикатором языка | |
+ | является алфавит, используемый в запросе, а также характерные особенности | ||
+ | сочетания букв, присущие различным языковым группам. | ||
− | Также поисковым системам приходится разграничивать омонимы (слова с одинаковым написанием, но разным значением). Например, одно и то | + | Далее проводится работа по трактовке морфологии. Поисковая система |
+ | различает не только слова из запроса во всех их морфологических формах, | ||
+ | но и синонимы, однако при ранжировании предпочтение отдается точному | ||
+ | вхождению. | ||
+ | Также поисковым системам приходится разграничивать омонимы (слова с | ||
+ | одинаковым написанием, но разным значением). Например, одно и то же | ||
+ | слово может быть истолковано и как глагол, и как существительное. | ||
− | + | Определиться с наиболее вероятным списком форм помогает статистика | |
− | + | совместной встречаемости слов и грамматических признаков. Для сбора | |
− | Определиться с наиболее вероятным списком форм помогает статистика совместной встречаемости слов и грамматических признаков. Для сбора | + | статистики Яндекс использует национальный корпус русского языка и свои |
− | статистики Яндекс использует национальный корпус русского языка и свои собственные корпусы, в которых собрано огромнейшее количество текстов. | + | собственные корпусы, в которых собрано огромнейшее количество текстов. |
− | Следует отметить, что все действия по лингвистическому анализу запроса поисковая система успевает осуществить за доли секунды! | + | Следует отметить, что все действия по лингвистическому анализу запроса |
− | + | поисковая система успевает осуществить за доли секунды! | |
− | В результате лингвистической обработки тот запрос, который вводит пользователь, и тот, который обрабатывается поисковой системой, сильно | + | В результате лингвистической обработки тот запрос, который вводит |
+ | пользователь, и тот, который обрабатывается поисковой системой, сильно | ||
отличаются друг от друга. | отличаются друг от друга. | ||
+ | Язык, на котором сформулированы запросы к поисковым машинам, | ||
+ | называется информационно-поисковым языком, или языком поисковых | ||
+ | запросов. | ||
+ | Информационно-поисковый язык состоит из логических операторов, | ||
+ | морфологии языка, регистра слов, префиксов обязательности, | ||
+ | возможности учета расстояния между словами и расширенного поиска. | ||
+ | Подобное представление запроса помогает быстрее ориентироваться в | ||
+ | индексных базах. | ||
− | + | Набор команд языка запросов может изменяться в зависимости от | |
+ | особенностей конкретной поисковой машины. Но есть определенные правила, | ||
+ | которые используют все. Рассмотрим наиболее распространенные из них: | ||
− | |||
− | |||
− | |||
− | + | 1. Команды логического объединения и исключения. | |
− | + | Символы «+» и «-» в запросе позволяют добавлять или исключать какие-либо | |
− | + | слова из текста. Слово, помеченное «+», будет обязательно присутствовать | |
− | 1. | + | в документах, которые найдет поисковая система по запросу. Слово, |
− | Символы «+» и «-» в запросе позволяют добавлять или исключать какие-либо слова из текста. Слово, помеченное «+», будет обязательно присутствовать в документах, которые найдет поисковая система по запросу. Слово, помеченное «-», будет отсутствовать в выдаче. | + | помеченное «-», будет отсутствовать в выдаче. |
− | + | Команды «+» и «-» должны быть написаны слитно со словом, к которому они | |
− | Команды «+» и «-» должны быть написаны слитно со словом, к которому они относятся. В противном случае поисковая машина начнет рассматривать их | + | относятся. В противном случае поисковая машина начнет рассматривать их |
как элементы запроса, а не как команды. | как элементы запроса, а не как команды. | ||
+ | 2. «Логическое И» (обозначается как амперсанд (&)). | ||
+ | Позволяет перечислить слова, которые обязательно должны встречаться | ||
+ | в пределах одного предложения в искомом документе. | ||
+ | 3. «Логическое ИЛИ » (обозначается символом «|»). | ||
+ | Дает возможность осуществлять поиск по документам, в тексте которых | ||
+ | присутствует только одно из перечисленных слов. | ||
− | + | Если правило необходимо распространить не только на одно предложение, | |
− | + | но и на весь документ, используется удвоение команды. Чтобы применить | |
− | + | несколько команд в одном запросе, следует использовать символы | |
− | + | открывающей и закрывающей скобки. Допускается комбинирование | |
− | + | логических операторов и без использования скобок. | |
− | + | Также поисковые системы могут производить поиск по точному вхождению. | |
− | Если правило необходимо распространить не только на одно предложение, но и на весь документ, используется удвоение команды. Чтобы применить | + | Для этого используются кавычки. |
− | несколько команд в одном запросе, следует использовать символы открывающей и закрывающей скобки. Допускается комбинирование логических операторов и без использования скобок. Также поисковые системы могут производить поиск по точному вхождению.Для этого используются кавычки. | + | Как правило, поисковые системы учитывают все словоформы исходного |
− | + | запроса согласно правилам русского языка. Поэтому в выдаче можно | |
− | Как правило, поисковые системы учитывают все словоформы исходного запроса согласно правилам русского языка. Поэтому в выдаче можно увидеть документы, в которых встречаются не только точные вхождения запроса, но и различные его формы. Для того чтобы осуществить поиск по точной словоформе, в Яндексе перед запросом необходимо поставить восклицательный знак. Если запрос состоит из 2 и более слов, можно использовать уже знакомые нам кавычки или поставить «!» перед скобками, в которых заключена фраза. | + | увидеть документы, в которых встречаются не только точные вхождения |
− | + | запроса, но и различные его формы. Для того чтобы осуществить поиск | |
− | + | по точной словоформе, в Яндексе перед запросом необходимо поставить | |
− | + | восклицательный знак. Если запрос состоит из 2 и более слов, можно | |
− | + | использовать уже знакомые нам кавычки или поставить «!» перед скобками, | |
+ | в которых заключена фраза. | ||
+ | Меняя местами слова в тексте запроса, можно заметить следующее: если | ||
+ | слова располагаются в разных предложениях, в одном случае поисковая | ||
+ | система не считает страницу со всеми словами в тексте релевантной запросу, | ||
+ | а в другом случае считает. Расположение ключевых слов в тексте можно | ||
+ | оценить, посмотрев сохраненную копию страницы из поисковой выдачи | ||
+ | Яндекса. В ней подсвечиваются все учитывающиеся ключевики. Также Яндекс | ||
+ | подсвечивает ключевые слова в сниппетах и заголовках страниц. | ||
− | Используя информационно-поисковый язык запросов, можно находить необходимую информацию за максимально короткое время. Знание языка запросов также дает возможность анализировать выдачу с различных сторон. | + | Поисковые системы постоянно развиваются и, конечно, не ограничиваются |
− | Это помогает написать текст, который будет влиять на позиции и станет интересен пользователям. | + | поиском только по словам из запроса. Чтобы учесть все возможные варианты |
+ | ответа на запрос пользователя, Яндекс расширяет исходный текст, введенный | ||
+ | в строку поиска. Он добавляет другие формулировки с тем же значением | ||
+ | и ведет поиск уже по новому запросу. | ||
+ | Используя информационно-поисковый язык запросов, можно находить | ||
+ | необходимую информацию за максимально короткое время. Знание языка | ||
+ | запросов также дает возможность анализировать выдачу с различных сторон. | ||
+ | Это помогает написать текст, который будет влиять на позиции и станет | ||
+ | интересен пользователям. | ||
=== Поиск релевантной информации === | === Поиск релевантной информации === | ||
− | Сегодня почти невозможно придумать запрос, по которому поисковая система сможет найти менее 10 источников. Для большинства осмысленных запросов результат поиска — сотни, тысячи, миллионы страниц. Интернет растет, а следовательно, и страниц становится все больше. Поэтому основная цель поисковой системы — показать наиболее релевантную информацию, только те страницы, которые соответствуют запросу. | + | Сегодня почти невозможно придумать запрос, по которому поисковая система |
+ | сможет найти менее 10 источников. Для большинства осмысленных запросов | ||
+ | результат поиска — сотни, тысячи, миллионы страниц. Интернет растет, | ||
+ | а следовательно, и страниц становится все больше. Поэтому основная цель | ||
+ | поисковой системы — показать наиболее релевантную информацию, только | ||
+ | те страницы, которые соответствуют запросу. | ||
− | |||
− | ==== Как определить релевантные | + | ==== Как определить релевантные запросу страницы на своем сайте? ==== |
− | Для определения на своем сайте релевантных страниц, которые видит поисковая система, можно воспользоваться расширенной версией поиска или | + | Для определения на своем сайте релевантных страниц, которые видит |
+ | поисковая система, можно воспользоваться расширенной версией поиска или | ||
языком запросов. | языком запросов. | ||
− | В первом случае необходимо открыть страницу расширенного поиска. Для Яндекса это страница http://yandex.ru/search/advanced, а для Google — | + | В первом случае необходимо открыть страницу расширенного поиска. Для |
− | https://www.google.com/advanced_search. В соответствующие строки нужно ввести запрос и сайт, на котором требуется найти релевантные страницы. При необходимости вводятся дополнительные параметры. После нажатия кнопки «Найти» выдается список релевантных страниц на сайте. | + | Яндекса это страница http://yandex.ru/search/advanced, а для Google — |
− | Если необходимо определить релевантные страницы для списка запросов, то можно воспользоваться различными сервисами. Например, агрегатором | + | https://www.google.com/advanced_search. В соответствующие строки нужно |
− | + | ввести запрос и сайт, на котором требуется найти релевантные страницы. При | |
− | Зная релевантные страницы и умея их определять, можно грамотно подбирать страницы для продвижения желаемых запросов. | + | необходимости вводятся дополнительные параметры. После нажатия кнопки |
+ | «Найти» выдается список релевантных страниц на сайте. | ||
+ | Если необходимо определить релевантные страницы для списка запросов, | ||
+ | то можно воспользоваться различными сервисами. Например, агрегатором | ||
+ | rookee.ru. Необходимо добавить сайт и список запросов в систему, и она сама | ||
+ | определит релевантные страницы. | ||
+ | Зная релевантные страницы и умея их определять, можно грамотно | ||
+ | подбирать страницы для продвижения желаемых запросов. | ||
=== Процесс ранжирования === | === Процесс ранжирования === | ||
− | Ранжирование — процесс сортировки страниц в порядке убывания их значимости для пользователя (релевантности). Со времен основания поисковых систем алгоритмы ранжирования существенно усложнились, качество поиска выросло. | + | Ранжирование — процесс сортировки страниц в порядке убывания их значимости |
− | Так, поисковая система Яндекс с ноября 2009 года использует метод машинного обучения «Матрикснет», запущенный в новом алгоритме под названием «Снежинск». Он позволяет строить и применять сложную формулу ранжирования, в которой используются тысячи факторов и их комбинации | + | для пользователя (релевантности). Со времен основания поисковых систем |
− | + | алгоритмы ранжирования существенно усложнились, качество поиска выросло. | |
− | + | Так, поисковая система Яндекс с ноября 2009 года использует метод машинного | |
− | + | обучения «Матрикснет», запущенный в новом алгоритме под названием | |
− | + | «Снежинск». Он позволяет строить и применять сложную формулу ранжирования, | |
− | + | в которой используются тысячи факторов и их комбинации. | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | + | Условно процесс ранжирования можно разделить на два этапа: | |
− | + | «« выбор наиболее релевантной страницы каждого сайта; | |
+ | «« вычисление значения релевантности для каждой страницы Поскольку на одном сайте может быть несколько страниц, дающих ответ на | ||
+ | запрос пользователя, из них выбирается одна, наиболее релевантная. Чтобы | ||
+ | показать наибольшее количество сайтов, в поисковой выдаче для одного | ||
+ | сайта показывается, как правило, только одна страница. В некоторых случаях | ||
+ | могут показываться по несколько страниц с одного сайта. | ||
+ | Показатель релевантности определяется посредством применения сложных | ||
+ | многоступенчатых формул, где учитываются различные факторы и их | ||
+ | комбинации. Одним из главных факторов оценки релевантности считается | ||
+ | степень соответствия содержимого страницы введенному запросу. | ||
+ | В Яндексе к этому фактору практически всегда добавляется региональная | ||
+ | принадлежность сайта. | ||
+ | Страницы, которые были отобраны при первой фильтрации, участвуют в | ||
+ | дальнейшем, более строгом, отборе. Чем выше значение релевантности, тем | ||
+ | больше факторов участвует в процессе ранжирования страницы и тем точнее | ||
+ | она оценивается. Причем для самых релевантных страниц значение тех или | ||
+ | иных факторов может быть различным. | ||
+ | При вычислении релевантности поисковыми системами используются | ||
+ | несколько основных групп факторов: | ||
+ | «« Факторы страницы, или статические факторы. Связаны | ||
+ | непосредственно с самой страницей. Например, количество ссылок на | ||
+ | данную страницу, возраст страницы и домена, технические параметры, | ||
+ | поведенческие показатели сайта и страницы. | ||
=== Результаты поиска и их оценка === | === Результаты поиска и их оценка === | ||
Строка 482: | Строка 583: | ||
---- | ---- | ||
− | + | http://www.ingate.ru/ |