Сейчас 127 заметки.

Редактирование: Поисковые системы

Материал из ЗАметки

Внимание! Вы не авторизовались на сайте. Ваш IP-адрес будет публично видимым, если вы будете вносить любые правки. Если вы войдёте или создадите учётную запись, правки вместо этого будут связаны с вашим именем пользователя, а также у вас появятся другие преимущества.

Правка может быть отменена. Пожалуйста, просмотрите сравнение версий, чтобы убедиться, что это именно те изменения, которые вас интересуют, и нажмите «Записать страницу», чтобы ваша отмена правки была сохранена.

Текущая версия Ваш текст
Строка 20: Строка 20:
 
==== Контекстная реклама ====
 
==== Контекстная реклама ====
  
Контекстная реклама — это короткое текстовое объявление, которое размещается в выдаче поисковой системы и показывается пользователю только если он ввел в строку поиска запрос, соответствующий тематике данного объявления.
+
Контекстная реклама — это короткое текстовое объявление, которое размещается в выдаче поисковой сист емы и показывается пользователю только если он ввел в строку поиска запрос, соответствующий тематике данного объявления.
  
 
[[Файл:Contex.png]]
 
[[Файл:Contex.png]]
Строка 39: Строка 39:
  
 
''Ограничения'':
 
''Ограничения'':
* для достижения значимого эффекта требуется большой рекламный бюджет;
+
* для достижения значимого эффекта требуется большой рекламный
* конверсия посетителей в клиентов во многом зависит от качества страницы, на которую ведет объявление;
+
бюджет,
* открытое упоминание отдельных видов товаров и услуг запрещено законом «О рекламе».
+
* конверсия посетителей в клиентов во многом зависит от качества
 +
страницы, на которую ведет объявление;
 +
* открытое упоминание отдельных видов товаров и услуг запрещено
 +
законом «О рекламе».
  
 
==== Контекстно-медийная реклама ====
 
==== Контекстно-медийная реклама ====
Строка 162: Строка 165:
 
В 2001 году был запущен сервис контекстной рекламы (Яндекс.Директ), впоследствии ставший основным способом заработка компании. За счет него
 
В 2001 году был запущен сервис контекстной рекламы (Яндекс.Директ), впоследствии ставший основным способом заработка компании. За счет него
 
и других наработок в 2002 году Яндекс вышел на самоокупаемость — на праньше, чем планировалось. В мае 2011 года компания «Яндекс»
 
и других наработок в 2002 году Яндекс вышел на самоокупаемость — на праньше, чем планировалось. В мае 2011 года компания «Яндекс»
провела первичное размещение акций на Нью-Йоркской бирже Nasdaq. По уровню [[Прибыль Яндекса|доходов Яндекс]] значительно опережает все остальные российские
+
провела первичное размещение акций на Нью-Йоркской бирже Nasdaq. По уровню доходов Яндекс значительно опережает все остальные российские
 
интернет-компании.
 
интернет-компании.
  
Строка 188: Строка 191:
 
Подробнее эти сервисы будут рассмотрены в следующих главах.
 
Подробнее эти сервисы будут рассмотрены в следующих главах.
  
This is exactly what I was looking for. Thanks for writgni!
+
==== Другие поисковые системы ====
 +
 
 +
''В числе поисковых систем для русскоязычной аудитории следует отметить:''
 +
 
 +
* '''Mail.ru''', использующую для поиска свои технологии в сочетании с технологиями Google;
 +
 
 +
* '''Rambler.ru''', который с июня 2011 года начал использовать механизмы поиска Яндекса и присоединился к его рекламной сети;
 +
 
 +
* '''Nigma.ru''', которая является поисковой системой с различными полезными наработками — табличным поиском, решением математических
 +
и химических задач, поиском музыкальных произведений, поиском по торрентам Поисковые системы, которые перестали развиваться, постепенно заменяют
 +
свои поисковые технологии альтернативными. Так, [http://www.aport.ru/ Аpоrt] и [http://www.rambler.ru/ Rambler] стали
 +
использовать поисковую технологию Яндекса, [http://www.altavista.com/ AltaVista] — технологию поиска [http://ru.yahoo.com/ Yahoo], а он, в свою очередь, — технологию [http://www.bing.com/ Bing].
 +
Помимо широко распространенных поисковых систем прямого назначения, существует большое количество специализированных, которые работают с
 +
тематическими запросами. Многие из них созданы для узконаправленного поиска различной медиаинформации: фильмов, музыки, фотографий и т.п.
 +
Среди специализированных поисковых систем можно отметить недавно созданную систему [http://solomono.ru/ Solomono.ru], осуществляющую поиск по внешним ссылкам доменов. Также к специализированным относятся следующие поисковики: [http://tagoo.ru/ Tagoo.ru] — поиск исключительно бесплатной музыки, [http://www.kinopoisk.ru/ Kinopoisk.ru] — поиск
 +
информации о фильмах.
  
 
=== Как устроены поисковые системы ===
 
=== Как устроены поисковые системы ===
Строка 205: Строка 223:
 
и высокой посещаемостью сервиса. Для примера, посещаемость только поиска Яндекса за сентябрь 2012 года составила 27,6 млн человек.
 
и высокой посещаемостью сервиса. Для примера, посещаемость только поиска Яндекса за сентябрь 2012 года составила 27,6 млн человек.
  
You Sir/Madam are the enemy of confusion evhwereyre!
+
==== Поисковые системы на логическом уровне ====
 +
 
 +
Когда пользователь хочет что-то найти, он вводит запрос. Его сначала обрабатывает «балансировщик нагрузки» — специализированное устройство,
 +
которое автоматически перенаправляет запрос пользователя в наименее загруженный на данный момент кластер. Это позволяет максимально эффективно использовать имеющиеся вычислительные мощности.
 +
 
 +
Затем поисковый запрос попадает в «метапоиск». Эта система получает все необходимые данные и узнает, к какому типу данных запрос относится. На этом же этапе запрос проверяется на орфографию. Также система определяет, из какого региона поступил запрос и стоит ли по нему показывать региональные сайты.
 +
 
 +
[[Файл:5673.png]]
 +
 
 +
Далее метапоиск проверяет, не было ли похожего запроса к системе в последнее время. Это связано с тем, что некоторые запросы становятся
 +
очень популярными в определенные моменты (значимое событие, катастрофа или даже рекламная кампания нового продукта), а другие популярны постоянно (например, связанные с социальными сетями). Чтобы снизить нагрузку, поисковая система некоторое время хранит ответы на запросы
 +
пользователей в кэше и в случае повторных обращений показывает уже готовые результаты, вместо того чтобы формировать ответы заново.
 +
Если при проверке не получилось найти уже готовый ответ в кэше, поисковая система начинает формирование нового ответа и запрос пользователя
 +
передается дальше, на серверы «базового поиска». Именно в базовом поиске находится индекс поисковой системы, разбитый на отдельные части
 +
и распределенный по серверам, поскольку поиск по частям всегда быстрее. Стоит обратить внимание, что каждый сервер имеет несколько копий. Это
 +
позволяет не только защитить информацию от потери, но и распределить нагрузку.
 +
 
 +
Если информация с конкретного сервера окажется слишком востребованной и один из серверов будет перегружен, проблема решится подключением копий этого сервера.
 +
 
 +
По результатам поиска каждый сервер базового поиска возвращает метапоиску результаты, связанные с запросом пользователя. Далее к работе
 +
подключается алгоритм ранжирования «Матрикснет», который и определяет, на каком месте в поисковой выдаче будет каждая конкретная ссылка.
  
 
=== Процессы поисковых систем ===
 
=== Процессы поисковых систем ===
Строка 307: Строка 345:
 
=== Процесс поиска связанной информации ===
 
=== Процесс поиска связанной информации ===
  
Чтобы понять, что именно ищет пользователь, поисковая система проводит тщательный лингвистический анализ запроса. Сначала определяется язык, на котором был сформулирован запрос. Например, в Яндексе индикатором языка является алфавит, используемый в запросе, а также характерные особенности сочетания букв, присущие различным языковым группам.
+
Чтобы понять, что именно ищет пользователь, поисковая система проводит
 
+
тщательный лингвистический анализ запроса. Сначала определяется язык, на
Далее проводится работа по трактовке морфологии. Поисковая система различает не только слова из запроса во всех их морфологических формах, но и синонимы, однако при ранжировании предпочтение отдается точному вхождению.
+
котором был сформулирован запрос. Например, в Яндексе индикатором языка
 +
является алфавит, используемый в запросе, а также характерные особенности
 +
сочетания букв, присущие различным языковым группам.
  
Также поисковым системам приходится разграничивать омонимы (слова с одинаковым написанием, но разным значением). Например, одно и то жеслово может быть истолковано и как глагол, и как существительное.
+
Далее проводится работа по трактовке морфологии. Поисковая система
 +
различает не только слова из запроса во всех их морфологических формах,
 +
но и синонимы, однако при ранжировании предпочтение отдается точному
 +
вхождению.
 +
Также поисковым системам приходится разграничивать омонимы (слова с
 +
одинаковым написанием, но разным значением). Например, одно и то же
 +
слово может быть истолковано и как глагол, и как существительное.
  
[[Файл:Info.png]]
+
Определиться с наиболее вероятным списком форм помогает статистика
 
+
совместной встречаемости слов и грамматических признаков. Для сбора
Определиться с наиболее вероятным списком форм помогает статистика совместной встречаемости слов и грамматических признаков. Для сбора
+
статистики Яндекс использует национальный корпус русского языка и свои
статистики Яндекс использует национальный корпус русского языка и свои собственные корпусы, в которых собрано огромнейшее количество текстов.
+
собственные корпусы, в которых собрано огромнейшее количество текстов.
Следует отметить, что все действия по лингвистическому анализу запроса поисковая система успевает осуществить за доли секунды!
+
Следует отметить, что все действия по лингвистическому анализу запроса
 
+
поисковая система успевает осуществить за доли секунды!
В результате лингвистической обработки тот запрос, который вводит пользователь, и тот, который обрабатывается поисковой системой, сильно
+
В результате лингвистической обработки тот запрос, который вводит
 +
пользователь, и тот, который обрабатывается поисковой системой, сильно
 
отличаются друг от друга.
 
отличаются друг от друга.
 +
Язык, на котором сформулированы запросы к поисковым машинам,
 +
называется информационно-поисковым языком, или языком поисковых
 +
запросов.
 +
Информационно-поисковый язык состоит из логических операторов,
 +
морфологии языка, регистра слов, префиксов обязательности,
 +
возможности учета расстояния между словами и расширенного поиска.
 +
Подобное представление запроса помогает быстрее ориентироваться в
 +
индексных базах.
  
Язык, на котором сформулированы запросы к поисковым машинам, называется информационно-поисковым языком, или языком поисковых запросов.
+
Набор команд языка запросов может изменяться в зависимости от
 +
особенностей конкретной поисковой машины. Но есть определенные правила,
 +
которые используют все. Рассмотрим наиболее распространенные из них:
  
Информационно-поисковый язык состоит из логических операторов, морфологии языка, регистра слов, префиксов обязательности, возможности учета расстояния между словами и расширенного поиска.
 
  
Подобное представление запроса помогает быстрее ориентироваться в индексных базах.
 
  
Набор команд языка запросов может изменяться в зависимости от особенностей конкретной поисковой машины. Но есть определенные правила, которые используют все. Рассмотрим наиболее распространенные из них:
 
  
 
+
1. Команды логического объединения и исключения.
 
+
Символы «+» и «-» в запросе позволяют добавлять или исключать какие-либо
 
+
слова из текста. Слово, помеченное «+», будет обязательно присутствовать
1. '''Команды логического объединения и исключения'''.
+
в документах, которые найдет поисковая система по запросу. Слово,
Символы «+» и «-» в запросе позволяют добавлять или исключать какие-либо слова из текста. Слово, помеченное «+», будет обязательно присутствовать в документах, которые найдет поисковая система по запросу. Слово, помеченное «-», будет отсутствовать в выдаче.
+
помеченное «-», будет отсутствовать в выдаче.
 
+
Команды «+» и «-» должны быть написаны слитно со словом, к которому они
Команды «+» и «-» должны быть написаны слитно со словом, к которому они относятся. В противном случае поисковая машина начнет рассматривать их
+
относятся. В противном случае поисковая машина начнет рассматривать их
 
как элементы запроса, а не как команды.
 
как элементы запроса, а не как команды.
 +
2. «Логическое И» (обозначается как амперсанд (&)).
 +
Позволяет перечислить слова, которые обязательно должны встречаться
 +
в пределах одного предложения в искомом документе.
 +
3. «Логическое ИЛИ » (обозначается символом «|»).
 +
Дает возможность осуществлять поиск по документам, в тексте которых
 +
присутствует только одно из перечисленных слов.
  
2. '''«Логическое И» (обозначается как амперсанд (&))'''.
+
Если правило необходимо распространить не только на одно предложение,
Позволяет перечислить слова, которые обязательно должны встречаться в пределах одного предложения в искомом документе.
+
но и на весь документ, используется удвоение команды. Чтобы применить
 
+
несколько команд в одном запросе, следует использовать символы
3. «'''Логическое ИЛИ » (обозначается символом «|»)'''.
+
открывающей и закрывающей скобки. Допускается комбинирование
Дает возможность осуществлять поиск по документам, в тексте которых присутствует только одно из перечисленных слов.
+
логических операторов и без использования скобок.
 
+
Также поисковые системы могут производить поиск по точному вхождению.
Если правило необходимо распространить не только на одно предложение, но и на весь документ, используется удвоение команды. Чтобы применить
+
Для этого используются кавычки.
несколько команд в одном запросе, следует использовать символы открывающей и закрывающей скобки. Допускается комбинирование логических операторов и без использования скобок. Также поисковые системы могут производить поиск по точному вхождению.Для этого используются кавычки.
+
Как правило, поисковые системы учитывают все словоформы исходного
 
+
запроса согласно правилам русского языка. Поэтому в выдаче можно
Как правило, поисковые системы учитывают все словоформы исходного запроса согласно правилам русского языка. Поэтому в выдаче можно увидеть документы, в которых встречаются не только точные вхождения запроса, но и различные его формы. Для того чтобы осуществить поиск по точной словоформе, в Яндексе перед запросом необходимо поставить восклицательный знак. Если запрос состоит из 2 и более слов, можно использовать уже знакомые нам кавычки или поставить «!» перед скобками, в которых заключена фраза.
+
увидеть документы, в которых встречаются не только точные вхождения
 
+
запроса, но и различные его формы. Для того чтобы осуществить поиск
''Меняя местами слова в тексте запроса, можно заметить следующее:'' если слова располагаются в разных предложениях, в одном случае поисковая система не считает страницу со всеми словами в тексте релевантной запросу, а в другом случае считает. Расположение ключевых слов в тексте можно оценить, посмотрев сохраненную копию страницы из поисковой выдачи Яндекса. В ней подсвечиваются все учитывающиеся ключевики. Также Яндекс подсвечивает ключевые слова в сниппетах и заголовках страниц.
+
по точной словоформе, в Яндексе перед запросом необходимо поставить
 
+
восклицательный знак. Если запрос состоит из 2 и более слов, можно
Поисковые системы постоянно развиваются и, конечно, не ограничиваются поиском только по словам из запроса. Чтобы учесть все возможные варианты ответа на запрос пользователя, Яндекс расширяет исходный текст, введенный в строку поиска. Он добавляет другие формулировки с тем же значением и ведет поиск уже по новому запросу.
+
использовать уже знакомые нам кавычки или поставить «!» перед скобками,
 +
в которых заключена фраза.
 +
Меняя местами слова в тексте запроса, можно заметить следующее: если
 +
слова располагаются в разных предложениях, в одном случае поисковая
 +
система не считает страницу со всеми словами в тексте релевантной запросу,
 +
а в другом случае считает. Расположение ключевых слов в тексте можно
 +
оценить, посмотрев сохраненную копию страницы из поисковой выдачи
 +
Яндекса. В ней подсвечиваются все учитывающиеся ключевики. Также Яндекс
 +
подсвечивает ключевые слова в сниппетах и заголовках страниц.
  
Используя информационно-поисковый язык запросов, можно находить необходимую информацию за максимально короткое время. Знание языка запросов также дает возможность анализировать выдачу с различных сторон.
+
Поисковые системы постоянно развиваются и, конечно, не ограничиваются
Это помогает написать текст, который будет влиять на позиции и станет интересен пользователям.
+
поиском только по словам из запроса. Чтобы учесть все возможные варианты
 +
ответа на запрос пользователя, Яндекс расширяет исходный текст, введенный
 +
в строку поиска. Он добавляет другие формулировки с тем же значением
 +
и ведет поиск уже по новому запросу.
 +
Используя информационно-поисковый язык запросов, можно находить
 +
необходимую информацию за максимально короткое время. Знание языка
 +
запросов также дает возможность анализировать выдачу с различных сторон.
 +
Это помогает написать текст, который будет влиять на позиции и станет
 +
интересен пользователям.
  
 
=== Поиск релевантной информации ===
 
=== Поиск релевантной информации ===
  
Сегодня почти невозможно придумать запрос, по которому поисковая система сможет найти менее 10 источников. Для большинства осмысленных запросов результат поиска — сотни, тысячи, миллионы страниц. Интернет растет, а следовательно, и страниц становится все больше. Поэтому основная цель поисковой системы — показать наиболее релевантную информацию, только те страницы, которые соответствуют запросу.
+
Сегодня почти невозможно придумать запрос, по которому поисковая система
 +
сможет найти менее 10 источников. Для большинства осмысленных запросов
 +
результат поиска — сотни, тысячи, миллионы страниц. Интернет растет,
 +
а следовательно, и страниц становится все больше. Поэтому основная цель
 +
поисковой системы — показать наиболее релевантную информацию, только
 +
те страницы, которые соответствуют запросу.
  
Thanks for spending time on the computer (wgnriit) so others don't have to.
 
  
==== Как определить релевантные запросы страницы на своем сайте? ====
+
==== Как определить релевантные запросу страницы на своем сайте? ====
  
Для определения на своем сайте релевантных страниц, которые видит поисковая система, можно воспользоваться расширенной версией поиска или
+
Для определения на своем сайте релевантных страниц, которые видит
 +
поисковая система, можно воспользоваться расширенной версией поиска или
 
языком запросов.
 
языком запросов.
В первом случае необходимо открыть страницу расширенного поиска. Для Яндекса это страница http://yandex.ru/search/advanced, а для Google —
+
В первом случае необходимо открыть страницу расширенного поиска. Для
https://www.google.com/advanced_search. В соответствующие строки нужно ввести запрос и сайт, на котором требуется найти релевантные страницы. При необходимости вводятся дополнительные параметры. После нажатия кнопки «Найти» выдается список релевантных страниц на сайте.
+
Яндекса это страница http://yandex.ru/search/advanced, а для Google —
Если необходимо определить релевантные страницы для списка запросов, то можно воспользоваться различными сервисами. Например, агрегатором
+
https://www.google.com/advanced_search. В соответствующие строки нужно
[http://www.rookee.ru//?utm_source=sembook1&utm_medium=sembook-site%2B&utm_campaign=search-ebook%2B rookee.ru]. Необходимо добавить сайт и список запросов в систему, и она сама определит релевантные страницы.
+
ввести запрос и сайт, на котором требуется найти релевантные страницы. При
Зная релевантные страницы и умея их определять, можно грамотно подбирать страницы для продвижения желаемых запросов.
+
необходимости вводятся дополнительные параметры. После нажатия кнопки
 +
«Найти» выдается список релевантных страниц на сайте.
 +
Если необходимо определить релевантные страницы для списка запросов,
 +
то можно воспользоваться различными сервисами. Например, агрегатором
 +
rookee.ru. Необходимо добавить сайт и список запросов в систему, и она сама
 +
определит релевантные страницы.
 +
Зная релевантные страницы и умея их определять, можно грамотно
 +
подбирать страницы для продвижения желаемых запросов.
  
 
=== Процесс ранжирования ===
 
=== Процесс ранжирования ===
  
Ранжирование — процесс сортировки страниц в порядке убывания их значимости для пользователя (релевантности). Со времен основания поисковых систем алгоритмы ранжирования существенно усложнились, качество поиска выросло.
+
Ранжирование — процесс сортировки страниц в порядке убывания их значимости
Так, поисковая система Яндекс с ноября 2009 года использует метод машинного обучения «Матрикснет», запущенный в новом алгоритме под названием «Снежинск». Он позволяет строить и применять сложную формулу ранжирования, в которой используются тысячи факторов и их комбинации.
+
для пользователя (релевантности). Со времен основания поисковых систем
 
+
алгоритмы ранжирования существенно усложнились, качество поиска выросло.
[[Файл:Rang.png]]
+
Так, поисковая система Яндекс с ноября 2009 года использует метод машинного
''
+
обучения «Матрикснет», запущенный в новом алгоритме под названием
Условно процесс ранжирования можно разделить на два этапа:''
+
«Снежинск». Он позволяет строить и применять сложную формулу ранжирования,
* выбор наиболее релевантной страницы каждого сайта;
+
в которой используются тысячи факторов и их комбинации.
* вычисление значения релевантности для каждой страницы.
 
Поскольку на одном сайте может быть несколько страниц, дающих ответ на запрос пользователя, из них выбирается одна, наиболее релевантная. Чтобы показать наибольшее количество сайтов, в поисковой выдаче для одного
 
сайта показывается, как правило, только одна страница. В некоторых случаях могут показываться по несколько страниц с одного сайта.
 
 
 
Показатель релевантности определяется посредством применения сложных многоступенчатых формул, где учитываются различные факторы и их комбинации. Одним из главных факторов оценки релевантности считается степень соответствия содержимого страницы введенному запросу.
 
В Яндексе к этому фактору практически всегда добавляется региональная принадлежность сайта.
 
 
 
Страницы, которые были отобраны при первой фильтрации, участвуют в дальнейшем, более строгом, отборе. Чем выше значение релевантности, тем
 
больше факторов участвует в процессе ранжирования страницы и тем точнее она оценивается. Причем для самых релевантных страниц значение тех или иных факторов может быть различным.
 
  
''При вычислении релевантности поисковыми системами используются несколько основных групп факторов:''
+
Условно процесс ранжирования можно разделить на два этапа:
* '''Факторы страницы, или статические факторы.''' Связаны непосредственно с самой страницей. Например, количество ссылок на данную страницу, возраст страницы и домена, технические параметры, поведенческие показатели сайта и страницы.
+
«« выбор наиболее релевантной страницы каждого сайта;
 +
«« вычисление значения релевантности для каждой страницы Поскольку на одном сайте может быть несколько страниц, дающих ответ на
 +
запрос пользователя, из них выбирается одна, наиболее релевантная. Чтобы
 +
показать наибольшее количество сайтов, в поисковой выдаче для одного
 +
сайта показывается, как правило, только одна страница. В некоторых случаях
 +
могут показываться по несколько страниц с одного сайта.
 +
Показатель релевантности определяется посредством применения сложных
 +
многоступенчатых формул, где учитываются различные факторы и их
 +
комбинации. Одним из главных факторов оценки релевантности считается
 +
степень соответствия содержимого страницы введенному запросу.
 +
В Яндексе к этому фактору практически всегда добавляется региональная
 +
принадлежность сайта.
 +
Страницы, которые были отобраны при первой фильтрации, участвуют в
 +
дальнейшем, более строгом, отборе. Чем выше значение релевантности, тем
 +
больше факторов участвует в процессе ранжирования страницы и тем точнее
 +
она оценивается. Причем для самых релевантных страниц значение тех или
 +
иных факторов может быть различным.
 +
При вычислении релевантности поисковыми системами используются
 +
несколько основных групп факторов:
 +
«« Факторы страницы, или статические факторы. Связаны
 +
непосредственно с самой страницей. Например, количество ссылок на
 +
данную страницу, возраст страницы и домена, технические параметры,
 +
поведенческие показатели сайта и страницы.
  
 
=== Результаты поиска и их оценка ===
 
=== Результаты поиска и их оценка ===
Строка 482: Строка 583:
  
 
----
 
----
Источник http://www.ingate.ru/
+
http://www.ingate.ru/

Пожалуйста, учтите, что любой ваш вклад в проект «ЗАметки» может быть отредактирован или удалён другими участниками. Если вы не хотите, чтобы кто-либо изменял ваши тексты, не помещайте их сюда.
Вы также подтверждаете, что являетесь автором вносимых дополнений, или скопировали их из источника, допускающего свободное распространение и изменение своего содержимого (см. ЗАметки:Авторские права). НЕ РАЗМЕЩАЙТЕ БЕЗ РАЗРЕШЕНИЯ ОХРАНЯЕМЫЕ АВТОРСКИМ ПРАВОМ МАТЕРИАЛЫ!