Блог Ромки

Главная > Интересное, Программирование > Как работает поиск Яндекса?

Как работает поиск Яндекса?

27 сентября 2009 Turbo Написать комментарий К комментариям

После участия в конкурсе от Яндекса (Интернет математика) мне стал понятен алгоритм работы и ответы на всякие мелкие вопросы, вроде, почему апдейты проходили раз в несколько дней. Все очень просто.

У Яндекса есть группа асессоров – так называемых оценщиков релевантности документов. Они составляют список вида: страница – запрос – релевантность. В этом списке сотни тысяч страниц. Релевантность варьируется от значений совсем не релевантно (0), до полностью релевантно (5). Одновременно с этим у Яндекса для каждой страницы в интернете есть набор параметров (ВИЦ, и.т.д) и часть параметров которые можно рассчитать в процессе запроса (количество слов в запросе, частота запрошенных слов на странице). Всего таких параметров на конкурсе было 245 штук, что, скорее всего, недалеко от реального числа используемого Яндексом. По списку асессоров и набору параметров для каждой страницы из списка строится модель по «Методу опорных векторов». Построение модели довольно трудоемкий процесс. Например, во время конкурса, модель на сложных алгоритмах у меня дома строилась порядка суток и больше.

Что дает эта модель?
По набору из 245 параметров для любой страницы в интернете она дает оценку релевантности этой страницы по данному запросу. Когда есть готовая модель, такая оценка происходит почти мгновенно. Именно на основании этой оценки ранжируется ТОП по заданному запросу.

Что такое апдейт Яндекса?
За 1-2 дня параметры списка от асессоров незначительно, но поменялись. Так же мог поменяться сам список, часть записей добавилось, часть удалилось. Вслед за этим требуется пересчитать файл модели, что бы соответствовать текущим данным.

Интересные наблюдения:
1) Если страница вашего сайта попадает в список асессоров с максимальной релевантностью, то первое место вам обеспечено независимо от расколбаса выдачи.
2) Люди в Яндексе сами не в курсе, что именно больше влияет на выдачу (контент, ссылочное).
3) Поиск Яндекса приспосабливается к любым внешним условиям за счет постоянного обновления модели.
4) Я пытался найти зависимость, монотонное изменение одного параметра НИКОГДА не приводит к монотонному изменению релевантности. Из этого следует, что нет параметра, однозначно ведущего к увеличению релевантности.

Слухи:
1) По слухам в конкурсном задании использовался список выдачи Яндекса для Украины. Список асессоров для этого региона составляет около 200 тысяч страниц.

К сожалению, параметры в задании и список запросов шли на конкурсе под номерами (индексами). Ведь если достать этот список с реальными запросами, то можно было бы экспериментировать с выдачей на дому. =)

Categories: Интересное, Программирование Tags: алгоритмы, Программирование

Комментарии (9) Уведомления (0) Написать комментарий Уведомление

Lomaks

27 сентября 2009 в 11:38 | #1

Ответить | Цитата

Много воды и математики для не ведующих, где зацепка к прямому действию? Смысл и так понятен, смотришь топ, делаешь как у них. Можно обычным языком расписать вашу идею?
человек-хэмингуэй

28 сентября 2009 в 15:53 | #2

Ответить | Цитата

То, что ты описал — это не алгоритм, а просто принцип.
Кто знает алгоритм Яндекса, тот подобен богу.
матриц

29 сентября 2009 в 23:59 | #3

Ответить | Цитата

> Если страница вашего сайта попадает в список асессоров с максимальной релевантностью, то первое место вам обеспечено независимо от расколбаса выдачи.

Подумайте, что будет, если эта страница оценена отлично, а десяток других с такими же параметрами оценены плохо? Или плохо оценена сотня других с похожими параметрами, не зависящими от запроса.
Turbo

30 сентября 2009 в 06:30 | #4

Ответить | Цитата

матриц :

Подумайте, что будет, если эта страница оценена отлично, а десяток других с такими же параметрами оценены плохо? Или плохо оценена сотня других с похожими параметрами, не зависящими от запроса.

Да, в этом случае, возможно мое утверждение не сработает. Но такая ситуация очень плоха для обучения алгоритма. Это все равно что на одну точку дать два разных занчения.
Дмитрий

11 октября 2009 в 21:12 | #5

Ответить | Цитата

Да это все расписано понятно, но как повлиять на это ?
С каждым апом все выдачи и ТИЦ становятся непонятно какими. такое впечатление что сидит даун и давит на кнопки тех сайтов , которые сделаны чисто для поисковика.
Turbo

11 октября 2009 в 21:41 | #6

Ответить | Цитата

Дмитрий :

Да это все расписано понятно, но как повлиять на это ?
С каждым апом все выдачи и ТИЦ становятся непонятно какими. такое впечатление что сидит даун и давит на кнопки тех сайтов , которые сделаны чисто для поисковика.

Ну к ТИЦ это точно не имеет никакого отношения. Как повлиять на позиции в ТОП не знаю. Подстраиваться под сочетание параметров, как у сайтов на первых местах.
матриц

2 ноября 2009 в 05:40 | #7

Ответить | Цитата

Вы повлияли на историю http://www.searchengines.ru/articles/008110.html
Turbo

2 ноября 2009 в 07:20 | #8

Ответить | Цитата

@матриц
Угу, статью видел, но не уверен что она связана с моей публикацией. =)
здесь

20 апреля 2010 в 16:16 | #9

Ответить | Цитата

Одно непонятно — кто такие асессоры, чем они занимаются более менее понял, но откуда их яндекс берет и еще важнее — стоит ли им доверять?

Пока что нет уведомлений.

Новая железнодорожная станция между Химки и Планерной Moon / Луна 2112

Последние комментарии

Turbo: @Иван Сорри пропустил коммент. Если ещё не поздно: просто начал решать задачи. Но у меня уже был очень большой...
Иван: Уважаемый Турбо, добрый день! ) Увидел Вас в списке лидеров в «Open AI Caribbean Challenge». Я сам...
Ярослав: а как такая идея, на смартфоне приложение, оно примерно знает где находится, кому-то нужно посмотреть что...
Turbo: @Sherlocked Пишите на turbo [at] soloro.ru
Sherlocked: Рыба моей мечты) Поздравляю с победой! Можно ли ваш контакт (почту или номер), есть пара вопросов…

Как работает поиск Яндекса?

Разделы

Последние записи

Последние комментарии

Авторизация