«Сигналы» в алгоритмах ранжирования Яндекса +
13.01.2009 от SonjaОб изменениях поисковых алгоритмов, о преимуществах этих изменений для пользователей Яндекс повествует на страницах блога-Поиска. В интервью на Хабре Илья Сегалович коротко описал, подвел итоги усовершенствований последних 2-х лет.
*Форматирование цитат мое*.
Теперь мы имеем дело с базой из десятков тысяч размеченных запросов, в ранжировании участвует около двух сотен сигналов, а правила 1) переформулировки, 2) расширения и 3) классификации запроса включают
тезаурус,
аббревиатуры,
транслитерацию,
перевод,
определение темы и иных аспектов запроса, и многое-многое другое.
Из того же интервью, интересное:
[...] в Яндексе есть
отдел компьютерной лингвистики,
есть группа извлечения фактов,
есть группа ранжирования, по сути «машинного обучения ранжированию» (machine-learned ranking). [...]
***
Автоматический выбор, что и когда начинать индексировать и включать в поиск — только один из таких решателей.
***
Основной поток сигнала от пользователей мы собираем уже давно: это и посещение страниц, и переформулировки запросов, и переходы с поиска, и многое другое.
Отойдя от поисковой темы отмечу, что интервью не только суммирует итоги Я.П, но и итоги поисковых и околопоисковых вех 2008, интервью очень насыщенное, как энциклопедия.
PS Как по вашему, какое может быть определение для «определения темы» (см. первую цитату) от Яндекса?
Рубрики: search-люди, Яндекс, инструментарий, исследования |

15.01.2009 в 18:22
Определение для «определения темы» - тематику наверно имеют ввиду - пишешь игры значит классифицируют как развлечения и тд. ИМХО
17.01.2009 в 03:07
Речь не об определении слова «тематика», речь об определении тематики в категориях Яндекс.Поиска, см. ответ itman.