Формула ранжирования Яндекса включала(?) 163 фактора
18.09.2009 от Sonja
alsafr пишет о некоторых докладах РОМИПа, в частности о докладе Павла Карповича из Яндекса:
“Про легендарный pfound я слышал и раньше, но узнать что это такое довелось только сейчас. Если кратко, pfound представляет собой модель, оценивающую вероятность найти релевантный результат в поисковой выдаче.
Формула ранжирования Яндекса включала 163(!) фактора. Естественно, настройка параметров этого монстра выполнялась с помощью машинного обучения. Для выполнения заданий РОМИПа Яндекс подготовил 3 версии алгоритма: одна из них была обучена на собственных данных Яндекса (прогон “OLD”), другая - на таблицах релевантности семинара за прошлый год (прогон “CLEAR”), а третья представляла собой комбинацию двух предыдущих (”MIX”). По понятным причинам, OLD показал результаты хуже, чем CLEAR. Но самое интересное состоит в том, что прогон MIX оказался лучше, чем CLEAR. Это объясняется тем, что при таком большом количестве факторов, участвующих в ранжировании, для формулы CLEAR возник эффект переобучения, компенсировать который помогла модель OLD.”
Цитата вырвана из сообщения alsafr-а “Про РОМИП-2009″.
up: 163 – текстовые факторы, 87 – другие, например ссылочные.
Рубрики: Яндекс, исследования, конференция | Комментариев нет »
