Лекция
Привет, Вы узнаете о том , что такое кворум запроса, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое кворум запроса, serp , настоятельно рекомендую прочитать все из категории Обработка естественного языка.
Кворум – некоторое минимальное количество слов запроса, которые должны присутствовать в документе для того, чтобы начинать потрошить его координаты.
Квалифицированный кворум - минимальный суммарный вес присутствующих терминов.
Страница результатов поиска (англ. Search engine results page, SERP) или поисковая выдача — веб-страница, генерируемая поисковой системой в ответ на поисковый запрос пользователя , при этом используются процессы индексации, ранжирования и квалифицированный
кворум запроса .
Кворум Можно задавать функцией, можно таблично:
Вычисление запроса:
1. Отобрать документы, которые содержат термины запроса, дающие в сумме вес больше
пороговой величины.
2. В документе отобрать среди присутствующих самые весомые термины.
3. Найти ядра кортежей.
4. Украсить менее значимыми словами.
Как известно, для попадания в выдачу по каждому запросу, документ должен набрать (пройти) определенный кворум.
Кворум — необходимая доля суммарного веса (IDF) слов из поискового запроса, которая должна присутствовать в тексте документа и/или текстах входящих на него ссылок для попадания в результаты поиска (SERP).
Как следует из определения, для попадания в результаты выдачи, документ должен содержать в себе и/или текстах входящих на него ссылок все или заданную минимальную долю веса слов из запроса. Об этом говорит сайт https://intellect.icu . Доля высчитывается как функция от длины запроса (в словах) и весов слов входящих в него по формуле представленной ниже (Рис.1), где:
Рис. 1. Формула для кворума (доли веса) из презентации одного из разработчиков Яндекса — Дениса Расковалова. Формула известна и сильно ранее, в частности встречается и в статье разработчиков 2004 года.
Численный параметр 0.01 из формулы носит название мягкости и может меняться в зависимости от настроек поисковой системы. Имеются определенные основания полагать, что значение мягкости в Яндексе может быть отлично от 0.01 и принимать значение 0.06. Для двух данных значений была вычисленная минимальная доля веса (кворум), которая должна быть найдена для документа для включения в результаты выдачи (Рис. 2).
Рис. 2. Вычисленное значение Quorum для двух значений мягкости — 0.01 (синие столбцы) и 0.06 (красные столбцы) в зависимости от длины запроса в словах. По оси Y — минимальная доля суммарного веса для прохождения кворума, по X — число слов в запросе от 1 до 10.
Как видно из гистограммы, для включения в ранжирование документа по пятисловному поисковому запросу (при коэффициенте мягкости 0.06) достаточно чтобы в нем встречалось 4 слова из запроса (при равенстве весов всех слов из запроса). Более того, правила прохождения кворума могут меняться в зависимости от запроса и числа найденных по нему документов.
Таким образом, мы приходим к первому возможному случаю, когда в тексте документа и/или текста входящих на него ссылок встречаются не все слова из запроса, а только часть, но этой части оказывается достаточно для прохождения кворума. Пример представлен ниже (Рис. 3):
Рис. 3. Демонстрация прохождения документа по кворуму в Яндексе со словом, которое заведомо отсутствует в его тексте и анкорах ссылок.
инвертированный индекс , inverted index , сжатие инвертированного файла ,
Данная статья про кворум запроса подтверждают значимость применения современных методик для изучения данных проблем. Надеюсь, что теперь ты понял что такое кворум запроса, serp и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Обработка естественного языка
Из статьи мы узнали кратко, но содержательно про кворум запроса
Комментарии
Оставить комментарий
Обработка естественного языка
Термины: Обработка естественного языка