Лекция
Привет, Вы узнаете о том , что такое кворум запроса, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое кворум запроса, serp , настоятельно рекомендую прочитать все из категории Обработка естественного языка.
Кворум – некоторое минимальное количество слов запроса, которые должны присутствовать в документе для того, чтобы начинать потрошить его координаты.
Квалифицированный кворум - минимальный суммарный вес присутствующих терминов.
Страница результатов поиска (англ. Search engine results page, SERP) или поисковая выдача — веб-страница, генерируемая поисковой системой в ответ на поисковый запрос пользователя , при этом используются процессы индексации, ранжирования и квалифицированный
кворум запроса .
Кворум Можно задавать функцией, можно таблично:

Вычисление запроса:
1. Отобрать документы, которые содержат термины запроса, дающие в сумме вес больше
пороговой величины.
2. В документе отобрать среди присутствующих самые весомые термины.
3. Найти ядра кортежей.
4. Украсить менее значимыми словами.
Как известно, для попадания в выдачу по каждому запросу, документ должен набрать (пройти) определенный кворум.
Кворум — необходимая доля суммарного веса (IDF) слов из поискового запроса, которая должна присутствовать в тексте документа и/или текстах входящих на него ссылок для попадания в результаты поиска (SERP).
Как следует из определения, для попадания в результаты выдачи, документ должен содержать в себе и/или текстах входящих на него ссылок все или заданную минимальную долю веса слов из запроса. Об этом говорит сайт https://intellect.icu . Доля высчитывается как функция от длины запроса (в словах) и весов слов входящих в него по формуле представленной ниже (Рис.1), где:

Рис. 1. Формула для кворума (доли веса) из презентации одного из разработчиков Яндекса — Дениса Расковалова. Формула известна и сильно ранее, в частности встречается и в статье разработчиков 2004 года.
Численный параметр 0.01 из формулы носит название мягкости и может меняться в зависимости от настроек поисковой системы. Имеются определенные основания полагать, что значение мягкости в Яндексе может быть отлично от 0.01 и принимать значение 0.06. Для двух данных значений была вычисленная минимальная доля веса (кворум), которая должна быть найдена для документа для включения в результаты выдачи (Рис. 2).

Рис. 2. Вычисленное значение Quorum для двух значений мягкости — 0.01 (синие столбцы) и 0.06 (красные столбцы) в зависимости от длины запроса в словах. По оси Y — минимальная доля суммарного веса для прохождения кворума, по X — число слов в запросе от 1 до 10.
Как видно из гистограммы, для включения в ранжирование документа по пятисловному поисковому запросу (при коэффициенте мягкости 0.06) достаточно чтобы в нем встречалось 4 слова из запроса (при равенстве весов всех слов из запроса). Более того, правила прохождения кворума могут меняться в зависимости от запроса и числа найденных по нему документов.
Таким образом, мы приходим к первому возможному случаю, когда в тексте документа и/или текста входящих на него ссылок встречаются не все слова из запроса, а только часть, но этой части оказывается достаточно для прохождения кворума. Пример представлен ниже (Рис. 3):

Рис. 3. Демонстрация прохождения документа по кворуму в Яндексе со словом, которое заведомо отсутствует в его тексте и анкорах ссылок.
инвертированный индекс , inverted index , сжатие инвертированного файла ,
Данная статья про кворум запроса подтверждают значимость применения современных методик для изучения данных проблем. Надеюсь, что теперь ты понял что такое кворум запроса, serp и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Обработка естественного языка
Из статьи мы узнали кратко, но содержательно про кворум запроса
Комментарии