Векторная модель (англ. vector space model) — в информационном поиске кратко

Лекция

Привет, Вы узнаете о том , что такое векторная модель, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое векторная модель , настоятельно рекомендую прочитать все из категории Модели нейросетей и методы исследований систем искусственного интеллекта.

Модель векторного пространства (VSM) или модель векторного представления терминов — это алгебраическая модель для представления текстовых документов (или, в более общем смысле, элементов) в виде векторов , где расстояние между векторами представляет собой релевантность между документами. Она используется в фильтрации информации , поиске информации , индексировании и ранжировании релевантности. Ее первое применение было в системе поиска информации SMART .

Определения

В этом разделе мы рассматриваем конкретную модель векторного пространства, основанную на представлении «мешка слов» . Документы и запросы представлены в виде векторов.

d_{j}=(w_{1,j},w_{2,j},\dotsc ,w_{n,j})

Векторная модель (англ. vector space model) — в информационном поиске

q=(w_{1,q},w_{2,q},\dotsc ,w_{n,q})

Каждое измерение соответствует отдельному термину. Если термин встречается в документе, его значение в векторе не равно нулю. Было разработано несколько различных способов вычисления этих значений, также известных как (термовые) веса. Одна из наиболее известных схем — это взвешивание tf-idf (см. пример ниже).

Определение термина зависит от области применения. Обычно терминами являются отдельные слова, ключевые слова или более длинные фразы. Если в качестве терминов выбраны слова, то размерность вектора равна количеству слов в словаре (количеству различных слов, встречающихся в корпусе ) .

Векторные операции можно использовать для сравнения документов с запросами.

Применение

Поиск и ранжирование документов-кандидатов из корпуса может осуществляться различными методами. Ранжирование релевантности документов в поиске по ключевым словам может быть рассчитано с использованием предположений теории сходства документов путем сравнения отклонения углов между вектором каждого документа и исходным вектором запроса, где запрос представлен в виде вектора той же размерности, что и векторы, представляющие другие документы.

На практике проще вычислить косинус угла между векторами, чем сам угол:

\cos {\theta }={\frac {\mathbf {d_{2}} \cdot \mathbf {q} }{\left\|\mathbf {d_{2}} \right\|\left\|\mathbf {q} \right\|}}

Где $\mathbf {d_{2}} \cdot \mathbf {q}$ Векторная модель (англ. vector space model) — в информационном поиске представляет собой пересечение (т.е. скалярное произведение ) векторов документа (d ₂ на рисунке справа) и запроса (q на рисунке). $\left\|\mathbf {d_{2}} \right\|$ является нормой вектора d² _, и $\left\|\mathbf {q} \right\|$ — это норма вектора q. Об этом говорит сайт https://intellect.icu . Норма вектора вычисляется следующим образом:

\left\|\mathbf {q} \right\|={\sqrt {\sum _{i=1}^{n}q_{i}^{2}}}

Используя косинус, сходство между документом dj и запросом q можно рассчитать следующим образом:

\mathrm {cos} (d_{j},q)={\frac {\mathbf {d_{j}} \cdot \mathbf {q} }{\left\|\mathbf {d_{j}} \right\|\left\|\mathbf {q} \right\|}}={\frac {\sum _{i=1}^{N}d_{i,j}q_{i}}{{\sqrt {\sum _{i=1}^{N}d_{i,j}^{2}}}{\sqrt {\sum _{i=1}^{N}q_{i}^{2}}}}}

Поскольку все рассматриваемые в этой модели векторы являются поэлементно неотрицательными, значение косинуса, равное нулю, означает, что вектор запроса и вектор документа ортогональны и не имеют совпадений (т.е. термин запроса отсутствует в рассматриваемом документе). См. раздел «Косинусное сходство» для получения дополнительной информации.

Весовые коэффициенты частоты терминов и обратной частоты документов (tf–idf)

В классической модели векторного пространства, предложенной Салтоном , Вонгом и Янгом , специфические для терминов веса в векторах документов представляют собой произведения локальных и глобальных параметров. Эта модель известна как модель частоты терминов – обратной частоты документов (tf–idf). Вектор весов для документа d равен $\mathbf {v} _{d}=[w_{1,d},w_{2,d},\ldots ,w_{N,d}]^{T}$ Векторная модель (англ. vector space model) — в информационном поиске , где

w_{t,d}=\mathrm {tf} _{t,d}\cdot \log {\frac {|D|}{|\{d'\in D\,|\,t\in d'\}|}}

$\mathrm {tf} _{t,d}$ — частота встречаемости термина t в документе d (локальный параметр).
$\log {\frac {|D|}{|\{d'\in D\,|\,t\in d'\}|}}$ является обратной частотой встречаемости документа (глобальный параметр). $|D|$ — это общее количество документов в наборе документов; $|\{d'\in D\,|\,t\in d'\}|$ — это количество документов, содержащих термин t .

Преимущества

Модель векторного пространства имеет следующие преимущества перед стандартной булевой моделью :

Позволяет ранжировать документы в соответствии с их потенциальной релевантностью.
Позволяет извлекать элементы с частичным перекрытием терминов

Большинство этих преимуществ являются следствием различия в плотности представления коллекции документов между булевым подходом и подходом, основанным на частоте терминов и обратной частоте документов. При использовании булевых весов любой документ находится в вершине n-мерного гиперкуба . Следовательно, возможные представления документов следующие: $2^{n}$ Векторная модель (англ. vector space model) — в информационном поиске а максимальное евклидово расстояние между парами равно ${\sqrt {n}}$ По мере добавления документов в коллекцию область, определяемая вершинами гиперкуба, становится более заполненной и, следовательно, более плотной. В отличие от булевых операторов, при добавлении документа с использованием весов, основанных на частоте терминов и обратной частоте документов, обратные частоты терминов в новом документе уменьшаются, в то время как частоты оставшихся терминов увеличиваются. В среднем, по мере добавления документов, область, в которой находятся документы, расширяется, регулируя плотность всего представления коллекции. Такое поведение моделирует первоначальную мотивацию Салтона и его коллег, которые считали, что коллекция документов, представленная в области низкой плотности, может давать лучшие результаты поиска.

Ограничения

Модель векторного пространства имеет следующие ограничения:

Предполагается, что поисковые запросы независимы, поэтому отдельные фразы могут быть недостаточно представлены в рейтинге.
Семантическая чувствительность; документы со схожим контекстом, но разным словарным запасом не будут связаны

Однако многие из этих трудностей можно преодолеть путем интеграции различных инструментов, включая математические методы, такие как сингулярное разложение , и лексические базы данных, такие как WordNet .

Модели, основанные на векторной пространственной модели и расширяющие ее.

К моделям, основанным на векторной пространственной модели и расширяющим ее, относятся:

Обобщенная модель векторного пространства
Латентный семантический анализ
Классификация Роккио
Случайная индексация

Программное обеспечение, реализующее модель векторного пространства.

Следующие программные пакеты могут представлять интерес для тех, кто хочет поэкспериментировать с векторными моделями и реализовать на их основе поисковые сервисы.

Бесплатное программное обеспечение с открытым исходным кодом

Apache Lucene . Apache Lucene — это высокопроизводительная, открытая, полнофункциональная библиотека для текстового поиска, написанная полностью на Java.
OpenSearch (программное обеспечение) , Elasticsearch и Solr : три наиболее известные поисковые системы, основанные на Lucene. Существуют и другие.
Gensim — это фреймворк на Python+ NumPy для моделирования векторного пространства. Он содержит инкрементальные (эффективно использующие память) алгоритмы для расчета частоты терминов и обратной частоты документов , латентного семантического индексирования , случайных проекций и латентного распределения Дирихле .
Weka . Weka — популярный пакет для анализа данных на Java, включающий модели WordVectors и Bag Of Words .
Word2vec . Word2vec использует векторные пространства для представления слов.

Обобщенная модель векторного пространства

Обобщенная модель векторного пространства является обобщением модели векторного пространства, используемой в информационном поиске . Вонг и др. представили анализ проблем, которые создает предположение о попарной ортогональности модели векторного пространства. Отсюда они расширили модель векторного пространства до обобщенной модели векторного пространства (GVSM).

Недавно Цацаронис сосредоточился на первом подходе. Они измеряют семантическую связанность ( SR ) с помощью тезауруса ( O ), подобного WordNet . Он учитывает длину пути, определяемую компактностью ( SCM ), и глубину пути, определяемую семантической детализацией пути ( SPE ).

Опираясь также на первый подход, Вайтелонис и др. вычислили семантическую взаимосвязь на основе ресурсов Linked Open Data , включая DBpedia , а также таксономию YAGO . При этом они используют таксономические связи между семантическими сущностями в документах и запросах после связывания именованных сущностей .

Вау!! 😲 Ты еще не читал? Это зря!

модель мешка слов
Алгоритмическая пристрастность
Обработка составных терминов
Концептуальное пространство
Собственные значения и собственные векторы
Инвертированный индекс
Поиск ближайшего соседа
Разреженная распределенная память
Алгоритм шинглов

Исследование, описанное в статье про векторная модель, подчеркивает ее значимость в современном мире. Надеюсь, что теперь ты понял что такое векторная модель и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Модели нейросетей и методы исследований систем искусственного интеллекта

Из статьи мы узнали кратко, но содержательно про векторная модель

Оставить комментарий

Если у вас есть какое-либо предложение, идея, благодарность или комментарий, не стесняйтесь писать. Мы очень ценим отзывы и рады услышать ваше мнение.

To reply

Comment

Для того, чтобы подтвердить, что вы не бот, ответьте:

Name

Email(not published)

Оценить