Векторная модель ( vector space model) в поиске, Косинусное сходство - преимущество, ограничение применения кратко

Лекция

Привет, Вы узнаете о том , что такое векторная модель, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое векторная модель, vector space model, косинусное сходство , настоятельно рекомендую прочитать все из категории Обработка естественного языка.

векторная модель (англ. vector space model) — в информационном поиске представление коллекции документов векторами из одного общего для всей коллекции векторного пространства.

Векторная модель является основой для решения многих задач информационного поиска, как то: поиск документа по запросу, классификация документов, кластеризация документов.

Определение

Документ в векторной модели рассматривается как неупорядоченное множество термов. Термами в информационном поиске называют слова, из которых состоит текст, а также такие элементы текста, как, например, 2010, II-5 или Тянь-Шань.

Различными способами можно определить вес терма в документе — «важность» слова для идентификации данного текста. Например, можно просто подсчитать количество употреблений терма в документе, так называемую частоту терма, — чем чаще слово встречается в документе, тем больший у него будет вес. Если терм не встречается в документе, то его вес в этом документе равен нулю.

Все термы, которые встречаются в документах обрабатываемой коллекции, можно упорядочить. Если теперь для некоторого документа выписать по порядку веса́ всех термов, включая те, которых нет в этом документе, получится вектор, который и будет представлением данного документа в векторном пространстве. Размерность этого вектора, как и размерность пространства, равна количеству различных термов во всей коллекции, и является одинаковой для всех документов.

Более формально

d_j = (w_1j, w_2j, …, w_nj)

где d_j — векторное представление j-го документа, w_ij — вес i-го терма в j-м документе, n — общее количество различных термов во всех документах коллекции.

Располагая таким представлением для всех документов, можно, например, находить расстояние между точками пространства и тем самым решать задачу подобия документов — чем ближе расположены точки, тем больше похожи соответствующие документы. В случае поиска документа по запросу, запрос тоже представляется как вектор того же пространства — и можно вычислять соответствие документов запросу.

Методы взвешивания термов

Для полного определения векторной модели необходимо указать, каким именно образом будет отыскиваться вес терма в документе. Существует несколько стандартных способов задания функции взвешивания:

булевский вес — равен 1, если терм встречается в документе и 0 в противном случае;
tf (term frequency, частота терма) — вес определяется как функция от количества вхождений терма в документе;
tf-idf (term frequency — inverse document frequency, частота терма — обратная частота документа) — вес определяется как произведение функции от количества вхождений терма в документ и функции от величины, обратной количеству документов коллекции, в которых встречается этот терм.

косинусное сходство

Косинусное сходство — это мера сходства между двумя векторами предгильбертового пространства, которая используется для измерения косинуса угла между ними.

Если даны два вектора признаков, A и B, то косинусное сходство, cos(θ), может быть представлено используя скалярное произведение и норму:

Векторная модель ( vector space model) в поиске, Косинусное сходство - преимущество, ограничение применения

В случае информационного поиска, косинусное сходство двух документов изменяется в диапазоне от 0 до 1, поскольку частота терма (веса tf-idf) не может быть отрицательной. Угол между двумя векторами частоты терма не может быть больше, чем 90°.

Одна из причин популярности косинуснуго сходства состоит в том, что оно эффективно в качестве оценочной меры, особенно для разреженных векторов, так как необходимо учитывать только ненулевые измерения.

теории подобия документов , путем сравнения отклонения углов между каждым вектором документа и исходным вектором запроса, где запрос представлен как вектор с той же размерностью, что и векторы, которые представляют другие документы.

На практике проще вычислить косинус угла между векторами, чем сам угол:

$\ cos {\ theta} = \ frac {\ mathbf {d_2} \ cdot \ mathbf {q}} {\ left \ | \ mathbf {d_2} \ right \ | \ left \ | \ mathbf {q} \ right \ |}$

где Векторная модель ( vector space model) в поиске, Косинусное сходство - преимущество, ограничение применения является пересечением (то есть скалярным произведением ) вектора документа (d ₂ на рисунке справа) и вектора запроса (q на рисунке), Векторная модель ( vector space model) в поиске, Косинусное сходство - преимущество, ограничение применения - норма вектора d ₂ , а- норма вектора q. Об этом говорит сайт https://intellect.icu . Норма вектора вычисляется так:

$\ left \ | \ mathbf {q} \ right \ | = \ sqrt {\ sum_ {i = 1} ^ n q_i ^ 2}$

Используя косинус, сходство между документом d _j и запросом q можно рассчитать как:

Векторная модель ( vector space model) в поиске, Косинусное сходство - преимущество, ограничение применения

Поскольку все векторы, рассматриваемые в этой модели, являются неотрицательными по элементам, значение косинуса, равное нулю, означает, что вектор запроса и документа ортогональны и не имеют совпадений (т. Е. Термин запроса не существует в рассматриваемом документе). Смотрите косинусное подобие для получения дополнительной информации.

Векторная модель ( vector space model) в поиске, Косинусное сходство - преимущество, ограничение применения

«Мягкая» косинусная мера

«Мягкая» косинусная мера — это «мягкая» мера сходства между двумя векторами, то есть мера, которая учитывает сходства между парами признаков. Традиционное косинусное сходство рассматривает признаки векторной модели как независимые или полностью обособленные, тогда как «мягкая» косинусная мера учитывает сходства признаков в векторной модели. Это позволяет обобщить идею косинусной меры, а также идею сходства объектов в векторном пространстве («мягкое» сходство).

Например, в области обработки естественного языка сходство между объектами весьма интуитивно. Такие признаки как слова, N-граммы или синтаксические N-граммы могут быть довольно схожи, хотя формально они считаются различными признаками в векторной модели. Например, слова «играть» и «игра» различны и, таким образом, отображаются в различных измерениях в векторной модели, хотя, очевидно, что они связаны семантически. В случае N-грамм или синтаксических N-грамм может быть применено расстояние Левенштейна (кроме того, расстояние Левенштейна может быть также применено и к словам).

Для расчета «мягкой» косинусной меры вводится матрица s сходства между признаками. Она может рассчитываться, используя расстояние Левенштейна или другие меры сходства, например, различные меры сходства в Wordnet. Затем производится умножение с применением данной матрицы.

Если даны два N-мерных вектора a и b, то мягкая косинусная мера рассчитывается следующим образом:

Векторная модель ( vector space model) в поиске, Косинусное сходство - преимущество, ограничение применения

где s_ij = сходство(признак_i, признак_j).

При отсутствии сходства между признаками (s_ii = 1, s_ij = 0 для i ≠ j)), данное уравнение эквивалентно общепринятой формуле косинусного сходства.

Степень сложности этой меры является квадратичной, что делает ее вполне применимой к задачам реального мира. Степень сложности может быть также трансформирована в линейную.

Частота терминов обратно пропорциональна весам частотности документа

В классической модели векторного пространства, предложенной Салтоном , Вонгом и Янгом ^, веса терминов в векторах документа являются произведениями локальных и глобальных параметров. Эта модель известна как частотно-обратная частотная модель документа . Вектор веса для документа d равен Векторная модель ( vector space model) в поиске, Косинусное сходство - преимущество, ограничение применения , где

$w_ {t, d} = \ mathrm {tf} _ {t, d} \ cdot \ log {\ frac {| D |} {| \ {d '\ in D \, | \, t \ in d '\} |}}$

частота термина t в документе d (локальный параметр)
- обратная частота документа (глобальный параметр). - общее количество документов в наборе документов; - количество документов, содержащих термин t .

Преимущества

Модель векторного пространства имеет следующие преимущества перед стандартной булевой моделью :

Простая модель на основе линейной алгебры
Веса терминов не двоичные
Позволяет вычислять постоянную степень сходства между запросами и документами
Позволяет ранжировать документы по их возможной релевантности
Допускает частичное соответствие

Большинство этих преимуществ является следствием разницы в плотности представления коллекции документов между логическим подходом и подходом, обратным частотности термина. При использовании логических весов любой документ лежит в вершине n-мерного гиперкуба . Следовательно, возможные представления документов: Векторная модель ( vector space model) в поиске, Косинусное сходство - преимущество, ограничение применения а максимальное евклидово расстояние между парами равно . По мере добавления документов в коллекцию документов область, определяемая вершинами гиперкуба, становится более населенной и, следовательно, более плотной. В отличие от логического значения, когда документ добавляется с использованием весов частот, обратных к частоте, обратные частоты терминов в новом документе уменьшаются, в то время как частота остальных терминов увеличивается. В среднем по мере добавления документов область расположения документов расширяется, регулируя плотность представления всей коллекции. Такое поведение моделирует исходную мотивацию Солтона и его коллег, согласно которой коллекция документов, представленная в области с низкой плотностью, может дать лучшие результаты поиска.

Ограничения

Модель векторного пространства имеет следующие ограничения:

Длинные документы плохо представлены, потому что у них плохие значения сходства (небольшое скалярное произведение и большая размерность )
Ключевые слова для поиска должны точно соответствовать условиям документа; подстроки слов могут привести к « ложноположительному совпадению»
Семантическая чувствительность; документы с аналогичным контекстом, но с другим словарем терминов не будут связаны, что приведет к « ложноотрицательному совпадению».
Порядок, в котором термины появляются в документе, теряется в представлении векторного пространства.
Теоретически предполагает, что термины статистически независимы.
Взвешивание интуитивно понятно, но не очень формально.

Однако многие из этих трудностей можно преодолеть за счет интеграции различных инструментов, включая математические методы, такие как разложение по сингулярным числам, и лексические базы данных, такие как WordNet .

Модели, основанные на модели векторного пространства и расширяющие ее

Модели, основанные на модели векторного пространства и расширяющие ее, включают:

Обобщенная модель векторного пространства
Скрытый семантический анализ
Срок
Классификация Роккио
Случайная индексация

Программное обеспечение, реализующее модель векторного пространства

Следующие ниже программные пакеты могут быть интересны тем, кто хочет поэкспериментировать с векторными моделями и реализовать на их основе поисковые сервисы.

Бесплатное программное обеспечение с открытым исходным кодом

Apache Lucene . Apache Lucene - это высокопроизводительная полнофункциональная библиотека системы текстового поиска, полностью написанная на Java.
Elasticsearch . Еще одна высокопроизводительная полнофункциональная поисковая система с использованием Lucene.
Gensim - это среда Python + NumPy для моделирования векторного пространства. Он содержит инкрементные (эффективные с точки зрения памяти) алгоритмы для определения частоты терминов с обратной частотой документов , скрытого семантического индексирования , случайных прогнозов и скрытого распределения Дирихле .
Weka . Weka - популярный пакет интеллектуального анализа данных для Java, включая модели WordVectors и Bag Of Words .
Word2vec . Word2vec использует векторные пространства для встраивания слов.

Вау!! 😲 Ты еще не читал? Это зря!

расстояние Левенштейна
обратный индекс
инвентированнный индекс
поиск по фразе
Модель мешка слов
Обработка сложных терминов
Концептуальное пространство
Собственные значения и собственные векторы
Инвертированный индекс
Поиск ближайшего соседа
Редкая распределенная память
шинглинг
N-gram N-грамма ( биграмма )

Исследование, описанное в статье про векторная модель, подчеркивает ее значимость в современном мире. Надеюсь, что теперь ты понял что такое векторная модель, vector space model, косинусное сходство и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Обработка естественного языка

Векторная модель ( vector space model) в поиске, Косинусное сходство - преимущество, ограничение применения кратко

Определение

Методы взвешивания термов

косинусное сходство

«Мягкая» косинусная мера

Частота терминов обратно пропорциональна весам частотности документа

Преимущества

Ограничения

Модели, основанные на модели векторного пространства и расширяющие ее

Программное обеспечение, реализующее модель векторного пространства

Бесплатное программное обеспечение с открытым исходным кодом

Вау!! 😲 Ты еще не читал? Это зря!

Комментарии

Оставить комментарий

Обработка естественного языка

Термины: Обработка естественного языка