Лекция
Привет, Вы узнаете о том , что такое векторная модель, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое векторная модель , настоятельно рекомендую прочитать все из категории Модели нейросетей и методы исследований систем искусственного интеллекта.
Модель векторного пространства (VSM) или модель векторного представления терминов — это алгебраическая модель для представления текстовых документов (или, в более общем смысле, элементов) в виде векторов , где расстояние между векторами представляет собой релевантность между документами. Она используется в фильтрации информации , поиске информации , индексировании и ранжировании релевантности. Ее первое применение было в системе поиска информации SMART .
В этом разделе мы рассматриваем конкретную модель векторного пространства, основанную на представлении «мешка слов» . Документы и запросы представлены в виде векторов.
Каждое измерение соответствует отдельному термину. Если термин встречается в документе, его значение в векторе не равно нулю. Было разработано несколько различных способов вычисления этих значений, также известных как (термовые) веса. Одна из наиболее известных схем — это взвешивание tf-idf (см. пример ниже).
Определение термина зависит от области применения. Обычно терминами являются отдельные слова, ключевые слова или более длинные фразы. Если в качестве терминов выбраны слова, то размерность вектора равна количеству слов в словаре (количеству различных слов, встречающихся в корпусе ) .
Векторные операции можно использовать для сравнения документов с запросами.

Поиск и ранжирование документов-кандидатов из корпуса может осуществляться различными методами. Ранжирование релевантности документов в поиске по ключевым словам может быть рассчитано с использованием предположений теории сходства документов путем сравнения отклонения углов между вектором каждого документа и исходным вектором запроса, где запрос представлен в виде вектора той же размерности, что и векторы, представляющие другие документы.
На практике проще вычислить косинус угла между векторами, чем сам угол:
Гдепредставляет собой пересечение (т.е. скалярное произведение ) векторов документа (d 2 на рисунке справа) и запроса (q на рисунке).
является нормой вектора d² , и
— это норма вектора q. Об этом говорит сайт https://intellect.icu . Норма вектора вычисляется следующим образом:
Используя косинус, сходство между документом dj и запросом q можно рассчитать следующим образом:
Поскольку все рассматриваемые в этой модели векторы являются поэлементно неотрицательными, значение косинуса, равное нулю, означает, что вектор запроса и вектор документа ортогональны и не имеют совпадений (т.е. термин запроса отсутствует в рассматриваемом документе). См. раздел «Косинусное сходство» для получения дополнительной информации.
В классической модели векторного пространства, предложенной Салтоном , Вонгом и Янгом , специфические для терминов веса в векторах документов представляют собой произведения локальных и глобальных параметров. Эта модель известна как модель частоты терминов – обратной частоты документов (tf–idf). Вектор весов для документа d равен, где
и
Модель векторного пространства имеет следующие преимущества перед стандартной булевой моделью :
Большинство этих преимуществ являются следствием различия в плотности представления коллекции документов между булевым подходом и подходом, основанным на частоте терминов и обратной частоте документов. При использовании булевых весов любой документ находится в вершине n-мерного гиперкуба . Следовательно, возможные представления документов следующие:а максимальное евклидово расстояние между парами равно
По мере добавления документов в коллекцию область, определяемая вершинами гиперкуба, становится более заполненной и, следовательно, более плотной. В отличие от булевых операторов, при добавлении документа с использованием весов, основанных на частоте терминов и обратной частоте документов, обратные частоты терминов в новом документе уменьшаются, в то время как частоты оставшихся терминов увеличиваются. В среднем, по мере добавления документов, область, в которой находятся документы, расширяется, регулируя плотность всего представления коллекции. Такое поведение моделирует первоначальную мотивацию Салтона и его коллег, которые считали, что коллекция документов, представленная в области низкой плотности, может давать лучшие результаты поиска.
Модель векторного пространства имеет следующие ограничения:
Однако многие из этих трудностей можно преодолеть путем интеграции различных инструментов, включая математические методы, такие как сингулярное разложение , и лексические базы данных, такие как WordNet .
К моделям, основанным на векторной пространственной модели и расширяющим ее, относятся:
Следующие программные пакеты могут представлять интерес для тех, кто хочет поэкспериментировать с векторными моделями и реализовать на их основе поисковые сервисы.
Обобщенная модель векторного пространства является обобщением модели векторного пространства, используемой в информационном поиске . Вонг и др. представили анализ проблем, которые создает предположение о попарной ортогональности модели векторного пространства. Отсюда они расширили модель векторного пространства до обобщенной модели векторного пространства (GVSM).
Недавно Цацаронис сосредоточился на первом подходе. Они измеряют семантическую связанность ( SR ) с помощью тезауруса ( O ), подобного WordNet . Он учитывает длину пути, определяемую компактностью ( SCM ), и глубину пути, определяемую семантической детализацией пути ( SPE ).
Опираясь также на первый подход, Вайтелонис и др. вычислили семантическую взаимосвязь на основе ресурсов Linked Open Data , включая DBpedia , а также таксономию YAGO . При этом они используют таксономические связи между семантическими сущностями в документах и запросах после связывания именованных сущностей .
Исследование, описанное в статье про векторная модель, подчеркивает ее значимость в современном мире. Надеюсь, что теперь ты понял что такое векторная модель и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Модели нейросетей и методы исследований систем искусственного интеллекта
Из статьи мы узнали кратко, но содержательно про векторная модель
Комментарии
Оставить комментарий
Модели нейросетей и методы исследований систем искусственного интеллекта
Термины: Модели нейросетей и методы исследований систем искусственного интеллекта