Вам бонус- начислено 1 монета за дневную активность. Сейчас у вас 1 монета

Классификация документов

Лекция



Привет, мой друг, тебе интересно узнать все про классификация документов, тогда с вдохновением прочти до конца. Для того чтобы лучше понимать что такое классификация документов , настоятельно рекомендую прочитать все из категории Представление и использование знаний.

классификация документов по тематикам

В этой главе мы рассматриваем задачу тематической классификации документов, т. е. автоматического определения тематики документа по заданному множеству возможных тематик.

Отличительной особенностью задачи классификации является предположение, что множество классифицируемых документов не содержит “мусора”, т. е. каждый из документов соответствует какой-нибудь из заданных тематик. Последние несколько лет этой проблеме уделялось много внимания.

Большинство предложенных методов классификации основываются на использовании классической векторной модели информационного поиска. Для описания тематик, как и для описания документов, здесь используются взвешенные списки термов (словоформ). Вес терма основывается на статистической информации о встречаемости термов в этом и, возможно, других документах.

В последние годы все больше внимания привлекают более сложные подходы. Основная идея многих из них - это снижение размерности пространства “признаков”, по которым происходит классификация документов. Начальным пространством признаков обычно является пространство термов (словоформ), которое сжимается на основе результатов анализа большой группы документов. Об этом говорит сайт https://intellect.icu . Для проведения анализа используются различные подходы - кластеризация термов на основе их вероятностных распределений по документам, применение методов обнаружения знаний в данных (data mining) для задания правил классификации, т. д. Отметим, что несмотря на улучшение качества классификации, практическое применение подобных подходов зачастую осложнено их большой вычислительной трудоемкостью, влекущей низкую производительность.

Одним из перспективных подходов является применение латентно-семантического анализа (LSA) для выявления структуры семантических взаимосвязей между используемыми словами за счет статистического анализа большой группы документов. Это позволяет автоматически различать смысловые оттенки одного и того же слова в зависимости от контекста его использования. Отметим, что выявление семантической структуры при помощи латентно-семантического анализа происходит полностью автоматически, т. е. не требуя никакого составления словарей вручную.

Классификация с учетом семантической близости слов

Все методы классификации используют один и тот же обобщенный алгоритм, который состоит из следующих этапов:

  • задания/построения описаний для всех тематик
  • построения описания рассматриваемого документа
  • вычисления оценок близости между описаниями тематик и описанием документа и выбора наиболее близких тематик

Различия же между методами определяются реализацией этих этапов.

Описания тематик и документов

Предлагаемый подход основан на предположении, что тематика документа определяется его словарным запасом. Мы исключили из рассмотрения так называемые  стоп-слова, т. е. наиболее употребительные слова, которые могут использоваться в документах любой тематики, такие как предлоги, местоимения и т. п. Мы также полагаем, что различные синтаксические формы одного и того же слова не отражаются на общей тематике документа и, следовательно, могут представляться единой базовой словоформой ( термом).

В качестве описания документа используется все множество встречающихся в документе термов, за исключением общеупотребительных.

Тематики также представляются в системе наборами термов, однако эти наборы содержат не все употребляющиеся в данной тематике слова, а только небольшое их подмножество, которое выбирается автоматически.

Построение описаний тематик

Тематика задается относительно небольшим множеством относящихся к ней документов. По результатам анализа этого множества документов, а также множества документов задающих остальные рассматриваемые тематики, автоматически строится описание тематики в виде набора термов. Целью анализа является выявление отличий этой тематики от других и выбор термов, наилучшим образом подчеркивающих особенности этой тематики.

Если я не полностью рассказал про классификация документов? Напиши в комментариях Надеюсь, что теперь ты понял что такое классификация документов и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Представление и использование знаний

Из статьи мы узнали кратко, но содержательно про классификация документов
создано: 2014-09-22
обновлено: 2021-03-13
132476



Рейтиг 9 of 10. count vote: 2
Вы довольны ?:


Поделиться:

Найди готовое или заработай

С нашими удобными сервисами без комиссии*

Как это работает? | Узнать цену?

Найти исполнителя
$0 / весь год.
  • У вас есть задание, но нет времени его делать
  • Вы хотите найти профессионала для выплнения задания
  • Возможно примерение функции гаранта на сделку
  • Приорететная поддержка
  • идеально подходит для студентов, у которых нет времени для решения заданий
Готовое решение
$0 / весь год.
  • Вы можите продать(исполнителем) или купить(заказчиком) готовое решение
  • Вам предоставят готовое решение
  • Будет предоставлено в минимальные сроки т.к. задание уже готовое
  • Вы получите базовую гарантию 8 дней
  • Вы можете заработать на материалах
  • подходит как для студентов так и для преподавателей
Я исполнитель
$0 / весь год.
  • Вы профессионал своего дела
  • У вас есть опыт и желание зарабатывать
  • Вы хотите помочь в решении задач или написании работ
  • Возможно примерение функции гаранта на сделку
  • подходит для опытных студентов так и для преподавателей



Комментарии


Оставить комментарий
Если у вас есть какое-либо предложение, идея, благодарность или комментарий, не стесняйтесь писать. Мы очень ценим отзывы и рады услышать ваше мнение.
To reply

Представление и использование знаний

Термины: Представление и использование знаний