Вам бонус- начислено 1 монета за дневную активность. Сейчас у вас 1 монета

Поиск документов

Лекция



Привет, мой друг, тебе интересно узнать все про поиск документов, тогда с вдохновением прочти до конца. Для того чтобы лучше понимать что такое поиск документов , настоятельно рекомендую прочитать все из категории Представление и использование знаний.

поиск документов заданной тематики в Интернет

Здесь рассматривается задача сбора информации об Интернет-ресурсах, относящихся к заданной тематике. Эта проблема актуальна при решении множества прикладных задач, таких как, например, построение тематических каталогов типа Yahoo! или Dmoz.

Близкой задачей является задача автоматического сбора информации о существующих Интернет-ресурсах при создании индексов многоцелевых поисковых систем, таких как, например, Altavista, Google или Яндекс.

Для решения задач, связанных со сбором информации о существующих ресурсах Интернет, используются так называемые сетевые роботы -- программы, которые, начиная с некоторой Интернет-страницы, рекурсивно обходят ресурсы Интернет, извлекая ссылки на новые ресурсы из получаемых документов.

Ключевым вопросом при создании интеллектуальных роботов является используемая стратегия обхода, т. е. критерий выбора следующего ресурса для посещения из множества уже известных роботу, но еще не посещенных ресурсов. Поскольку посещение всех Интернет-страниц не представляется возможным из-за огромного объема и быстрой изменяемости доступной в Интернет информации, то стратегия обхода определяет также какие именно ресурсы удастся посетить (за конечное время). Естественно, что кажется разумным в первую очередь посещать наиболее “полезные” ресурсы. “Полезность” ресурса определяется той задачей, для достижения которой создается робот.

Например, робот, который собирает информацию о ресурсах для поисковой системы, заинтересован в обнаружении максимального количества разнообразных ресурсов. Подобные роботы зачастую используют в качестве оценки “полезности” ресурса глубину URL, т. е. количество промежуточных каталогов, упоминающихся в URL между именем Интернет-узла и именем самого ресурса. Чем больше глубина, тем ниже важность соответствующего ресурса. Такой подход позволяет быстро посетить стартовые и близкие к ним страницы на большом числе Интернет-узлов.

Интуитивно кажется очевидным, что страница, на которую ссылаются много различных страниц в Интернет, более важна, чем та, на которую мало ссылок. Об этом говорит сайт https://intellect.icu . А также, что ссылку из авторитетного источника типа Yahoo! стоит оценивать выше, чем ссылку с чьей-то персональной страницы. Эти соображения и используются, например, в алгоритме сетевого робота Google, что позволяет максимизировать количество обнаруженных наиболее цитируемых ресурсов.

В контексте задачи поиска документов заданной тематики, главной целью соответствующего сетевого робота является обнаружение максимального количества тематически релевантных ресурсов. Таким образом, в качестве оценки ожидаемой ``полезности'' ресурса выступает оценка его ожидаемой близости к искомой тематике. Для вычисления этой оценки робот использует информацию о тематической релевантности уже обнаруженных страниц.

Мы занимались этой задачей в приложении к проблеме построения тематических коллекций для проекта OASIS. Поэтому мы предполагали, что окончательное решение о тематической релевантности обнаруженного ресурса производится клиентом нашего робота, т. е. коллекцией. Однако, для снижения нагрузки на клиента, робот может рекомендовать не все обнаруженные ресурсы, а производить предварительный, “грубый” отсев заведомо нерелевантных документов.

Архитектура сетевого робота

Поскольку основным предметом нашего исследования является использование информации о тематике для выбора специализированной стратегии обхода и методы отсева ``мусора'', то мы ограничимся лишь кратким описанием базовой архитектуры сетевого робота, выделив только затронутые в рамках этой работы подсистемы.

Документ из Интернет сначала попадает в подсистему сбора документов (Harvester), которая передает его подсистеме анализа документов (Document Analyser), где строится описание ( профайл) документа. Далее подсистема оценки релевантности (Document Evaluator) вычисляет “грубую” оценку близости документа к тематике клиента. Если эта оценка превышает некоторый порог рекомендации, то документ рекомендуется клиенту робота.

Отметим, что окончательное решение о релевантности документа принимается самим клиентом, а сетевой робот производит только грубый отсев заведомо неподходящих документов. Клиент имеет возможность асинхронно информировать робота о вычисленных им ``точных'' оценках близости документа к искомой тематике. Сетевой робот использует эту информацию для автоматического уточнения вычисляемых оценок.

Порядок обхода документов WWW определяется порядком ссылок в очереди URL для посещения (URL Database), а также необходимостью соблюдать “этику сетевых роботов”. Новые URL попадают в очередь в результате анализа уже посещенных документов.

Оценка тематической близости

Для каждого из посещаемых документов сетевой робот вычисляет ``грубую'' оценку близости документа к тематике, заданной клиентом. Эта оценка в дальнейшем используется для выполнения двух задач:

  • Уточнения используемой стратегии обхода Интернет.
  • Отфильтровывания мусора, то есть уменьшения количества нерелевантных документов, рекомендуемых клиенту.

Используемый метод вычисления “грубых” оценок основывается на методе вычисления расстояний в рамках векторной модели документов, широко используемой в различных задачах информационного поиска.

Уточнение тематического фильтра

В процессе работы робот может автоматически уточнять используемый фильтр с целью улучшить качество “грубых” тематических оценок, учитывая дополнительную информацию, передаваемую клиентом. Эта информация представляет собой данные о более “точных” (по мнению клиента) оценках тематической близости рекомендованных документов.

Отметим, что автоматическое изменение фильтра может повлечь не только изменение значимости уже используемых в фильтре термов, но также и добавление новых термов.

Стратегия обхода Интернет ресурсов

Большинство сетевых роботов не могут посещать все доступные в Интернет ресурсы из-за ограниченности доступных роботу аппаратных и сетевых ресурсов, и то, какие именно ресурсы будут посещены, определяется применяемой стратегией обхода. Естественно, что робот должен стараться использовать такую стратегию, которая максимизирует общую ``полезность'' всех посещенных ресурсов.

Поскольку, в нашем случае, “полезность”, т.е. тематическую релевантность ресурса, окончательно определяет клиент робота, то главной задачей применяемой стратегии обхода является выбор такого порядка обхода известных роботу ресурсов, при котором за минимальное время будет обнаружено максимальное число документов, релевантных тематике клиента.

Если я не полностью рассказал про поиск документов? Напиши в комментариях Надеюсь, что теперь ты понял что такое поиск документов и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Представление и использование знаний

Из статьи мы узнали кратко, но содержательно про поиск документов
создано: 2014-09-22
обновлено: 2021-01-10
132456



Рейтиг 9 of 10. count vote: 2
Вы довольны ?:


Поделиться:

Найди готовое или заработай

С нашими удобными сервисами без комиссии*

Как это работает? | Узнать цену?

Найти исполнителя
$0 / весь год.
  • У вас есть задание, но нет времени его делать
  • Вы хотите найти профессионала для выплнения задания
  • Возможно примерение функции гаранта на сделку
  • Приорететная поддержка
  • идеально подходит для студентов, у которых нет времени для решения заданий
Готовое решение
$0 / весь год.
  • Вы можите продать(исполнителем) или купить(заказчиком) готовое решение
  • Вам предоставят готовое решение
  • Будет предоставлено в минимальные сроки т.к. задание уже готовое
  • Вы получите базовую гарантию 8 дней
  • Вы можете заработать на материалах
  • подходит как для студентов так и для преподавателей
Я исполнитель
$0 / весь год.
  • Вы профессионал своего дела
  • У вас есть опыт и желание зарабатывать
  • Вы хотите помочь в решении задач или написании работ
  • Возможно примерение функции гаранта на сделку
  • подходит для опытных студентов так и для преподавателей



Комментарии


Оставить комментарий
Если у вас есть какое-либо предложение, идея, благодарность или комментарий, не стесняйтесь писать. Мы очень ценим отзывы и рады услышать ваше мнение.
To reply

Представление и использование знаний

Термины: Представление и использование знаний