Лекция
Привет, мой друг, тебе интересно узнать все про информационный поиск, тогда с вдохновением прочти до конца. Для того чтобы лучше понимать что такое информационный поиск , настоятельно рекомендую прочитать все из категории Представление и использование знаний.
Исследования в области информационного поиска начались уже более тридцати лет назад. За это время из узкоспециализированной тематики информационный поиск превратился в одну из ключевых областей информатики. Полноценное введение в задачи информационного поиска невозможно уместить в рамки этой работы. Поэтому в этой главе мы только кратко охарактеризуем общий контекст исследований.
Задачи информационного поиска
Центральная проблема информационного поиска формулируется просто -- помочь пользователю найти ту информации, в которой он заинтересован. К сожалению, описать информационные потребности пользователя совсем не так просто. Обычно это описание формулируется как некоторый запрос, представляющий из себя некоторый набор ключевых слов, характеризующий потребности пользователя.
Классическая задача информационного поиска, с которой и началось развитие этой области, -- это поиск документов, удовлетворяющих запросу, в рамках некоторой статической (на момент выполнения поиска) коллекции документов. Например, эта задача решается в рамках большинства современных справочных систем, таких как справочная система по операционной системе Windows.
Однако за тридцать лет исследований список задач информационного поиска значительно расширился и теперь включает вопросы моделирования, классификации и кластеризации документов, проектирования архитектур поисковых систем и пользовательских интерфейсов, языки запросов, и т. д.
Кроме классической задачи информационного поиска в этой работе мы также затрагиваем следующие задачи:
- Кластеризация документов. Целью кластеризации документов является автоматическоое выявление групп семантически похожих документов среди заданного фиксированного множества документов. Отметим, что группы формируются только на основе попарной схожести описаний документов, и никакие характеристики этих групп не задаются заранее.
- Классификация документов. В отличии от задачи кластеризации, целью этой задачи является определение для каждого документа одной или нескольких из заранее заданных категорий, к которым этот документ относится. Об этом говорит сайт https://intellect.icu . Особенностью задачи классификации является предположение, что множество классифицируемых документов не содержит “мусора”, т. е. каждый из документов соответствует какой-нибудь из заданных категорий. Частным случаем задачи классификации является задача тематической классификации. Здесь каждая категория -- это некоторая тематика, а цель классификации -- определить тематику документа.
- Фильтрация документов. Как и в задаче классификации, целью задачи фильтрации является разбиение множества документов на категории. Однако этих категорий только две -- те документы, которые удовлетворяют заданному критерию, и те, которые ему не удовлетворяют. Одной из наиболее важных частных случаев является задача тематической фильтрации документов, т. е. автоматического определения документов, соответствующих заданной тематике, за счет отсева прочих документов.
Несмотря на некоторую схожесть формулировок этих задач, тем не менее они сильно различаются. Как следствие, методы успешно применяемые для решения одной из этих задачах, зачастую показывают не лучшие результаты при использовании их для решения другой задачи.
Поиск в Интернет
Бурный рост объема информации в Интернет делает поиск незаменимым методом доступа к этой информации. Можно выделить две основные формы поиска в Интернет:
- Использование поисковых систем, которые собирают сведения о (части) доступных в Интернет ресурсах и организуют поиск по этой информации, как по полнотекстовой базе данных. Примерами таких систем являются -Altavista, Google, Yandex, и т. д.
- Использование Интернет-каталогов, в которых информация об избранных ресурсах Интернет классифицирована по тематическим признакам. Такие каталоги существуют не только в электронном виде (Listили Yahoo!), но также издаются и ввиде печатных изданий - таких как, например, “Желтые страницы Интернет'”.
Природа Интернет обуславливает ряд важных факторов, которые необходимо учитывать при рассмотрении задач поиска:
- Огромный объем доступной информации
- Высокий процент временной информации
- Неконтролируемое качество информации
- Разнородность информации
Кроме различных форматов представления информации, к этой группе особенностей относится также и то, что для представления информации используется множество различных языков и даже алфавитов.
Поисковые системы
Огромный объем доступной в Интернет информации делает поисковые системы незаменимым инструментом. Количество существующих поисковых систем исчисляется сотнями и большинство из них принадлежит к одному из двух классов:
- Многоцелевые системы
- Специализированные системы
Специализированная поисковая система производит поиск по значительно меньшему количеству ресурсов, чем любая популярная многоцелевая поисковая система. Однако, этот факт имеет ряд положительных следствий для специализированных систем.
- Информация, не относящаяся к специализации данной поисковой системы, не попадает в ее индекс.
- Возможно применение более вычислительно трудоемких методов поиска.
- Возможно привлечение экспертов в соответствующей области, а также поддержка сервиса рекомендаций ресурсов пользователями системы. А как следствие, повышение качества и полноты коллекции.
Поэтому, зачастую поиск в соответствующей запросу специализированной поисковой системе быстрее и лучше удовлетворяет информационные потребности пользователя.
В то же время, из-за специализации таких поисковых систем, выбор конкретной системы для выполнения поиска является довольно сложной задачей. Для решения этой проблемы, предлагает возможность поиска по построенным вручную описаниям специализированных систем. Такой подход очень трудоемок и не всегда работает из-за ограниченности построенных вручную описаний. Автоматическое построение таких описаний является предметом современных исследований. Отметим, что в рамках этой работы мы не рассматриваем системы и методы поиска, учитывающие информацию о структуре данных, такие как методы работы со слабоструктурированной информацией.
Индексы поисковых систем
Важнейшим отличием поисковых систем для поиска в Интернет от классических систем информационного поиска является необходимость обслуживания всех запросов без реального доступа к ресурсам на момент выполнения запроса. Иначе необходимо либо хранить свежую локальную копию всех ресурсов (что слишком накладно), либо посещать ресурсы во время выполнения запроса (что слишком медлено).
Поэтому, в системах поиска в Интерент все запросы обслуживаются на основе содержимого индекса, содержащего некоторые описания известных данной поисковой системе ресурсов. Для сбора сведений о доступных ресурсах, которая потом используется для построения индекса, обычно используются так называемые сетевые роботы - программы, которые, начиная с некоторой Интернет-страницы, рекурсивно обходят ресурсы Интернет, извлекая ссылки на новые ресурсы из получаемых документов.Если я не полностью рассказал про информационный поиск? Напиши в комментариях Надеюсь, что теперь ты понял что такое информационный поиск и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Представление и использование знаний
Из статьи мы узнали кратко, но содержательно про информационный поискОтветы на вопросы для самопроверки пишите в комментариях, мы проверим, или же задавайте свой вопрос по данной теме.
Комментарии
Оставить комментарий
Представление и использование знаний
Термины: Представление и использование знаний