Лекция
Привет, мой друг, тебе интересно узнать все про анализ текста, тогда с вдохновением прочти до конца. Для того чтобы лучше понимать что такое анализ текста, обработка текста при извлечении информации, интеллектуальный анализ текстов, иат, text mining , настоятельно рекомендую прочитать все из категории Моделирование мыслительных процессов на естественном языке и Символьное моделирование.
Задача извлечения информации заключается в обработке текста на естественном языке с целью извлечения заданных элементов. На входе системы извлечения информации –– слабоструктурированный или неструктурированный текст на естественном языке; на выходе –– заполненные структуры данных (экзофреймы), позволяющие проводить дальнейшую автоматическую или ручную обработку информации. Извлечение информации можно рассматривать как особый вид аннотирования текстов, когда в роли аннотации выступает специфическая структура данных.
интеллектуальный анализ текстов ( иат , англ. text mining) — направление в искусственном интеллекте, целью которого является получение информации из коллекций текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ текстов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. data mining), что выражает схожесть их целей, подходов к переработке информации и сфер применения; разница проявляется лишь в конечных методах, а также в том, что ИАД имеет дело с хранилищами и базами данных, а не электронными библиотеками и корпусами текстов.
Текст как феномен – явление весьма многогранное, разнообразное и многоаспектное. В связи с этим нет да и, пожалуй, не может существовать единого его понимания и определения. Термин «текст» фигурирует в трудах различных ученых для обозначения феноменов не только «разнопорядковых» (от отдельного высказывания до речевого потока), но подчас и различной «природы» (от процесса и результата речемыслительной деятельности до сугубо языкового, особым образом обработанного и структурированного произведения, выраженного исключительно вербальными средствами) (см., например, [3; 1; 15]).
Информация, извлеченная из текста, хранится в экзофрейме, который представляет собой набор целевых слотов. Целевой слот может содержать информацию об объектах (например, персоналии, организации, продукты), отношениях или событиях, их атрибутах, также возможна привязка к фрагменту текста, на основании которого получена данная информация.
Релевантная информация должна быть определена абсолютно точно для того, чтобы автоматическая система извлечения информации показывала хорошие результаты. Хорошей постановкой задачи можно считать такую, для которой согласованность результатов выделения информации вручную для нескольких экспертов предметной области (inter-annotator agreement) будет высокой (более 90%). Если же ключевая информация скрыта или настолько плохо определена.
Для качественной работы автоматической системы в конкретной предметной области ей необходимо обладать значительными знаниями в этой области. Каждая предметная область предполагает извлечение данных различного характера, свой специфический профессиональный словарь и стиль написания текста.
Каждая конкретная задача извлечения данных из текста предусматривает слоты разных видов: для событий, персоналий, организаций, дат и т. д. Целевой фрейм и правила извлечения информацииописывают условия, при которых создается экзофрейм и способ заполнения его слотов.
На всех этапах обработки текста на естественном языке присутствует неопределенность, которая разрешается разными средствами. Большую проблему представляет построение словарей, тезаурусов, онтологий. Эта работа по большей части выполняется вручную. Попытки автоматизации данной работы проводились с использованием статистических методов и методов машинного обучения. На настоящий момент, по-видимому, нет свободно доступных исследований, описывающих всестороннее решение этой проблемы.
Применение методов машинного обучения может упростить настройку и разработку систем извлечения информации и облегчить переключение всей системы на новую предметную область. Рассмотрим уровни анализа текста в целом, а затем возможность и эффективность использования применения машинного обучения для контекстного снятия омонимии, синтаксического анализа, определения семантических классов, построения правил извлечения информации и объединения частичных результатов.
Исходный текст подвергается графематическому анализу; происходит выделение слов и предложений. На следующих этапах происходит обнаружение составных слов, которые должны рассматриваться как одно (с точки зрения морфологического анализатора). Графематический анализ обычно не требует настройки, зависящей от предметной области, поскольку реализация общего алгоритма графематического анализа подходит для большинства реальных приложений.
Морфологический анализ обычно работает на уровне отдельных слов (возможно, составных) и возвращает морфологические атрибуты данного слова. В случае, когда атрибуты не могут быть установлены однозначно, возвращается несколько возможных вариантов морфологического анализа. Использование методов машинного обучения для морфологического анализа не принесет пользы, так как существует множество высококачественных словарных и бессловарных решений этой задачи, которые могут применяться в широком спектре приложений.
Результаты морфологического анализа используются при микрои макросинтаксическом анализе. Микросинтаксический анализ осуществляет построение ограниченного набора синтаксических связей (например, выделение именных групп). Задача макросинтаксического анализа состоит в выделении в предложении крупных синтаксических единиц––фрагментов––и в установлении иерархии на множестве этих фрагментов. Разбиение на микро- и макросинтаксический анализ условно, оно отображает тот факт, что для большинства задач извлечения информации достаточно поверхностного (микросинтаксического анализа).
Эксперименты показывают, что лингвистический анализатор, обладающий богатыми выразительными возможностями, дает больше ошибок из-за того, что почти каждый уровень анализа представляет собой задачу, которая не имеет строгого, а тем более формализуемого, решения. В наибольшей мере это относится к синтаксическому анализу. Поэтому в предметной области, где достаточно простого синтаксического анализа, мощный анализатор будет лишь вносить нежелательный шум, а производительность будет падать. В то же время существуют предметные области, в которых для извлечения информации требуются развитые возможности представления лингвистической информации. В таких предметных областях примитивный анализатор не сможет предоставить необходимых для извлечения целевой информации лингвистических атрибутов. Настройка выполняется вручную, поэтому данный этап анализа выиграл бы от применения машинного обучения.
Поскольку у каждого слова после выполнения морфологического анализа может присутствовать несколько омонимичных словоформ, то для улучшения качества синтаксического анализа и повышения его производительности можно использовать алгоритмы устранения омонимии, которые сокращают количество вариантов морфологического анализа. Часто задача снятия омонимии решается при помощи наборов правил, составление которых очень трудоемко, поскольку практически применимые наборы оказываются довольно крупными.
Кроме того, для каждой предметной области набор правил приходится модифицировать. Снятие омонимии –– еще одна область анализа текста, которая может быть улучшена при помощи машинного обучения.
Целевые фреймы могут быть подвергнуты дополнительной обработке с целью повышения качества работы системы. Для этого используются средства разрешения кореферентности и объединения частичных результатов.
При разрешении кореферентности в целевых фреймах особым образом помечаются объекты, которые описываются разными фрагментами текста, но указывают на одну сущность реального мира. Исследования показывают, что нет общего решения проблемы кореферентности, однако существуют общие подходы, которые приемлемо работают во множестве предметных областей, но требуют настройки при переходе от одной области к другой, следовательно здесь также потенциально может быть использовано машинное обучение.
Качество морфологического анализа можно повысить при помощи контекстного анализа. Это позволит в большинстве случаев избавиться от морфологической омонимии. Модуль контекстного анализа можно настраивать на произвольную предметную область. Для этого необходимо обучающей программе модуля предоставить множество текстов –– документов целевой предметной области. На этом множестве обучающая программа выделит наиболее характерный контекст для значимых с точки зрения омонимии слов и будет использовать его в дальнейшем для разрешения омонимической неоднозначности.
Контекстный анализ, по-видимому, не решит всех проблем омонимии для русского языка. Например, в русском языке у многих существительных совпадает написание в винительном и именительном падежах (при этом возможный контекст лексемы практически не изменяется); то же касается имен собственных. Об этом говорит сайт https://intellect.icu . Но существует множество случаев, когда контекстный анализ отсеет нерелевантные омонимы. Зарубежные аналоги показывают высокую точность работы морфологических процессоров при использовании технологии, основанной на скрытых Марковских моделях и правилах специального вида. Существуют реализации как для супервизорного обучения, так и для обучения «без учителя».
Для использования машинного обучения при синтаксическом анализе требуется тщательная разметка больших объемов текстов, поэтому супервизорное обучение применять неперспективно.
Эксперименты по настройке синтаксического анализатора с применением машинного обучения «без учителя», показывают, что синтаксическая структура естественного языка слишком выразительна и сложна, чтобы можно было эффективно строить его модель, не располагая размеченными текстами.
Если говорить о практической стороне, то для реализации синтаксического анализа с использованием машинного обучения «без учителя» самым эффективным подходом представляется статистическое обучение, когда выделение синтаксических структур производится без использования лингвистических знаний. Вместо этого можно подсчитывать частоты совместной встречаемости слов. Подобный подход (для русского языка) был исследован в, но и там значительное место занимают жестко заложенные в систему формально-грамматические правила. Тем не менее, очень значимым для качества работы системы будет адаптивный синтаксический анализ. В зависимости от задач, которые мы хотим решать, не всегда рационально использовать всю мощность синтаксического анализатора. Иногда бывает достаточно разобрать лишь те характеристики предложения, которые нам требуются с прикладной точки зрения и имеют меньшую вероятность ошибки при разборе. Тогда работу синтаксического анализатора можно будет модифицировать в соответствии с прикладными целями (в том числе и средствами машинного обучения).
Важным свойством для системы извлечения информации является ее способность определять семантические классы фрагментов текста. Набор семантических классов может включать в себя разные составляющие –– от примитивных вариантов (например, определение дат) до выделения именованных сущностей и определения их класса (например, «Организация», «Персона», «Должность»). Это позволит при задании правил извлечения информации оперировать не отдельными словами и их взаимосвязями, а сущностями, характерными для предметной области.
Не следует путать с Data Mining. Извлечение информации (англ. information extraction) — это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов.
Извлечение информации является разновидностью информационного поиска, связанного с обработкой текста на естественном языке. Примером извлечения информации может быть поиск деловых визитов — формально это записывается так: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита), — из новостных лент, таких как: «Вчера, 1 апреля 2007 года, представители корпорации Пепелац Интернэшнл посетили офис компании Гравицап Продакшнз». Главная цель такого преобразования — возможность анализа изначально «хаотичной» информации с помощью стандартных методов обработки данных. Более узкой целью может служить, например, задача выявить логические закономерности в описанных в тексте событиях.
Типичная задача извлечения информации: просканировать набор документов, написанных на естественном языке, и наполнить базу данных выделенной полезной информацией. Современные подходы извлечения информации используют методы обработки естественного языка, направленные лишь на очень ограниченный набор тем (вопросов, проблем) — часто только на одну тему.
Тексты на естественном языке могут потребовать некоего предварительного преобразования на язык (например, RDF — Resource Description Framework), понятный для компьютера.
Типичные подзадачи извлечения информации:
Распознавание именованных элементов (сущностей), например: имен людей, названий организаций, географических названий, событий, временны́х и денежных обозначений и пр.
Разрешение анафоры и кореференций : поиск связей, относящихся к одному и тому же объекту. Типичный случай таких ссылок — местоименная анафора.
Выделение терминологии: нахождение для данного текста ключевых слов и словосочетаний (коллокаций).
Автореферирование: выделение из текста смысловой, эмотивной, оценочной и пр. информации. Бывает генеративным и декларативным.
Ключевыми группами задач Интеллектуального анализа текста являются:
Категоризация документов заключается в отнесении документов из коллекции к одной или нескольким группам (классам, кластерам) схожих между собой текстов (например, по теме или стилю). Категоризация может происходить при участии человека, так и без него. В первом случае, называемом классификацией документов, система ИАТ должна отнести тексты к уже определенным (удобным для него) классам. В терминах машинного обучения для этого необходимо произвести обучение с учителем, для чего пользователь должен предоставить системе ИАТ как множество классов, так и образцы документов, принадлежащих этим классам.
Второй случай категоризации называется кластеризацией документов. При этом система ИАТ должна сама определить множество кластеров, по которым могут быть распределены тексты, — в машинном обучении соответствующая задача называется обучением без учителя. В этом случае пользователь должен сообщить системе ИАТ количество кластеров, на которое ему хотелось бы разбить обрабатываемую коллекцию (подразумевается, что в алгоритм программы уже заложена процедура выбора признаков).
В рамках той научной парадигмы, которая сложилась в последнее время и неотъемлемой составляющей которой является психолингвистика, текст рассматривается в первую очередь как продукт речемыслительной деятельности. Вместе с тем сегодня уже абсолютно очевидно и мало у кого вызывает неприятие туверждение,
что текст как таковой (или его часть, фрагмент) может быть выражен и невербальными средствами. Во многих исследованиях текст рассматривается именно как
«креолизованный» продукт, выраженный как вербальными, так и невербальными – паралингвистическими, визуальными и т. д. – средствами. Сегодня уже даже самые «стойкие» лингвисты не отмахиваются от того факта, что при непосредственной коммуникации до 80% информации коммуниканты получают по невербальным каналам, и соглашаются с тем, что невозможно изучать речь, не учитывая экстралингвистических факторов, на нее влияющих. Другими словами, анализировать речевое поведение, игнорируя общий контекст поведения коммуникативного, не принимая во внимание включенность речевой деятельности в общий круг других деятельностей (а это один из постулатов психологии и психолингвистики), не учитывая ситуацию, в которой осуществляется общение, и факторы, влияющие на процессы порождения и восприятия речевого произведения, не рассматривая языковое (лингвокультурное) сознание коммуникантов, сегодня не представляется оправданным, целесообразным и корректным.
Цель подобного анализа – понять, получилось ли у коммуникантов совместная (речевая) деятельность, и показать это на конкретном материале.
Параметры текста, которые подвергаются анализу и вносятся нами в таблицу:
Итак, мы считаем текст основной единицей дискурса. Текст может иметь структуру более простую или более сложную. Минимальной «текстовой» единицей
является микротекст, который характеризуется, в частности, одной предикацией, одной микротемой, одним микроконцептом при порождении (ср. с идеей
Н. И. Жинкина о том, что «во всяком тексте, если он относительно закончен и последователен, высказана одна основная мысль, один тезис, одно положение» [5: 250]. Микротексты могут складываться в единицы более сложной структуры - макротексты; ср.: «Наиболее важной чертой текста, отличающей его от всех других языковых образований, является наличие в тексте смысловой суперструктуры [10: 6] (выделено нами. – В.К.); а также: «Текст есть сложная коммуникативная единица наиболее высокого порядка <…> некая система смысловых единиц разной степени сложности и значимости (с точки зрения достижения целей названной деятельности), функционально (т. е. для данной конкретной цели / целей) объединенных в единую семантико-смысловую структуру общей концепцией (замыслом)» [4: 135]. Макротексты могут иметь в своем составе энное количество микротекстов и, как показывают наши наблюдения, могут также складываться в тексты более «высокого» уровня. В таком случае мы говорим о макротекстах первого уровня, второго уровня и т. д. Своеобразной «вершиной» такой иерархической пирамиды текстов является макротекст самого «высокого» уровня или, если коммуникантам удалось в процессе общения
создать единый текст, макротекст «глобальный». Подобный взгляд соотносим с пониманием текста в психолингвистике, которая рассматривает текст как «форму выражения иерархии смыслообразований разной степени сложности и значимости»
[18: 114-115].
Приведем пример такого строения макротекста (отметим в скобках, что данный текст является далеко не самым сложным по своей структуре). Заметим, что, на
наш взгляд, данный текст являет собой яркую иллюстрацию положения о том, что
«глобальные цели говорящего регулируют расчленение деятельности на ряд подчиненных действий и обеспечивают необходимые отношения типа предпосылка / следствие между ними» [13: 18].
разговор у книжного лотка;
один из коммуникантов увидел некую книгу
А 1 – Слушай, я ведь ее уже давно искала...
2 Сколько стоит?
2’ ... [Берет книгу и, увидев цену, присвистывает]
3 Слушай, у тебя есть деньги?
Б 4 – Есть.
А 5 – Можно стрельнуть?
Б 6 – Сколько тебе?
А 7 – Ну, полтинник.
Б 8 – Держи...
8’ Точно хватит?
А 9 – Да, конечно. Мерси.
9’ Завтра верну.
Б 10 [Ничего не говоря, машет рукой]
А 11 – Ну, наконец-то!.. Сбудется мечта идиота!
В данном случае мы обозначили коммуникантов и проставили номера реплик, чтобы при анализе не повторять сами реплики, но называть только их номер. При
этом в трех случаях мы использовали знак «штрих» (2 – 2’, 8 – 8’ и 9 – 9’), чтобы показать, что имеет место одна реплика, но начало ее «закрывает» предшествующий микротекст, а конец ее «открывает» последующий.
Две реплики: вторая часть реплики (2) – (2’) и (10) – выражены невербальными средствами, но легко понимаются и при желании могут быть вербализованы.
Стимулом большинства реплик является предшествующая реплика партнера по коммуникации.
В анализируемой ситуации конситуация остается практически неизменной в процессе коммуникативного акта, параметр времени в данном случае также оказывается релевантным, т. к. реплики следуют одна за другой, практически не прерываясь паузами. Итак, представим нашу таблицу в несколько редуцированном виде (см. табл. 1).
Схема 1. Структура анализируемого текста.
Предлагаемая методика позволяет определить психолингвистические характеристики анализируемого текста:
Помимо этого, наш анализ позволяет определить коммуникативное поведение участников коммуникации.
Психолингвистическими характеристиками приведенного текста являются:
В заключение отметим, что наши исследования показывают, что при наличии единого мотива, единой установки на осуществление совместной деятельности и при
осуществлении таковой коммуникантам удается «создать» единый текст. Если отсутствует единый мотив, но есть установка на осуществление совместной деятельности, текст может получиться. Однако при наличии единого мотива, но при отсутствии указанной установки и совместной деятельности о порождении коммуникантами единого текста (с какой бы ни было сложной или простой структурой) речь не идет.
Таким образом, если взглянуть на эту ситуацию с другой стороны, то можно сделать вывод о том, что если мы не имеем единого текста, как результата речемыслительной деятельности участников коммуникации, то это отсутствие значимо: у коммуникантов не было установки на совместную деятельность (единый мотив к осуществлению деятельности может также отсутствовать) или же участники коммуникации не смогли (в силу каких-либо причин) осуществить таковую.
В последнее время анализ текста привлекает все больше внимания в различных областях, таких как безопасность, коммерция, наука.
Многие пакеты анализа текста, такие как Aerotext и Attensity, нацелены на рынок приложений безопасности, в частности на анализ источников простого текста, например новостных сайтов.
Исследования и разработки подразделений крупных компаний, таких как IBM, Apple и Microsoft, исследуют технологии анализа текста с целью будущей автоматизации процессов анализа и извлечения данных.
1 Соотношение таких феноменов, как текст, логико-смысловой блок, коммуникативный акт, оговаривается нами особо в настоящей статье.
2 Мы не считаем текст языковым образованием, однако идея об обязательном наличии в тексте смысловой суперструктры нам достаточно близка. О том, что текст не представляет собой «текстему» как лингвистическую единицу и является единицей не языка, но речи, «элементом» системы коммуникации – см., например, [11; 14; 2].
3 ЛСБ некоторым (непрямым – sic!) образом соотносится с функционально-семантическим представлением (ФСП), который «отражает акт референтной привязки содержания текста к целевому (иллокутивному) акту», «отражает взаимодействие содержательной стороны текста с его функциональным
выражением» [16: 11]. Общим для данных феноменов (ФСП и ЛСБ) является «акт референтной привязки», однако мы говорим о некотором иллокутивном акте, но о фрагменте дискурса в его связи с ситуацией.
4 Сокращения, принятые в таблице: мТ – микротекст; МТ – макротекст; РД – речевое действие; в. – вербальная (реакция); нв. – невербальная; И – информация; О – ответ; В – вопрос; П – просьба; С – стереотип; сообщ.инф-ции – сообщение информации; эмоц.оценка – эмоциональная реакция-оценка на ситуацию; инф.на запрос – сообщение информации на запрос; стереотип. сопров. репл. – стереотипная реплика, сопровождающая невербальное действие; р-ция на инф-ю – реакция на информацию.
Если я не полностью рассказал про анализ текста? Напиши в комментариях Надеюсь, что теперь ты понял что такое анализ текста, обработка текста при извлечении информации, интеллектуальный анализ текстов, иат, text mining и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Моделирование мыслительных процессов на естественном языке и Символьное моделирование
Ответы на вопросы для самопроверки пишите в комментариях, мы проверим, или же задавайте свой вопрос по данной теме.
Комментарии
Оставить комментарий
Моделирование мыслительных процессов на естественном языке и Символьное моделирование
Термины: Моделирование мыслительных процессов на естественном языке и Символьное моделирование