Вам бонус- начислено 1 монета за дневную активность. Сейчас у вас 1 монета

Биграмма, коллокация и N-грамма суть и применения кратко

Лекция



Привет, Вы узнаете о том , что такое n-граммы, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое n-граммы, триграмма, биграмма, коллокация , настоятельно рекомендую прочитать все из категории Обработка естественного языка.

N-грамма — последовательность из n элементов . С семантической точки зрения, это может быть последовательность звуков, слогов, слов или букв. На практике чаще встречается N-грамма как ряд слов, устойчивые словосочетания называют коллокацией. Последовательность из двух последовательных элементов часто называют биграмма , последовательность из трех элементов называется триграмма . Не менее четырех и выше элементов обозначаются как N-грамма, N заменяется на количество последовательных элементов.

Биграмма - это комп. последовательность из двух элементов

Биграмма - это клингв. пара последовательных звуков, слогов, слов или букв

В современной компьютерной лингвистике биграммы, или в общем случае n-граммы , являются важным статистическим инструментом. В статье мы расскажем с какими трудностями можно столкнуться при расчете биграмм на большом корпусе текстов и приведем алгоритм, который можно использовать на любом домашнем компьютере.Иногда в тексте мы позволим себе использовать термин двусочетание в качестве синонима к слову биграмма.

Использование N-грамм

Общее использование N-грамм

N-граммы в целом находят свое применение в широкой области наук. Они могут применяться, например, в области теоретической математики, биологии, картографии, а также в музыке. Наиболее часто использование N-грамм включает следующие области:

  • извлечение данных для кластеризации серии спутниковых снимков Земли из космоса, чтобы затем решить, какие конкретные части Земли на изображении,
  • поиск генетических последовательностей,
  • в области генетики используются для определения того, с каких конкретных видов животных собраны образцы ДНК,
  • в компьютерном сжатии,
  • для индексирования данных в поисковых системах; с использованием N-грамм, как правило, индексированы данные, связанные со звуком.

Также N-граммы широко применяются в обработке естественного языка.

Биграмма, коллокация и N-грамма суть и применения

Использование N-грамм для нужд обработки естественного языка

В области обработки естественного языка N-граммы используется в основном для предугадывания на основе вероятностных моделей. N-граммная модель рассчитывает вероятность последнего слова N-граммы, если известны все предыдущие. При использовании этого подхода для моделирования языка предполагается, что появление каждого слова зависит только от предыдущих слов .

Другим применением N-грамм является выявление плагиата. Если разделить текст на несколько небольших фрагментов, представленных N-граммами, их легко сравнить друг с другом и таким образом получить степень сходства анализируемых документов . N-граммы часто успешно используются для категоризации текста и языка. Кроме того, их можно использовать для создания функций, которые позволяют получать знания из текстовых данных. Используя N-граммы, можно эффективно найти кандидатов, чтобы заменить слова с ошибками правописания.

Пример биграммной модели

Целью построения N-граммных моделей является определение вероятности употребления заданной фразы. Эту вероятность можно задать формально как вероятность возникновения последовательности слов в неком корпусе (наборе текстов). К примеру, вероятность фразы «счастье есть удовольствие без раскаяния» можно вычислить как произведение вероятностей каждого из слов этой фразы:

P = P(счастье) * P(есть|счастье) * P(удовольствие|счастье есть) * P(без|счастье есть удовольствие) * P(раскаяния|счастье есть удовольствие без)

Чтобы определить P(счастье), нужно посчитать, сколько раз это слово встретилось в тексте, и поделить это значение на общее число слов. Рассчитать вероятность P(раскаяния|счастье есть удовольствие без) сложнее. Чтобы упростить эту задачу, примем, что вероятность слова в тексте зависит только от предыдущего слова. Об этом говорит сайт https://intellect.icu . Тогда наша формула для расчета фразы примет следующий вид:

P = P(счастье) * P(есть|счастье) * P(удовольствие|есть) * P(без|удовольствие) * P(раскаяния|без)

Рассчитать условную вероятность P(есть|счастье) несложно. Для этого считаем количество пар 'счастье есть', и делим на количество в тексте слова 'счастье'.

В результате, если мы посчитаем все пары слов в некотором тексте, мы сможем вычислить вероятность произвольной фразы. Этот набор рассчитанных вероятностей и будет биграммной моделью.

Научно-исследовательские проекты Google

Исследовательские центры Google использовали N-граммные модели для широкого круга исследований и разработок. К ним относятся такие проекты, как статистический перевод с одного языка на другой, распознавание речи, исправление орфографических ошибок, извлечение информации и многое другое. Для целей этих проектов были использованы текстовые корпусы, содержащие несколько триллионов слов.

Google решила создать свой учебный корпус. Проект называется Google teracorpus и он содержит 1 * 10^12 слов, собранных с общедоступных веб-сайтов .

Методы для извлечения N-грамм

В связи с частым использованием N-грамм для решения различных задач необходим надежный и быстрый алгоритм для извлечения их из текста. Подходящий инструмент для извлечения N-грамм должен быть в состоянии работать с неограниченным размером текста, работать быстро и эффективно использовать имеющиеся ресурсы. Есть несколько методов извлечения N-грамм из текста. Эти методы основаны на разных принципах:

  • Алгоритм Nagao 94 для текстов на японском
  • Алгоритм Лемпеля — Зива — Велча
  • Суффиксный массив
  • Суффиксное дерево
  • Инвертированный индекс

Синтаксические N-граммы

Синтаксические N-граммы — это N-граммы, определяемые путями в деревьях синтаксических зависимостей или деревьях составляющих, а не линейной структурой текста . Например, предложение: «Экономические новости оказывают незначительное влияние на финансовые рынки» может быть преобразовано в синтаксические N-граммы, следуя древовидной структуре его отношений зависимостей: новости-экономические, влияние-незначительное, влияние-на-рынки-финансовые и другие .

Синтаксические N-граммы отражают синтаксическую структуру в отличие от линейных N-грамм и могут использоваться в тех же приложениях, что и линейные N-граммы, в том числе в качестве признаков в векторной модели. Применение синтаксических N-грамм дает лучшие результаты при решении определенных задач, чем использование стандартных N-грамм, например, для определения авторства

Применение N грамов

Биграмма, коллокация и N-грамма суть и применения

Биграмма, коллокация и N-грамма суть и применения

Биграмма, коллокация и N-грамма суть и применения

Пример

Биграмма, коллокация и N-грамма суть и применения

Биграмма, коллокация и N-грамма суть и применения

Биграмма, коллокация и N-грамма суть и применения

коллокация

Коллокацией называется словосочетание, имеющее признаки синтаксически и семантически целостной единицы, в котором выбор одного из компонентов осуществляется по смыслу, а выбор второго зависит от выбора первого (например, ставить условия — выбор глагола ставить определяется традицией и зависит от существительного условия, при слове предложение будет другой глагол — вносить).

К коллокациям также обычно причисляют составные топонимы, антропонимы и другие часто совместно употребляемые именования (например, крейсер «Аврора», завод имени Кирова).

Другое наименование того же явления — устойчивые, или фразеологические словосочетания, N-граммы.

Статистический подход Коллокация – это привычное, традиционное сочетание слов в речи, звучащее правильно, естественно для носителей языка. Характерные, часто встречающиеся сочетания слов, появление которых рядом друг с другом основывается на регулярном характере взаимного ожидания. Показатель: частота совместной встречаемости

Биграмма, коллокация и N-грамма суть и применения

6 Меры ассоциации Показатели силы синтагматической связи между элементами словосочетаний. Исходные данные: частота совместной встречаемости, частоты слов или словоформ (node – ключевое слово, collocate – слово, встречающееся слева или справа от ключевого, коллокат). Меры ассоциации: MI (mutual information), t- score, z-score, log-likelihood, Odds, Dice, X 2 … (см. Корпуса как источники достоверных данных о частотах.

Биграмма, коллокация и N-грамма суть и применения Биграмма, коллокация и N-грамма суть и применения

ПримерыБиграмма, коллокация и N-грамма суть и применения

Биграмма, коллокация и N-грамма суть и применения

Свойства

В отличие от идиом (подложить свинью, темна вода в облацех и т. п.) коллокации широко распространены, без них невозможно говорить по-русски.

Слово, которое сохраняет свое значение, называется ключевым, или свободным компонентом: слово влияние в оказывать влияние, слово смысл в сочетании глубокий смысл. Свободный компонент порождается по обычным правилам порождения речи: подбирается по значению в зависимости от выражаемого смысла.

Слово, выбор которого определяется традицией, зависит от ключевого компонента и должен храниться в памяти (в словаре), называется несвободным компонентом. Для того, чтобы выбрать правильный глагол при слове влияние, необходимо не только представлять, какой смысл нужно выразить (смысл «делать»), но и помнить (или узнать из словаря), что это глагол оказывать, а не делать, не производить, не создавать.

Большая часть коллокаций выражает ограниченное количество стандартных смыслов, названных в модели «Смысл — Текст» лексическими функциями: оказывать влияние — это функция Oper, глубокое потрясение — Magn и т. п.

Классификация коллокаций

Коллокации по синтаксически главному слову делятся на:

  • глагольные (оказать влияние, внести изменения, идет дождь);
  • именные (высокая температура, рост влияния).

Коллокации также могут классифицироваться в зависимости от функционального стиля, в котором они употребляются. Большинство коллокаций — книжные: научные (вести исследования), официально-деловые (выносить приговор), газетно-публицистические (энтузиазм охватил). Но есть и разговорные (нести ерунду, молоть чушь).

По лексическому составу коллокации делятся на :

  • Несоставные
  • Незаменяемые
  • Неизменяемые

У несоставных коллокаций смысл полностью отличается от ее составных частей. Это, как правило, идиомы и идиоматические выражения. Например, дать дуба, наставить рога и пр.

Незаменяемые коллокации не допускают синонимическую замену одного слова другим. В этот класс входят устойчивые обороты и метафоры. Например, белое вино нельзя заменить на прозрачное вино или желтое вино и пр.

Неизменяемые коллокации содержат жесткие связи между словами, не разрешающие их изменять с помощью дополнительной лексики или замены грамматической функции. Например, сердце в пятки не заменить на сердце в пятку, а (ходить) вокруг да около — на (ходить) вокруг дома да около.

Еще одна классификация коллокаций — на разрывные и неразрывные. В разрывные коллокации могут попадать второстепенные слова (жизнь кипит и жизнь его кипит, жизнь его постоянно кипит и пр.).

Методы Коллокации

Коллокации выявляются при лексическом анализе текста. Статистические методы, отмечающие частоту совместного употребления, могут помочь их обнаружить в весьма малой степени. Некоторые статистические методы получения коллокаций:

  • Частотные методы (обычно используются с частеречным фильтром англ. POS-filter)
  • Подсчет среднего значения и дисперсии (для поиска разрывных коллокаций)
  • C-value — показывает устойчивость коллокаций
  • Методы, основанные на теореме Байеса.
  • Т-критерий (или критерий Стьюдента)
  • Критерий Хи-квадрат
  • Метод отношения правдоподобия
  • Взаимная информация (MI & PMI)

Применение коллокации

Биграмма, коллокация и N-грамма суть и применения

Вау!! 😲 Ты еще не читал? Это зря!

  • Когезия (лингвистика)
  • коллигации

Исследование, описанное в статье про n-граммы, подчеркивает ее значимость в современном мире. Надеюсь, что теперь ты понял что такое n-граммы, триграмма, биграмма, коллокация и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Обработка естественного языка

создано: 2020-10-10
обновлено: 2021-11-27
132265



Рейтиг 9 of 10. count vote: 2
Вы довольны ?:


Найди готовое или заработай

С нашими удобными сервисами без комиссии*

Как это работает? | Узнать цену?

Найти исполнителя
$0 / весь год.
  • У вас есть задание, но нет времени его делать
  • Вы хотите найти профессионала для выплнения задания
  • Возможно примерение функции гаранта на сделку
  • Приорететная поддержка
  • идеально подходит для студентов, у которых нет времени для решения заданий
Готовое решение
$0 / весь год.
  • Вы можите продать(исполнителем) или купить(заказчиком) готовое решение
  • Вам предоставят готовое решение
  • Будет предоставлено в минимальные сроки т.к. задание уже готовое
  • Вы получите базовую гарантию 8 дней
  • Вы можете заработать на материалах
  • подходит как для студентов так и для преподавателей
Я исполнитель
$0 / весь год.
  • Вы профессионал своего дела
  • У вас есть опыт и желание зарабатывать
  • Вы хотите помочь в решении задач или написании работ
  • Возможно примерение функции гаранта на сделку
  • подходит для опытных студентов так и для преподавателей



Комментарии


Оставить комментарий
Если у вас есть какое-либо предложение, идея, благодарность или комментарий, не стесняйтесь писать. Мы очень ценим отзывы и рады услышать ваше мнение.
To reply

Обработка естественного языка

Термины: Обработка естественного языка