Статистические техники для анализа естественного языка

Лекция

Hungry Weevils

Game: Perform tasks and rest cool.7 people play!

Привет, Вы узнаете о том , что такое статистические техники для анализа естественного языка, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое статистические техники для анализа естественного языка , настоятельно рекомендую прочитать все из категории Создание вопросно-ответных систем.

Пример

l The dog ate.

Статистические техники для анализа естественного языка

Проблема

l Salespeople sold the dog biscuits.

Статистические техники для анализа естественного языка

Принцип выбора части речи

Статистические техники для анализа естественного языка

Эффективность

l Тупой – 90%

l Современные – 97%

l Человек – 98%

Скрытые модели Маркова

Статистические техники для анализа естественного языка

Другой подход (transformational tagging)

l Применяем тупой алгоритм.

Hungry Weevils

Game: Perform tasks and rest cool.7 people play!

Play game

l Есть набор правил:

l Поменять у слова таг X на таг Y, если таг предыдущего слова – Z.

l Применяем эти правила сколько-то раз.

l Работают быстрее

l Тренировка HMM vs. Тренировка TT

(Отсутствие начальной базы)

Treebank

l Строим на основе предложения деревья, пользуясь существующими грамматическими правилами.

Hungry Weevils

Game: Perform tasks and rest cool.7 people play!

Play game

l Пример:

(s (np (det The) (noun stranger))

(vp (verb ate)

(np (det the) (noun doughnut)

(pp (prep with) (np (det a) (noun fork)))))

Собственный Statistical Parser

l Проверка

l Есть готовые примеры из Pen treebank l Сравниваем с ними

l Нахождение правил для применения

l Назначение вероятностей правилам

l Нахождение наиболее вероятного

PCFG (Probabilistic contextfree grammars)

l sp → np vp	(1.0)
l vp → verb np	(0.8)
l vp → verb np np	(0.2)
l np → det noun	(0.5)
l np → noun	(0.3)
l np → det noun noun	(0.15)
l np → np np	(0.05)

Hungry Weevils

Game: Perform tasks and rest cool.7 people play!

Play game

Считаем вероятность построенного дерева

Статистические техники для анализа естественного языка

Hungry Weevils

Game: Perform tasks and rest cool.7 people play!

Play game

Построение собственной PCFG. Об этом говорит сайт https://intellect.icu . Простой вариант.

l Берем готовый Pen treebank

l Считываем из него все деревья l Читаем по каждому дереву

l Добавляем каждое новое правило

l P(правило) = количество его вхождений, деленное на общее количество

Two state-of-the-art statistical parsers. Markov grammars

l Решают проблему существования очень редких правил

l Идея – вместо хранения правил, считаем вероятности того, что, например

lnp = prep + …

Lexicalized parsing p(s,) p(h(c)m(c),t(c)) p(r(c)h(c))

l Каждой вершине дерева припишем слово (head), характеризующее ее.

l p(r | h) – вероятность того, что будет применено правило r для узла с заданным h.

l p(h | m, t) – вероятность того, что такой h является ребенком вершины с head = m и имеет таг t.

Lexicalized parsing

l Пример

(S (NP The (ADJP most troublesome) report)

(VP may

(VP be

(NP (NP the August merchandise trade deficit)

(ADJP due (ADVP out) (NP tomorrow)))))

l p(h | m, t) = p(be | may, vp)

l p(r | h) = p(posvp → aux np | be)

Lexicalized parsing

l “the August merchandise trade deficit”

l rule = np → det propernoun noun noun noun

Conditioning events	p(“August”)	p(rule)
Nothing	2.7*10^(-4)	3.8*10^(-5)
Part of speech	2.8*10^(-3)	9.4*10^(-5)
h(c) = “deficit”	1.9*10^(-1)	6.3*10^(-3)

Hungry Weevils

Game: Perform tasks and rest cool.7 people play!

Play game

В заключение, эта статья об статистические техники для анализа естественного языка подчеркивает важность того что вы тут, расширяете ваше сознание, знания, навыки и умения. Надеюсь, что теперь ты понял что такое статистические техники для анализа естественного языка и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Создание вопросно-ответных систем

Из статьи мы узнали кратко, но содержательно про статистические техники для анализа естественного языка

Статистические техники для анализа естественного языка

Hungry Weevils

Пример

Проблема

Принцип выбора части речи

Эффективность

Скрытые модели Маркова

Другой подход (transformational tagging)

Hungry Weevils

Treebank

Hungry Weevils

Собственный Statistical Parser

PCFG (Probabilistic contextfree grammars)

Hungry Weevils

Считаем вероятность построенного дерева

Hungry Weevils

Two state-of-the-art statistical parsers. Markov grammars

Lexicalized parsing p(s,) p(h(c)m(c),t(c)) p(r(c)h(c))

Lexicalized parsing

Lexicalized parsing

Hungry Weevils

Комментарии

Оставить комментарий

Создание вопросно-ответных систем

Термины: Создание вопросно-ответных систем

Статистические техники для анализа естественного языка

Hungry Weevils

Пример

Проблема

Принцип выбора части речи

Эффективность

Скрытые модели Маркова

Другой подход (transformational tagging)

Hungry Weevils

Treebank

Hungry Weevils

Собственный Statistical Parser

PCFG (Probabilistic contextfree grammars)

Hungry Weevils

Считаем вероятность построенного дерева

Hungry Weevils

Two state-of-the-art statistical parsers. Markov grammars

Lexicalized parsing p(s,) p(h(c)m(c),t(c)) p(r(c)h(c))

Lexicalized parsing

Lexicalized parsing

Hungry Weevils

Комментарии

Оставить комментарий

Создание вопросно-ответных систем

Термины: Создание вопросно-ответных систем

🍪 Accept Cookies and Privacy Policy?

Customize cookies