Лекция
Привет, Вы узнаете о том , что такое статистические техники для анализа естественного языка, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое статистические техники для анализа естественного языка , настоятельно рекомендую прочитать все из категории Создание вопросно-ответных систем.
l The dog ate.
l Salespeople sold the dog biscuits.
l Тупой – 90%
l Современные – 97%
l Человек – 98%
l Применяем тупой алгоритм.
l Поменять у слова таг X на таг Y, если таг предыдущего слова – Z.
l Применяем эти правила сколько-то раз.
l Работают быстрее
l Тренировка HMM vs. Тренировка TT
(Отсутствие начальной базы)
l Строим на основе предложения деревья, пользуясь существующими грамматическими правилами.
(s (np (det The) (noun stranger))
(vp (verb ate)
(np (det the) (noun doughnut)
(pp (prep with) (np (det a) (noun fork)))))
l Проверка
l Есть готовые примеры из Pen treebank l Сравниваем с ними
l Нахождение правил для применения
l Назначение вероятностей правилам
l Нахождение наиболее вероятного
l sp → np vp |
(1.0) |
l vp → verb np |
(0.8) |
l vp → verb np np |
(0.2) |
l np → det noun |
(0.5) |
l np → noun |
(0.3) |
l np → det noun noun |
(0.15) |
l np → np np |
(0.05) |
Построение собственной PCFG. Об этом говорит сайт https://intellect.icu . Простой вариант.
l Берем готовый Pen treebank
l Считываем из него все деревья l Читаем по каждому дереву
l Добавляем каждое новое правило
l P(правило) = количество его вхождений, деленное на общее количество
l Решают проблему существования очень редких правил
l Идея – вместо хранения правил, считаем вероятности того, что, например
c
l Каждой вершине дерева припишем слово (head), характеризующее ее.
l p(r | h) – вероятность того, что будет применено правило r для узла с заданным h.
l p(h | m, t) – вероятность того, что такой h является ребенком вершины с head = m и имеет таг t.
l Пример
(S (NP The (ADJP most troublesome) report)
(VP may
(VP be
(NP (NP the August merchandise trade deficit)
(ADJP due (ADVP out) (NP tomorrow)))))
l p(h | m, t) = p(be | may, vp)
l p(r | h) = p(posvp → aux np | be)
l “the August merchandise trade deficit”
l rule = np → det propernoun noun noun noun
Conditioning events |
p(“August”) |
p(rule) |
Nothing |
2.7*10^(-4) |
3.8*10^(-5) |
Part of speech |
2.8*10^(-3) |
9.4*10^(-5) |
h(c) = “deficit” |
1.9*10^(-1) |
6.3*10^(-3)
|
В заключение, эта статья об статистические техники для анализа естественного языка подчеркивает важность того что вы тут, расширяете ваше сознание, знания, навыки и умения. Надеюсь, что теперь ты понял что такое статистические техники для анализа естественного языка и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Создание вопросно-ответных систем
Из статьи мы узнали кратко, но содержательно про статистические техники для анализа естественного языка
Комментарии
Оставить комментарий
Создание вопросно-ответных систем
Термины: Создание вопросно-ответных систем