Вам бонус- начислено 1 монета за дневную активность. Сейчас у вас 1 монета

Статистические техники для анализа естественного языка

Лекция



Привет, Вы узнаете о том , что такое статистические техники для анализа естественного языка, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое статистические техники для анализа естественного языка , настоятельно рекомендую прочитать все из категории Создание вопросно-ответных систем.

   Пример                           

l The dog ate.

 

Статистические техники для анализа естественного языка

   Проблема                      

l Salespeople sold the dog biscuits.

Статистические техники для анализа естественного языка

 

Принцип выбора части речи

 

Статистические техники для анализа естественного языка

Эффективность              

l  Тупой – 90%

l  Современные – 97%

l  Человек – 98%

Скрытые модели Маркова                           

Статистические техники для анализа естественного языка

Другой подход (transformational tagging)

l  Применяем тупой алгоритм.

l  Есть набор правил:

l  Поменять у слова таг X на таг Y, если таг предыдущего слова – Z.

l  Применяем эти правила сколько-то раз.

l  Работают быстрее

l  Тренировка HMM vs. Тренировка TT

(Отсутствие начальной базы)

 

Treebank                         

l  Строим на основе предложения деревья, пользуясь существующими грамматическими правилами.

l  Пример:

(s (np (det The) (noun stranger))

(vp (verb ate)

(np (det the) (noun doughnut)

(pp (prep with) (np (det a) (noun fork)))))

Собственный Statistical Parser

l  Проверка

l  Есть готовые примеры из Pen treebank l Сравниваем с ними

l  Нахождение правил для применения

l  Назначение вероятностей правилам

l  Нахождение наиболее вероятного

PCFG (Probabilistic contextfree grammars)

l sp → np vp         

(1.0)

l vp → verb np     

(0.8)

l vp → verb np np

(0.2)

l np → det noun   

(0.5)

l np → noun

(0.3)

l np → det noun noun

(0.15)

l np → np np

(0.05)

Считаем вероятность построенного дерева

 Статистические техники для анализа естественного языка
 

Построение собственной PCFG. Об этом говорит сайт https://intellect.icu . Простой вариант.

l  Берем готовый Pen treebank

l  Считываем из него все деревья l Читаем по каждому дереву

l  Добавляем каждое новое правило

l  P(правило) = количество его вхождений, деленное на общее количество

Two state-of-the-art statistical parsers. Markov grammars

l    Решают проблему существования очень редких правил

l    Идея – вместо хранения правил, считаем вероятности того, что, например 

lnp = prep + …
 
Статистические техники для анализа естественного языка
 

Lexicalized parsing p(s,) p(h(c)m(c),t(c)) p(r(c)h(c))

c

l  Каждой вершине дерева припишем слово (head), характеризующее ее.

l  p(r | h) – вероятность того, что будет применено правило r для узла с заданным h.

l  p(h | m, t) – вероятность того, что такой h является ребенком вершины с head = m и имеет таг t.

                Lexicalized parsing       

l  Пример

(S (NP The (ADJP most troublesome) report)

(VP may

(VP be

(NP (NP the August merchandise trade deficit)

(ADJP due (ADVP out) (NP tomorrow)))))

l  p(h | m, t) = p(be | may, vp)

l  p(r | h) = p(posvp → aux np | be)

                Lexicalized parsing       

l  “the August merchandise trade deficit”

l  rule = np → det propernoun noun noun noun

Conditioning events

p(“August”)

p(rule)

Nothing

2.7*10^(-4)

3.8*10^(-5)

Part of speech

2.8*10^(-3)

9.4*10^(-5)

h(c) = “deficit”

1.9*10^(-1)

6.3*10^(-3)

 

 

 

 

 

 

 

 

В заключение, эта статья об статистические техники для анализа естественного языка подчеркивает важность того что вы тут, расширяете ваше сознание, знания, навыки и умения. Надеюсь, что теперь ты понял что такое статистические техники для анализа естественного языка и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Создание вопросно-ответных систем

Из статьи мы узнали кратко, но содержательно про статистические техники для анализа естественного языка
создано: 2016-03-11
обновлено: 2021-03-13
132391



Рейтиг 9 of 10. count vote: 2
Вы довольны ?:


Поделиться:

Найди готовое или заработай

С нашими удобными сервисами без комиссии*

Как это работает? | Узнать цену?

Найти исполнителя
$0 / весь год.
  • У вас есть задание, но нет времени его делать
  • Вы хотите найти профессионала для выплнения задания
  • Возможно примерение функции гаранта на сделку
  • Приорететная поддержка
  • идеально подходит для студентов, у которых нет времени для решения заданий
Готовое решение
$0 / весь год.
  • Вы можите продать(исполнителем) или купить(заказчиком) готовое решение
  • Вам предоставят готовое решение
  • Будет предоставлено в минимальные сроки т.к. задание уже готовое
  • Вы получите базовую гарантию 8 дней
  • Вы можете заработать на материалах
  • подходит как для студентов так и для преподавателей
Я исполнитель
$0 / весь год.
  • Вы профессионал своего дела
  • У вас есть опыт и желание зарабатывать
  • Вы хотите помочь в решении задач или написании работ
  • Возможно примерение функции гаранта на сделку
  • подходит для опытных студентов так и для преподавателей



Комментарии


Оставить комментарий
Если у вас есть какое-либо предложение, идея, благодарность или комментарий, не стесняйтесь писать. Мы очень ценим отзывы и рады услышать ваше мнение.
To reply

Создание вопросно-ответных систем

Термины: Создание вопросно-ответных систем