Вам бонус- начислено 1 монета за дневную активность. Сейчас у вас 1 монета

6.4 Оценка информации в тексте

Лекция



Привет, Вы узнаете о том , что такое оценка информации в тексте, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое оценка информации в тексте , настоятельно рекомендую прочитать все из категории Синергетика.

Предполагается проделать следующий опыт. На 32 карточках выписать все буквы русского алфавита. После тщательного перемешивания карт их извлекают наугад, записывают букву, возвращают карту в коробку, снова перемешивают, извлекают карту, записывают букву и т.д. Проделав такую процедуру 30-40 раз, получим набор букв. Математик Р. Добрушин в результате такого эксперимента получил набор букв, приведенный в первой строке табл. 1.



Таблица 1

Фразы
Фраза
Условия получения фразы
1
СУХЕРРОБЬДЩ ЯЫХВУИ
ЮАЙЖТЛФВНЗАГФО
ЕНВШТУР ПХГБКУЧТЖЮ
РЯМЧЬЙХРЫС
Равная вероятность
всех букв алфавита и
интервала между словами
2
ЕЫНТ УИЯБЬА ОЕРВ ОДНГ
ЬУЕМЛОЛЙКЗБЯ ЕВНТША
Учтены вероятности отдельных букв и пробелов между словами
3
ВЕСЕЛ ВРАТЬСЯ НЕ СУХОМ
И НЕПО И КОРКО
Учтены вероятности
4-х буквенных сочетаний
4
ТЕОРИЯ ИНФОРМАЦИИ
ПОЗВОЛЯЕТ ИЗУЧИТЬ
ЭТО СВОЙСТВО РЕАЛЬНЫХ
Соблюдены реальные
вероятности сочетания всех букв


Чередование букв беспорядочно, хаотично. Энтропия текста велика. По предложенной методике вероятность извлечения любой из букв одинакова, т. е.

WA = WБ = ... =WЯ = 1/32

Вероятность извлечения пустой карточки (промежуток между словами) также равна 1/32: на 32 буквы выпадает один интервал.

Энтропия появления каждой следующей буквы в тексте подсчитывается по формуле Шеннона

6.4 Оценка информации в тексте .

Если вероятности появления букв одинаковы WА = WБ = ... Об этом говорит сайт https://intellect.icu . = WЯ, то получаем энтропию I~5 бит.

В реальных текстах частота появления каждой буквы и интервалы различны. В табл. 2 приведены частоты Wi букв в русском языке. Из-за неодинаковой вероятности появления различных букв в реальных текстах их энтропия меньше, чем в первом опыте. Во втором опыте в коробку помещается уже не 32 карточки, а больше: число карточек пропорционально вероятностям появления букв. Например, на 1 карточку с буквой Ф (WФ = 0,002) приходится 45 карточек с буквой О (WО = 0,090). Затем, как и в первом опыте, идет вытаскивание и возвращение карточек. В результате появляется фраза 2 (табл. 1), которая более упорядочена.



Таблица 2

Частота букв Wi в русском языке
Пробел 0,175
Р 0,040
Я 0,018
Х 0,009
О 0,090
В 0,038
Ы 0,016
Ж 0,007
Е,Ё 0,072
Л 0035
З 0,016
Ю 0,006
А 0,062
К 0,028
Ь,Ъ 0,014
Ш 0,006
И 0,062
М 0,026
Б 0,014
Ц 0,003
Т 0,053
Д 0,025
Г 0,013
Щ 0,003
Н 0,053
Г 0,023
Ч 0,012
Э 0,003
С 0,045
У 0,021
Й 0,010
Ф 0,002


Во-первых, из текста исчезли несуразно длинные слова.

Во-вторых, во фразе 2 гласные и согласные чередуются более равномерно, но, тем не менее, не все можно даже прочитать, не говоря уже о смысле.

Подставим в формулу Шеннона вероятность появления отдельных букв

I1 = - 0,175 log20,175 - 0,090 log20,090 - ... - 0,002 log20,002 = 4,35 бит.

Количество информации в сообщении, приходящейся на одну букву, уменьшилось, с 5 до 4,35 бит, т. к. мы располагаем сведениями о частотах встречаемости букв.

Но в языке существует частотный словарь, где учтены не только частоты отдельных букв, но и их сочетаний (парных, тройных и т. д.). Если учесть вероятность 4-х буквенных сочетаний в русском тексте, то получим фразу 3 (табл. 1).

По мере учета все более протяженных корреляций возрастает сходство полученных "текстов" с русским языком, но до смысла все еще далеко

Прочтение данной статьи про оценка информации в тексте позволяет сделать вывод о значимости данной информации для обеспечения качества и оптимальности процессов. Надеюсь, что теперь ты понял что такое оценка информации в тексте и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Синергетика

Из статьи мы узнали кратко, но содержательно про оценка информации в тексте
создано: 2016-12-17
обновлено: 2021-03-13
58



Рейтиг 9 of 10. count vote: 2
Вы довольны ?:


Поделиться:

Найди готовое или заработай

С нашими удобными сервисами без комиссии*

Как это работает? | Узнать цену?

Найти исполнителя
$0 / весь год.
  • У вас есть задание, но нет времени его делать
  • Вы хотите найти профессионала для выплнения задания
  • Возможно примерение функции гаранта на сделку
  • Приорететная поддержка
  • идеально подходит для студентов, у которых нет времени для решения заданий
Готовое решение
$0 / весь год.
  • Вы можите продать(исполнителем) или купить(заказчиком) готовое решение
  • Вам предоставят готовое решение
  • Будет предоставлено в минимальные сроки т.к. задание уже готовое
  • Вы получите базовую гарантию 8 дней
  • Вы можете заработать на материалах
  • подходит как для студентов так и для преподавателей
Я исполнитель
$0 / весь год.
  • Вы профессионал своего дела
  • У вас есть опыт и желание зарабатывать
  • Вы хотите помочь в решении задач или написании работ
  • Возможно примерение функции гаранта на сделку
  • подходит для опытных студентов так и для преподавателей

Комментарии


Оставить комментарий
Если у вас есть какое-либо предложение, идея, благодарность или комментарий, не стесняйтесь писать. Мы очень ценим отзывы и рады услышать ваше мнение.
To reply

Синергетика

Термины: Синергетика