Фиксация и обработка статистических результатов

Лекция

Привет, сегодня поговорим про фиксация, обещаю рассказать все что знаю. Для того чтобы лучше понимать что такое фиксация, обработка статистических результатов , настоятельно рекомендую прочитать все из категории Моделирование и Моделирование систем.

В лекции 21 мы подробно познакомились со схемой статистического компьютерного эксперимента. В лекциях 21—26 мы рассмотрели практическую реализацию всех основных блоков (см. рис. 21.3) этой схемы. Сейчас важно научиться организовывать работу последних двух блоков — блок вычисления статистических характеристик (БВСХ) и блок оценки достоверности статистических результатов (БОД).

Итак, рассмотрим, как следует фиксировать статистические величины в результате эксперимента, чтобы получить надежную информацию о свойствах моделируемого объекта. Напомним, что обобщенными характеристиками случайного процесса или явления являются средние величины.

Вычисление средних

Вычисление средних величин во время эксперимента, который многократно повторяется, а результат его усредняется, может быть организовано несколькими способами:

вся статистика вычисляется в конце;
вся статистика вычисляется в процессе вычисления (по рекурсивным соотношениям);
вся статистика вычисляется в классовых интервалах (этот метод совмещает универсальность первого метода и экономичность второго).

Способ 1. Вычисление всей статистики в конце. Для этого в процессе эксперимента значенияX_i выходной (изучаемой) случайной величины X накапливается в массиве данных. После окончания эксперимента подсчитывается математическое ожидание (среднее) X и дисперсия D (характерный разброс величин относительно этого математического ожидания).

Фиксация и обработка статистических результатов

Часто используют среднеквадратичное отклонение σ = sqrt(D).

Заметим, что недостатком метода является неэффективное использование памяти, так как приходится накапливать и сохранять большое количество значений выходной величины в течение всего эксперимента, который может быть весьма продолжительным.

Второй минус заключается в том, что приходится дважды считывать массив X_i, так как воспользоваться формулой (2) в том виде, как она здесь записана, мы можем, только просчитав формулу (1) (от 1 до n), а потом еще раз прогнав для формулы (2) массив X_i.

Положительным моментом является сохранение всего массива данных, что дает возможность более подробного его изучения в дальнейшем при необходимости расследования тех или иных эффектов и результатов.

Способ 2. Вычисление всей статистики в процессе вычисления (по рекурсивным соотношениям). Этот способ предусматривает возможность хранить только текущее значение математического ожидания X_i и дисперсии D_i, подправляемое на каждой итерации. Это избавляет нас от необходимости постоянного хранения всего массива экспериментальных данных. Каждое новое данное X_i учитывается в сумме с весовым коэффициентом — чем более слагаемых i накоплено в суммеX_i, тем более ее значение важно по отношению к очередной поправке X_i, поэтому соотношение весовых коэффициентов i/(i + 1) : 1/(i + 1).

Фиксация и обработка статистических результатов

где X_i — очередное значение экспериментальной выходной величины.

Способ 3. Вычисление всей статистики в классовых интервалах. Этот способ предполагает, что в массив будут накапливать не все значения X_i, а только по значимым интервалам, в которых распределена случайная выходная величина X_i. Общий интервал изменения X_i разбивается на mподинтервалов, в каждом из которых фиксируется количество n_i, которое показывает, сколько раз X_iприняло значение из i-го интервала. При небольшом количестве интервалов (m ≈ 1) мы получаем способ 1, при количестве интервалов m = n мы получаем способ 2. В случае 1 < m < n получаем среднее решение — компромисс между занимаемой памятью и информативностью массива выходных данных.

Фиксация и обработка статистических результатов

Вычисление геометрии распределения

Еще более информативным является вычисление геометрии распределения случайной величины. Оно необходимо для того, чтобы представить себе более точно характер распределения. Известно, что по значению статистического момента можно приблизительно судить о геометрическом виде распределения.

Первый момент (или среднее арифметическое) вычисляется так:

Фиксация и обработка статистических результатов

Если A принимает значение 0, то первый момент называется начальным моментом, если Aпринимает значение X, то первый момент называется центральным. (В принципе A может быть любым числом, задаваемым исследователем.)

На практике принято использовать не сам первый момент, а нормированную его величинуR₁ = m₁/σ¹.

Первый момент указывает на центр тяжести в геометрии распределения, см. рис. 34.1.

Фиксация и обработка статистических результатов

Рис. 34.1. Характерное положение первого момента
на графике распределения статистической величины

Второй момент (или дисперсия, разброс) вычисляется так:

Фиксация и обработка статистических результатов

Вы знакомы с понятием среднеквадратичного отклонения, связанным со вторым моментом:

Фиксация и обработка статистических результатов

На практике принято использовать не сам второй момент, а нормированную его величинуR₂ = m₂/σ².

Дисперсия характеризует величину разброса экспериментальных данных относительно центра тяжести m₁. Таким образом, по величине m₂ можно судить о втором параметре геометрии распределения (см. рис. 34.2).

Рис. 34.2. Характерное изменение вида распределения статистической
величины в зависимости от величины второго момента

Третий момент характеризует асимметрию (или скошенность) (см. рис. 34.3) вычисляется так:

Фиксация и обработка статистических результатов

На практике принято использовать не сам второй момент, а нормированную его величинуR₃ = m₃/σ³.

Рис. 34.3. Характерное изменение вида распределения статистической
величины в зависимости от величины третьего момента

Определяя знак R₃, можно определить, есть ли асимметрия у распределения (см. рис. 34.3), а если есть (R₃ ≠ 0), то в какую сторону.

Четвертый момент (см. рис. 34.4) характеризует эксцесс (или островершинность) и вычисляется так:

Фиксация и обработка статистических результатов

Нормированный момент равен: R₄ = m₄/σ⁴.

Рис. 34.4. Характерное изменение вида распределения статистической
величины в зависимости от величины четвертого момента

Очень важным является выяснение того, на какое распределение более всего походит полученное экспериментальное распределение случайной величины. Оценка степени совпадения эмпирического закона распределения с теоретическим проводится в два этапа: определяют параметры экспериментального распределения и далее производят оценку по Колмогорову соответствия экспериментального распределения выбранному теоретическому.

Оценка (по Колмогорову) совпадения эмпирического закона распределения с теоретическим

Вычисляем моменты m₁, m₂, m₃, … Число моментов равно числу неизвестных в теоретическом законе распределения.
Прежде всего, так как оценка касается непрерывного распределения, а мы имеем дело с дискретным распределением, снятым экспериментально, то надо решить, на сколько интервалов надо разбить при дискретизации и то, и другое распределение.

Для этого рекомендуется пользоваться правилом Стерджеса, хорошо зарекомендовавшим себя на практике: K = 1 + log₂n = 1 + 3.322 · log₁₀n, где n — количество случайных значений (опытов),k — количество интервалов распределения.
Строится интегральный (см. рис. 34.5) закон для эмпирического распределения F(x) = P(x ≤ x_i).

Рис. 34.5. Интегральный закон эмпирического
распределения, дискретный вариант (пример)
В зависимости от числа экспериментов n и количества интервалов 1 ≤ i ≤ k можно посчитать число исходов в каждом из интервалов: N_i = P_i · n.
Далее следует рассчитать теоретическое распределение частоты: N_i^ТЕОР. = P_i · n. Если в качестве теоретического принять нормальный закон распределения, то можно сделать так:
где F — функция Лапласа, а параметры a и σ закона вычислены в п. 1.

Сравним полученные частоты: N_i^ТЕОР. и N_i во всех k интервалах (см. рис. 34.6) и выберем наибольшее отклонение экспериментального распределения от проверяемого теоретического:

Фиксация и обработка статистических результатов

Рис. 34.6. Сравнение теоретического и эмпирического
интегральных распределений случайной величины
(дискретный вариант)

Параметр Колмогорова λ характеризует отклонение теоретического распределения от экспериментального:

Далее, используя табл. 34.1 Колмогорова, следует принять или отвергнуть гипотезу о том, является ли эмпирическое распределение с заданной нами вероятностью Q теоретическим или нет. Для принятия гипотезы должно быть: λ < λ_табл..

Таблица 34.1.
Таблица критерия Колмогорова

Q	0.85	0.90	0.95	0.99
λ	1.14	1.22	1.36	1.63

Примечание. Критерий Колмогорова не единственный возможный к применению при оценивании; можно использовать критерий Хи-квадрат, критерий Андерсона-Дарлинга и другие.

Оценка точности статических характеристик

Крайне важным является вопрос, сколько экспериментов следует сделать, чтобы можно было доверять снятым характеристикам. Если экспериментов не достаточно, то характеристика недостоверна. Обычно исследователь задает доверительную вероятность, то есть вероятность, с которой он готов доверять снятым характеристикам. Чем больше будет задана доверительная вероятность, тем больше экспериментов потребуется сделать. Ранее мы пользовались и другими способами оценки требуемого количества экспериментов (см. лекцию 21, пример с монетой).

Итак, сейчас наша оценка будет основываться на центральной предельной теореме (см. лекцию 25, утверждающей, что сумма (или среднее) случайных величин есть величина неслучайная. ЦПТ утверждает, что значения вычисленной нами статистической характеристики будут распределены по нормальному закону, n_i — число i-ых исходов значения статистической характеристики в nэкспериментах, p_i = n_i/n — частота i-го исхода.

Если n –> ∞, то p –> P (частота p стремится к теоретической вероятности P) и эмпирические характеристики будут стремиться к теоретическим (см. рис. 34.7). Итак, согласно ЦПТ p будет распределена по нормальному закону c математическим ожиданием m и среднеквадратичным отклонением σ.

При этом m = P, σ =sqrt(p · (1 – p)/n).

Обозначим как Q доверительную вероятность, то есть вероятность того, что частота pотличается от вероятности P не более, чем на ε. Тогда по теореме Бернулли:

Фиксация и обработка статистических результатов

Величина ε называется доверительным интервалом. Смысл ε состоит в том, что в серии (каждая выборкой n) в среднем ε · 100% доверительных интервалов содержат истинное значение статистической характеристики p. Как и ранее (см. лекцию 25), F — интеграл от функции нормального закона распределения, интегральная функция Лапласа.

Рис. 34.7. Иллюстрация к вычислению количества экспериментов по величине
доверительного интервала согласно центральной предельной теореме

Отсюда можно выразить требуемое для доверительной вероятности количество экспериментов (F^–1 — обратная функция Лапласа):

Фиксация и обработка статистических результатов

Пример. При моделировании выпускаемой продукции предприятием в результате имитации его работы в течение 50 дней были получены следующие выходные данные (см. табл. 34.2).

Таблица 34.2.
Экспериментальные статистические данные моделирования

Качество изделия в баллах (случайное событие i)	1	2	3	4
Количество исходов (n_i)	15	10	5	20
Частость исхода (p_i = n_i/n)	0.3	0.2	0.1	0.4

То есть всего было проведено: 15 + 10 + 5 + 20 = 50 экспериментов (n = 50). Из таблицы экспериментов следует ответ задачи, что частость (вероятность) выпуска изделий 1 сорта равна 15/50, частость (вероятность) выпуска изделий 2 сорта равна 10/50, частость (вероятность) выпуска изделий 3 сорта равна 5/50, частость (вероятность) выпуска изделий 4 сорта равна 20/50.

Зададимся доверительной вероятностью к ответам модели Q = 0.9 и доверительным интерваломε = 0.05.

Теперь надо ответить на вопрос: можно ли доверять с вероятностью Q вычисленному ответу?

Будем оценивать результат статистических экспериментов по наихудшей вероятности, таковой в нашей задаче является p = 0.4, так как вероятность, например, 0.1 определена намного лучше.

Очень важное примечание. Вообще вероятности (частости) близкие к 0 или 1 весьма привлекательны в качестве ответа, так как вполне определяют решение. Вероятности близкие к 0.5 говорят о том, что ответ весьма неопределен, событие случится «50 на 50». Такой ответ удовлетворительным назвать сложно, он мало информативен.

Формула

Фиксация и обработка статистических результатов

после подстановки значений F^–1(0.9) = 1.65 (см. таблицу Лапласа), далее (F^–1(0.9))² = 2.7, p = 0.4,ε = 0.05 дает N = 0.4 · 0.6 · 2.7/0.05² или окончательно N = 250.

То есть наш эксперимент и его ответ недостоверен относительно заданных Q и ε: 50 экспериментов недостаточно для ответа, требуется 250. То есть надо продолжать эксперименты и еще провести 200 экспериментов, чтобы достичь требуемой точности.

Очень важное примечание. Формула использует себя рекуррентно. Сразу вычислить с ее помощью количество экспериментов n не удается. Чтобы вычислить n, надо провести пробную серию экспериментов, оценить значение искомой статистической характеристики p, подставить это значение в формулу и определить необходимой число экспериментов.

Для уверенности данную процедуру следует провести несколько раз при разных получаемых последовательно значениях n.

Итак, в блоке оценки достоверности (БОД) (см. лекцию 21) анализируют степень достоверности статистических экспериментальных данных, снятых с модели (принимая во внимание точность результата Q и ε, заданные пользователем) и определяют необходимое для этого количество статистических испытаний n.

При большом количестве опытов n частота появления события p, полученная экспериментальным путем, стремится к значению теоретической вероятности появления события P. Если колебания значений частоты появления событий относительно теоретической вероятности меньше заданной точности, то экспериментальную частоту принимают в качестве ответа, иначе генерацию случайных входных воздействий продолжают, и процесс моделирования повторяется. При малом числе испытаний результат может оказаться недостоверным. Но чем более испытаний, тем точнее ответ, согласно центральной предельной теореме. Количество требуемых экспериментов nданы для сравнения в табл. 34.3 и табл. 34.4 при различных комбинациях p и ε.

Таблица 34.3.
Количество экспериментов n, необходимых для
вычисления достоверного ответа с доверительной
вероятностью Q = 0.95, (F^–1(0.95))² = 3.84, p = 0.1

ε	0.001	0.005	0.010	0.050	0.100
Критическое количество экспериментов n	345600	13824	3456	138	35

Таблица 34.4.
Количество экспериментов n, необходимых для
вычисления достоверного ответа с доверительной
вероятностью Q = 0.95, (F^–1(0.95))² = 3.84, p = 0.5

ε	0.001	0.005	0.010	0.050	0.100
Критическое количество экспериментов n	960000	38400	9600	384	96

На рис. 34.8 отображен график зависимости n(ε) при Q = 0.95 и p = 0.5.

Рис. 34.8. Зависимость количества требуемых экспериментов
от величины доверительной вероятности ε и доверительного интервала Q
для случая частости выпадения случайного события p = 0.5

Важно: оценивание ведут по худшей из частот. Это обеспечивает достоверный результат сразу по всем снимаемым характеристикам модели.

Примечание. Следует иметь в виду, что данная оценка количества экспериментов по ЦПТ не единственная из существующих. Известны аналогичные близкие по смыслу оценки Бернулли, Муавра-Лапласа, Чебышева.

Как объяснить, почему так странно ведет себя кривая снятой экспериментально статистической характеристики (см. рис. 34.7 и рис. 34.8)? При большом n кривая крайне медленно подходит к истинному значению, хотя сначала (при малых n) процесс идет с большой скоростью — мы быстро входим в область приближенного ответа (большие ε), но медленно приближаемся к точному ответу (малые ε).

Например, допустим, что мы провели N испытаний. Выпадений события в этих испытаниях составило число N₁. Пусть вероятность выпадения события близка к N₁/N = 0.5 или N = N₁ · 2.

Допустим, что мы хотим провести еще одно испытание (N + 1)-е. Взяв ответ (частость N₁/N) приN за 100%, оценим, насколько процентов изменится ответ после следующего опыта? Составим пропорцию:

N₁/N — 100%
(N₁ + 1)/(N + 1) — X%

Отсюда имеем: X = (N₁ + 1) · 100 · N/(N₁ · (N + 1)), при N₁ = N/2 (вероятность 0.5) получаем, чтоX = 100 · (N + 2)/(N + 1).

И величина X образует ряд: 150%, 133%, 125%, 120%, …, 100.1%, …, … –> 100%. Значит, сначала улучшение ответа на один дополнительный эксперимент составило 50%, на 2 — 33%, на 3 — 25%, на 4 — 20%, …, на 100-м — всего на 0,1%.

Видно, что улучшение точности на каждый новый эксперимент (значения X) сначала очень хорошее, а затем — незначительное, после 100 экспериментов эта величина меняется всего на доли процента в расчете на один дополнительный эксперимент! Итог: изменение оценки, основанной на сумме, после серии опытов перестает сильно меняться!!!

Итоги. Важно.

В качестве ответа статистического эксперимента принимается частость p появления некоторого выходного события, которая является оценкой вероятности. Чем больше экспериментов n, тем ближе частость p к вероятности P, а экспериментальный ответ к теоретическому.
Частости p, близкие по значению к 0 или 1, более предпочтительны в смысле информативности, чем частости близкие к 0.5, которые мало информативны и дают максимально неопределенный ответ.
В моделировании важной целью является понижение дисперсии ответа, разброса выходной величины модели относительно частости. Действительно, если разброс случайной величины m₂мал, то вычисленный ответ достаточно достоверен. Если в ряду случайной величины встречаются значения достаточно удаленные друг от друга (см. рис. 34.2), то m₂' велика, и ответ недостаточно определен.
Статистический ответ оценивается не только значениями частости и разброса, но и точностью, роль которой играет доверительная вероятность Q и заданный доверительный интервал ε. Эти величины связаны с разбросом m₂.
Необходимое количество статистических экспериментов n зависит от заданной точности (Q, ε) и характеристик процесса (частости p и разброса m₂). Повышение требований по точности, плохие характеристики существенно повышают затраты на исследование модели, увеличивая число экспериментов.

Надеюсь, эта статья об увлекательном мире фиксация, была вам интересна и не так сложна для восприятия как могло показаться. Желаю вам бесконечной удачи в ваших начинаниях, будьте свободными от ограничений восприятия и позвольте себе делать больше активности в изученном направлени . Надеюсь, что теперь ты понял что такое фиксация, обработка статистических результатов и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Моделирование и Моделирование систем

Фиксация и обработка статистических результатов

Вычисление средних

Вычисление геометрии распределения

Оценка (по Колмогорову) совпадения эмпирического закона распределения с теоретическим

Оценка точности статических характеристик

Комментарии

Оставить комментарий

Моделирование и Моделирование систем

Термины: Моделирование и Моделирование систем