Лекция
Привет, Вы узнаете о том , что такое Кригинг как метод интерполяции или регрессия на основе гауссовских процессов, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое Кригинг как метод интерполяции или регрессия на основе гауссовских процессов , настоятельно рекомендую прочитать все из категории Теория вероятностей. Математическая статистика и Стохастический анализ .
В статистике, первоначально в геостатистике, кригинг или регрессия на основе гауссовских процессов — это метод интерполяции, для которого интерполированные значения моделируются гауссовским процессом, определяемым предыдущими ковариациями, в отличие от кусочно-полиномиального сплайна, оптимизирующего гладкость интерполируемых значений. При подходящих предположениях относительно априорных значений кригинг дает наилучшее линейное несмещенное предсказание промежуточных значений. Методы интерполяции, основанные на других критериях, таких как гладкость (например, сглаживающий сплайн ), могут не дать наиболее вероятных промежуточных значений. Метод широко используется в области пространственного анализа икомпьютерные эксперименты . Этот метод также известен как предсказание Винера – Колмогорова в честь Норберта Винера и Андрея Колмогорова .
Теоретическая основа метода была разработана французским математиком Жоржем Матероном в 1960 году на основе магистерской диссертации Дэни Г. Криге , новатора в построении плоттера средневзвешенного содержания золота на рифовом комплексе Витватерсранд в Южной Африке . Криг стремился оценить наиболее вероятное распределение золота по образцам из нескольких скважин. Английский глагол - криг, а наиболее распространенное существительное - кригинг ; оба часто произносятся с твердым "g" после английского произношения имени "Krige". В литературе это слово иногда пишется с заглавной буквы .
Хотя в своей основной формулировке кригинг требует больших вычислительных ресурсов, его можно масштабировать для решения более крупных задач, используя различные методы аппроксимации .
Данный интерполяционный метод назван в честь южноафриканского горного инженера Дэниела Крига (англ.)русск., занимавшегося ручным созданием геологических карт по ограниченному набору данных в некоторой области. Это вид обобщенной линейной регрессии, использующий статистические параметры для нахождения оптимальной оценки в смысле минимального среднеквадратического отклонения при построении поверхностей, кубов и карт. В основу метода положен принцип несмещенности среднего; то есть взятые все вместе значения на карте должны иметь правильное среднее значение. Глобальная несмещенность формально обеспечивается за счет повышения низких значений и уменьшения высоких.
При правильных выбранных априорных предположениях кригинг дает наилучшее линейное несмещенное предсказание промежуточных значений. Методы интерполяции, основанные на других критериях, таких как гладкость, не должны давать наиболее вероятных значений в промежуточных точках. Этот метод широко используется в области пространственного анализа и компьютерных (численных) экспериментах. Этот метод также известен как Wiener–Kolmogorov prediction в честь Норберта Винера и Андрея Николаевича Колмогорова.
С точки зрения общей статистики кригинг заключается в минимизации дисперсии ошибки измерения, которая является функцией от измеряемых весов. Минимизация данной дисперсии уменьшает среднюю квадратическую ошибку отклонения оцененного значения от возможного. Достигается это путем приравнивания к нулю первой производной ошибки относительно каждого неизвестного веса. В итоге выводится система уравнений, решением которой является вектор весов.
Кригинг выполняет две группы задач:
Количественое представление пространственной структуры данных, известное как построение вариограмм, дает возможность пользователям подобрать к данным модель пространственной зависимости. Для расчета (прогноза) неизвестного значения переменной в заданном месте кригинг будет использовать подходящую (подобранную) модель вариограммы, конфигурацию пространственных данных и значения в точках измерений вокруг данного местоположения.
Основная идея кригинга состоит в том, чтобы предсказать значение функции в заданной точке путем вычисления средневзвешенного значения известных значений функции в окрестности точки. Этот метод математически тесно связан с регрессионным анализом . Обе теории выводят наилучшую линейную несмещенную оценку , основанную на предположениях о ковариациях , используют теорему Гаусса – Маркова для доказательства независимости оценки и ошибки и используют очень похожие формулы. Тем не менее, они полезны в разных структурах: кригинг используется для оценки единственной реализации случайного поля, а регрессионные модели основаны на множественных наблюдениях за многомерным набором данных.
Оценку кригинга можно также рассматривать как сплайн в гильбертовом пространстве воспроизводящего ядра , с воспроизводящим ядром, заданным ковариационной функцией. Отличие от классического подхода кригинга заключается в интерпретации: в то время как сплайн мотивируется интерполяцией минимальной нормы на основе структуры гильбертова пространства, кригинг мотивируется ожидаемой квадратом ошибки предсказания на основе стохастической модели.
Кригинг с полиномиальными поверхностями тренда математически идентичен аппроксимации обобщенной полиномиальной кривой методом наименьших квадратов .
Кригинг также можно понимать как форму байесовского вывода . Кригинг начинается с предварительного распределения по функциям . Этот априор принимает форму гауссовского процесса:выборки из функции будут нормально распределены , где ковариация между любыми двумя выборками - это ковариационная функция (или ядро ) гауссовского процесса, оцененная в пространственном расположении двух точек. Набор значений затем наблюдается, каждое значение , связанное с пространственным расположением. Теперь новое значение можно предсказать в любом новом пространственном местоположении, комбинируя гауссову априорную функцию с гауссовой функцией правдоподобия для каждого из наблюдаемых значений. Результирующее апостериорное распределение также является гауссовым, со средним значением и ковариацией, которые можно просто вычислить из наблюдаемых значений, их дисперсии и матрицы ядра, полученной из априорного.
В геостатистических моделях выборочные данные интерпретируются как результат случайного процесса. Тот факт, что эти модели включают в себя неопределенность в своей концептуализации, не означает, что явление - лес, водоносный горизонт, месторождение полезных ископаемых - возникло в результате случайного процесса, а, скорее, позволяет создать методологическую основу для пространственного вывода количества в ненаблюдаемых местах и для количественной оценки неопределенности, связанной с оценкой.
В контексте этой модели стохастический процесс - это просто способ приблизиться к набору данных, собранных из выборок. Первым шагом в геостатистической модуляции является создание случайного процесса, который наилучшим образом описывает набор наблюдаемых данных.
Стоимость от местоположения (общее обозначение набора географических координат ) интерпретируется как реализацияот случайной величины . В пространстве, где набор образцов рассредоточен, имеются реализации случайных величин , соотносятся между собой.
Набор случайных величин представляет собой случайную функцию, из которой известна только одна реализация. - набор наблюдаемых данных. С помощью только одной реализации каждой случайной величины теоретически невозможно определить какой-либо статистический параметр отдельных переменных или функции. Предлагаемое решение в геостатистическом формализме состоит в предположении различной степени стационарности случайной функции, чтобы сделать возможным вывод некоторых статистических значений.
Например, если предположить, что на основании однородности образцов по площади где переменная распределена, гипотеза о том, что первый момент является стационарным (т. е. все случайные переменные имеют одно и то же среднее значение), затем предполагается, что среднее значение можно оценить с помощью среднего арифметического значений выборки.
Гипотеза стационарности, относящаяся ко второму моменту , определяется следующим образом: корреляция между двумя случайными величинами зависит исключительно от пространственного расстояния между ними и не зависит от их местоположения. Таким образом, если а также тогда:
и для простоты определим а также .
Эта гипотеза позволяет вывести эти две меры - вариограмму и ковариограмму :
где:
Пространственный вывод или оценка количества , в ненаблюдаемом месте , вычисляется из линейной комбинации наблюдаемых значений и веса :
Веса предназначены для обобщения двух чрезвычайно важных процедур в процессе пространственного вывода:
При расчете весов , в геостатистическом формализме есть две цели: объективность и минимальная дисперсия оценки .
Если облако реальных ценностей наносится на график относительно расчетных значений , критерий глобальной несмещенности, внутренней стационарности или стационарности поля в широком смысле , подразумевает, что среднее значение оценок должно быть равно среднему значению реальных значений.
Второй критерий говорит о том, что среднее квадратов отклонений должен быть минимальным, что означает, что, когда облако оценочных значений по сравнению с облачными реальными значениями более рассеяно, оценка будет более неточной.
В зависимости от стохастических свойств случайного поля и различных предполагаемых степеней стационарности могут быть выведены различные методы вычисления весов, т. Е. Применяются разные типы кригинга. К классическим методам относятся:
Неизвестное значение интерпретируется как случайная величина, находящаяся в , а также значения выборок соседей . Оценщик также интерпретируется как случайная величина, расположенная в , результат линейной комбинации переменных.
Чтобы вывести систему кригинга для допущений модели, при оценке допущена следующая ошибка: в объявляется:
Два критерия качества, упомянутые ранее, теперь могут быть выражены в виде среднего значения и дисперсии новой случайной величины. :
Отсутствие предвзятости :
Поскольку случайная функция стационарна, , соблюдается следующее ограничение:
Чтобы гарантировать беспристрастность модели, веса должны быть равны единице.
Минимальная дисперсия :
Два оценщика могут иметь , но разброс их среднего значения определяет разницу в качестве оценок. Чтобы найти оценку с минимальной дисперсией, нам нужно минимизировать.
* подробное объяснение см. в ковариационной матрице
* где литералы стоять за .
После определения ковариационной модели или вариограммы , или , актуально во всех областях анализа , то мы можем написать выражение для дисперсии оценки любого оценщика в зависимости от ковариации между выборками и ковариаций между выборками и точкой для оценки:
Из этого выражения можно сделать некоторые выводы. Дисперсия оценки:
Система уравнений
Решение этой задачи оптимизации (см. Множители Лагранжа ) приводит к системе кригинга :
дополнительный параметр является множитель Лагранжа используется в минимизации ошибки кригинга соблюдать условие беспристрастности.
Простой кригинг математически самый простой, но наименее общий. Это предполагает ожидание от случайного поля , чтобы быть известным, и опирается на ковариационной функции . Однако в большинстве приложений заранее неизвестны ни математическое ожидание, ни ковариация.
Практические допущения для применения простого кригинга :
Система уравнений
В кригинге весе от простого кригинге не имеет Несмещенности состояния и дается простой система уравнений кригинга :
Это аналогично линейной регрессии с другой .
Оценка
Интерполяция с помощью простого кригинга определяется следующим образом:
Ошибка кригинга определяется по формуле:
что приводит к обобщенной версии теоремы Гаусса – Маркова методом наименьших квадратов (Chiles & Delfiner 1999, p. 159):
(Cressie 1993, Chiles & Delfiner 1999, Wackernagel 1995)
Хотя кригинг изначально был разработан для приложений в геостатистике, это общий метод статистической интерполяции, который может применяться в любой дисциплине к выборочным данным из случайных полей, удовлетворяющих соответствующим математическим допущениям. Его можно использовать там, где были собраны пространственно связанные данные (в 2-D или 3-D) и требуются оценки «заполняющих» данных в местах (пространственных промежутках) между фактическими измерениями.
На сегодняшний день кригинг используется в различных дисциплинах, включая следующие:
Другой очень важной и быстрорастущей областью применения в машиностроении является интерполяция данных, получаемых как переменные отклика детерминированного компьютерного моделирования [20], например, моделирования методом конечных элементов (FEM). В этом случае кригинг используется как инструмент метамоделирования , то есть модель черного ящика, построенная на основе разработанного набора компьютерных экспериментов . Во многих практических инженерных задачах, таких как проектирование опалубкиВ процессе однократного моделирования методом конечных элементов может длиться несколько часов или даже несколько дней. Поэтому более эффективно спроектировать и запустить ограниченное количество компьютерных симуляций, а затем использовать интерполятор кригинга для быстрого прогнозирования отклика в любой другой расчетной точке. Поэтому кригинг очень часто используется как так называемая суррогатная модель , реализованная внутри процедур оптимизации . [21]
Исследование, описанное в статье про Кригинг как метод интерполяции или регрессия на основе гауссовских процессов, подчеркивает ее значимость в современном мире. Надеюсь, что теперь ты понял что такое Кригинг как метод интерполяции или регрессия на основе гауссовских процессов и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Теория вероятностей. Математическая статистика и Стохастический анализ
Комментарии
Оставить комментарий
Теория вероятностей. Математическая статистика и Стохастический анализ
Термины: Теория вероятностей. Математическая статистика и Стохастический анализ