Лекция
Привет, сегодня поговорим про регрессионный анализ, обещаю рассказать все что знаю. Для того чтобы лучше понимать что такое регрессионный анализ , настоятельно рекомендую прочитать все из категории Теория вероятностей. Математическая статистика и Стохастический анализ .
Регрессио́нный анализ — статистический метод исследования влияния одной или нескольких независимых переменных на зависимую переменную . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология зависимых инезависимых переменных отражает лишь математическую зависимость переменных (см. Ложная корреляция), а не причинно-следственные отношения.
регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.
Строго регрессионную зависимость можно определить следующим образом. Пусть — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений определено условное математическое ожидание
то функция называется регрессией величины по величинам , а ее график — линией регрессии по , или уравнением регрессии.
Зависимость от проявляется в изменении средних значений при изменении . Об этом говорит сайт https://intellect.icu . Хотя при каждом фиксированном наборе значений величина остается случайной величиной с определенным распределением.
Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение при изменении , используется средняя величина дисперсии при разных наборах значений (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).
В матричной форме уравнение регрессии (УР) записывается в виде: , где — матрица ошибок. При обратимой матрице X◤X получается вектор -столбец коэффициентов B с учетом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных.
На практике линия регрессии чаще всего ищется в виде линейной функции ( линейная регрессия ), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых от их оценок (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость ):
( — объем выборки ). Этот подход основан на том известном факте, что фигурирующая в приведенном выражении сумма принимает минимальное значение именно для того случая, когда .
Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:
Условие минимума функции невязки:
Полученная система является системой линейных уравнений с неизвестными .
Если представить свободные члены левой части уравнений матрицей
а коэффициенты при неизвестных в правой части — матрицей
то получаем матричное уравнение: , которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:
Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса — Маркова). В англоязычной литературе такие оценки называются BLUE(Best Linear Unbiased Estimators — «наилучшие линейные несмещенные оценки »). Большинство исследуемых зависимостей может быть представлено с помощью МНКнелинейными математическими функциями.
Параметры являются частными коэффициентами корреляции; интерпретируется как доля дисперсии Y, объясненная , при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределенности в оценках, которые становятся зависимыми от порядка включения предикторов в модель . В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.
Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идет ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьезные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида , , свидетельствующее о наличии взаимодействий между признаками , и т. д. (см. Мультиколлинеарность).
На этом все! Теперь вы знаете все про регрессионный анализ, Помните, что это теперь будет проще использовать на практике. Надеюсь, что теперь ты понял что такое регрессионный анализ и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Теория вероятностей. Математическая статистика и Стохастический анализ
Из статьи мы узнали кратко, но содержательно про регрессионный анализ
Комментарии
Оставить комментарий
Теория вероятностей. Математическая статистика и Стохастический анализ
Термины: Теория вероятностей. Математическая статистика и Стохастический анализ