Вам бонус- начислено 1 монета за дневную активность. Сейчас у вас 1 монета

Корреляция

Лекция



Привет, сегодня поговорим про корреляция, обещаю рассказать все что знаю. Для того чтобы лучше понимать что такое корреляция , настоятельно рекомендую прочитать все из категории Теория вероятностей. Математическая статистика и Стохастический анализ .

Корреля́ция (от лат. correlatio — соотношение, взаимосвязь), корреляционная зависимость — статистическая взаимосвязь двух или нескольких случайных величин(либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.[1] Математической мерой корреляции двух случайных величин служит корреляционное отношение Корреляция[2], либо коэффициент корреляции Корреляция (или Корреляция)[1]. В случае, если изменение одной случайной величины не ведет к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической[3].

Впервые в научный оборот термин « корреляция » ввел французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.[4]

Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором — также и ее направление. Если предполагается, что на значениях переменных задано отношение строгого порядка, тоотрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой. При этом коэффициент корреляции будет отрицательным. Положительная корреляция в таких условиях — это такая связь, при которой увеличение одной переменной связано с увеличением другой переменной. Возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин.

 

Содержание

  • 1 Корреляция и взаимосвязь величин
  • 2 Показатели корреляции
    • 2.1 Параметрические показатели корреляции
      • 2.1.1 Ковариация
      • 2.1.2 Линейный коэффициент корреляции
    • 2.2 Непараметрические показатели корреляции
      • 2.2.1 Коэффициент ранговой корреляции Кендалла
      • 2.2.2 Коэффициент ранговой корреляции Спирмена
      • 2.2.3 Коэффициент корреляции знаков Фехнера
      • 2.2.4 Коэффициент множественной ранговой корреляции (конкордации)
    • 2.3 Свойства коэффициента корреляции
  • 3 Корреляционный анализ
    • 3.1 Ограничения корреляционного анализа
    • 3.2 Область применения
  • 4 В селекции
  • 5 Вау!! 😲 Ты еще не читал? Это зря!
  • 6 Примечания
  • 7 Литература
  • 8 Ссылки

 

Корреляция и взаимосвязь величин[править ]

Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанес пожар, и количеством пожарных, участвовавших в ликвидации пожара, причем эта корреляция будет положительной. Из этого, однако, не следует вывод «увеличение количества пожарных приводит к увеличению причиненного ущерба», и тем более не будет успешной попытка минимизировать ущерб от пожаров путем ликвидации пожарных бригад.[5] В то же время , отсутствие корреляции между двумя величинами еще не значит, что между ними нет никакой связи. Например, зависимость может иметь сложный нелинейный характер , который корреляция не выявляет.

Показатели корреляции[править ]

Параметрические показатели корреляции[править ]

Ковариация[править ]

Важной характеристикой совместного распределения двух случайных величин является ковариация (или корреляционный момент). Ковариация является совместным центральным моментом  второго порядка .[6] Ковариация определяется как математическое ожидание произведения отклонений случайных величин[7]:

Корреляция,

где Корреляция — математическое ожидание (в англоязычной литературе принято обозначение Корреляция).

Свойства ковариации:

  • Ковариация двух независимых случайных величин Корреляция и Корреляция равна нулю[8].
  • Абсолютная величина ковариации двух случайных величин Корреляция и Корреляция не превышает среднего геометрического их дисперсий: Корреляция[9].
  • Ковариация имеет размерность, равную произведению размерности случайных величин, то есть величина ковариации зависит от единиц измерения независимых величин. Данная особенность ковариации затрудняет ее использование в целях корреляционного анализа[8].

Линейный коэффициент корреляции[править ]

Для устранения недостатка ковариации был введен линейный коэффициент корреляции (или коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон (англ.)русск. в 90-х годах XIX века. Коэффициент корреляции рассчитывается по формуле[10][8]:

Корреляция

где КорреляцияКорреляция — среднее значение выборок.

Коэффициент корреляции изменяется в пределах от минус единицы до плюс единицы[11].

Линейный коэффициент корреляции связан с коэффициентом регрессии в виде следующей зависимости:Корреляция где Корреляция — коэффициент регрессии, Корреляция — среднеквадратическое отклонение соответствующего факторного признака[12].

Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния».

Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределенной, необходимо использовать ранговую корреляцию Спирмена или Корреляция ( тау ) Кендалла. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими: четырехполевая корреляция. Расчет коэффициента корреляции между двумя недихотомическими переменными не лишен смысла только тогда, когда связь между ними линейна (однонаправлена).

Непараметрические показатели корреляции[править ]

Коэффициент ранговой корреляции Кендалла[править ]

Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:

Корреляция,

где Корреляция.

Корреляция — суммарное число наблюдений, следующих за текущими наблюдениями с большим значением рангов Y.

Корреляция — суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y. (равные ранги не учитываются!)

Корреляция

Если исследуемые данные повторяются (имеют одинаковые ранги), то в расчетах используется скорректированный коэффициент корреляции Кендалла:

Корреляция

Корреляция

Корреляция

Корреляция — число связанных рангов в ряду X и Y соответственно.

Коэффициент ранговой корреляции Спирмена[править ]

Степень зависимости двух случайных величин (признаков) X и Y может характеризоваться на основе анализа получаемых результатов Корреляция. Каждому показателю X и Y присваивается ранг. Ранги значений X расположены в естественном порядке i=1, 2, . . ., n. Ранг Y записывается как Ri и соответствует рангу той пары (X, Y), для которой ранг X равен i. На основе полученных рангов Х i и Yi рассчитываются их разности Корреляция и вычисляется коэффициент корреляции Спирмена:

Корреляция

Значение коэффициента меняется от −1 (последовательности рангов полностью противоположны) до +1 (последовательности рангов полностью совпадают). Нулевое значение показывает, что признаки независимы.

Коэффициент корреляции знаков Фехнера[править ]

Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения.

Корреляция

C — число пар, у которых знаки отклонений значений от их средних совпадают.

H — число пар, у которых знаки отклонений значений от их средних не совпадают.

Коэффициент множественной ранговой корреляции (конкордации)[править ]

Корреляция

Корреляция

Корреляция — число групп, которые ранжируются.

Корреляция — число переменных.

Корреляция — ранг Корреляция-фактора у Корреляция-единицы.

Значимость:

Корреляция

Корреляция

Корреляция, то гипотеза об отсутствии связи отвергается.

В случае наличия связанных рангов:

Корреляция

Корреляция

Свойства коэффициента корреляции [править ]

  • Неравенство Коши — Буняковского:
если принять в качестве скалярного произведения двух случайных величин ковариацию Корреляция, то норма случайной величины будет равна Корреляция, и следствием  неравенства Коши — Буняковского будет:
Корреляция.
  • Коэффициент корреляции равен Корреляция тогда и только тогда, когда Корреляция и Корреляция линейно зависимы (исключая события нулевой вероятности, когда несколько точек «выбиваются» из прямой , отражающей линейную зависимость случайных величин):
Корреляция,
где Корреляция. Более того в этом случае знаки Корреляция и Корреляция совпадают:
Корреляция.

Корреляционный анализ[править ]

Корреляционный анализ — метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. Корреляционный анализ тесно связан с регрессионным анализом (также часто встречается термин « корреляционно- регрессионный анализ », который является более общим статистическим понятием), с его помощью определяют необходимость включения тех или иных факторов в уравнение множественной регрессии, а также оценивают полученное уравнение регрессии на соответствие выявленным связям (используя коэффициент детерминации).[1][2]

Ограничения корреляционного анализа[править ]

Корреляция
 
Множество корреляционных полей. Распределения значений Корреляция с соответствующими коэффициентами корреляций для каждого из них. Коэффициент корреляции отражает «зашумленность» линейной зависимости (верхняя строка), но не описывает наклон линейной зависимости (средняя строка), и совсем не подходит для описания сложных, нелинейных зависимостей (нижняя строка). Для распределения, показанного в центре рисунка, коэффициент корреляции не определен, так как дисперсия  y равна нулю.
  1. Применение возможно при наличии достаточного количества наблюдений для изучения. На практике считается, что число наблюдений должно не менее чем в 5­­-6 раз превышать число факторов (также встречается рекомендация использовать пропорцию, не менее чем в 10 раз превышающую количество факторов). В случае если число наблюдений превышает количество факторов в десятки раз, в действие вступает  закон больших чисел , который обеспечивает взаимопогашение случайных колебаний.[13]
  2. Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчинялась многомерному нормальному распределению. В случае если объем совокупности недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основе корреляционного поля. Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения.[14].
  3. Исходная совокупность значений должна быть качественно однородной.[13]
  4. Сам по себе факт корреляционной зависимости не дает основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора.[5]

Область применения[править ]

Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

В селекции[править ]

Корреляция — взаимосвязь признаков (может быть положительной или отрицательной). Обусловлена сцеплением генов или плейотропией[15]

Вау!! 😲 Ты еще не читал? Это зря![править ]

На этом все! Теперь вы знаете все про корреляция, Помните, что это теперь будет проще использовать на практике. Надеюсь, что теперь ты понял что такое корреляция и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Теория вероятностей. Математическая статистика и Стохастический анализ

создано: 2014-11-06
обновлено: 2024-11-13
1073



Рейтиг 9 of 10. count vote: 2
Вы довольны ?:


Поделиться:

Найди готовое или заработай

С нашими удобными сервисами без комиссии*

Как это работает? | Узнать цену?

Найти исполнителя
$0 / весь год.
  • У вас есть задание, но нет времени его делать
  • Вы хотите найти профессионала для выплнения задания
  • Возможно примерение функции гаранта на сделку
  • Приорететная поддержка
  • идеально подходит для студентов, у которых нет времени для решения заданий
Готовое решение
$0 / весь год.
  • Вы можите продать(исполнителем) или купить(заказчиком) готовое решение
  • Вам предоставят готовое решение
  • Будет предоставлено в минимальные сроки т.к. задание уже готовое
  • Вы получите базовую гарантию 8 дней
  • Вы можете заработать на материалах
  • подходит как для студентов так и для преподавателей
Я исполнитель
$0 / весь год.
  • Вы профессионал своего дела
  • У вас есть опыт и желание зарабатывать
  • Вы хотите помочь в решении задач или написании работ
  • Возможно примерение функции гаранта на сделку
  • подходит для опытных студентов так и для преподавателей

Комментарии


Оставить комментарий
Если у вас есть какое-либо предложение, идея, благодарность или комментарий, не стесняйтесь писать. Мы очень ценим отзывы и рады услышать ваше мнение.
To reply

Теория вероятностей. Математическая статистика и Стохастический анализ

Термины: Теория вероятностей. Математическая статистика и Стохастический анализ