Ковариация и корреляция - два широко используемых статистических термина при исследовании данных. Это сообщение в блоге - попытка легко объяснить эти две концепции и взаимосвязь между ними.

Что такое ковариация?

Согласно Википедии:

Ковариация - это мера совместной изменчивости двух случайных величин.

Проще говоря, он измеряет, насколько две переменные (X и Y) изменяются вместе. Формула ковариации имеет следующий вид:

Cov (X, Y) = Σ (x - x̄) (y - y̅) / (n-1)

Здесь x = значение в X, y = значение в Y, x̄ = среднее значение X, y̅ = среднее значение Y и n = количество элементов в наборе данных.

Между этими двумя переменными существует три типа отношений, которые можно определить с помощью ковариации. Здесь я использую набор данных Wine из Scikit-learn, чтобы показать взаимосвязи. Вот ссылка на набор данных.



1. Связь с положительной тенденцией

Когда значения X (пролин) и Y (алкоголь) изменяются по отношению друг к другу таким образом, что сформированная линия тренда имеет положительный наклон или обе переменные увеличиваются, тогда связь между ними положительна. Значение Cov (X, Y) в этом случае положительно.

Cov (пролин, алкоголь) = 164,567185

2. Связь с отрицательной тенденцией

Когда значения X (malic_acid) и Y (оттенок) меняются по отношению друг к другу таким образом, что сформированная линия тренда имеет отрицательный наклон или одна переменная уменьшается при увеличении другой, тогда связь между ними отрицательный. В этом случае значение Cov (X, Y) отрицательное.

Cov (malic_acid, оттенок) = -0,143326

3. Нет отношений из-за отсутствия тенденций:

Когда значения X и Y изменяются таким образом, что не образует никакой закономерности / тенденции, тогда между двумя переменными нет никакой связи. Значение Cov (X, Y) равно нулю при отсутствии трендов. Данные, представленные ниже, не из набора данных вина.

Характеристики ковариации:

1. Ковариация не определяет наклон линии тренда или то, как далеко точки данных находятся от этой линии. Он только говорит о том, является ли тренд положительным или отрицательным или нет тренда вообще.

2. Когда мы масштабируем данные, наклон линии тренда и точки не меняются, но значения ковариации меняются для каждого масштабирования.

3. Когда мы строим график ковариации переменной с самой собой, ковариация становится дисперсией, как показано данной формулой.

Cov (X, X) = Σ (x - x̄) ** 2 / (n-1)

После рассмотрения приведенных выше указателей становится очевидным, что ковариация не очень помогает нам в исследовательском анализе данных, а также ее труднее предсказать. Итак, мы находим корреляцию между двумя переменными, которая рассчитывается с помощью ковариации.

Что такое корреляция?

Корреляция - это статистический термин, который количественно определяет взаимосвязь между точками данных и линией тренда. Формула корреляции имеет следующий вид:

Corr (X, Y) = Cov (X, Y) / (Var (X) * Var (Y))

Формула возвращает значение от -1 до 1, где:

  1. Сильная положительная связь с коэффициентом корреляции 1.

Каждое положительное увеличение одной переменной приводит к положительному увеличению другой. Здесь мы видим, что с увеличением числа пролина возрастает и ценность алкоголя.

В этом случае Corr = 0,6437200371782135.

2. Сильная отрицательная связь с коэффициентом корреляции -1.

На каждое положительное увеличение одной переменной происходит уменьшение другой. Здесь мы видим, что с увеличением значения malic_acid значение оттенка уменьшается.

В этом случае Corr = -0,561295688664945.

3. Нет корреляции.

Нулевой результат указывает на отсутствие связи.

Здесь Corr = 0

Характеристики корреляции:

  1. Увеличение данных также увеличивает уверенность в наблюдаемой корреляции.
  2. Корреляция не определяет наклон линии тренда, как ковариация.
  3. В отличие от ковариации, на корреляцию не влияет масштаб данных. Коэффициент корреляции остается прежним.
  4. Высокое значение коэффициента корреляции не означает, что он будет предсказывать лучше, чем другой набор данных, для которого коэффициент корреляции относительно меньше.
  5. Чем ближе точки к линии тренда, тем выше будет значение коэффициента корреляции.

Вы можете найти код для приведенных выше графиков на моем Github. Вот ссылка.



Спасибо за чтение этого.