Ковариация и корреляция - два широко используемых статистических термина при исследовании данных. Это сообщение в блоге - попытка легко объяснить эти две концепции и взаимосвязь между ними.
Что такое ковариация?
Согласно Википедии:
Ковариация - это мера совместной изменчивости двух случайных величин.
Проще говоря, он измеряет, насколько две переменные (X и Y) изменяются вместе. Формула ковариации имеет следующий вид:
Cov (X, Y) = Σ (x - x̄) (y - y̅) / (n-1)
Здесь x = значение в X, y = значение в Y, x̄ = среднее значение X, y̅ = среднее значение Y и n = количество элементов в наборе данных.
Между этими двумя переменными существует три типа отношений, которые можно определить с помощью ковариации. Здесь я использую набор данных Wine из Scikit-learn, чтобы показать взаимосвязи. Вот ссылка на набор данных.
1. Связь с положительной тенденцией
Когда значения X (пролин) и Y (алкоголь) изменяются по отношению друг к другу таким образом, что сформированная линия тренда имеет положительный наклон или обе переменные увеличиваются, тогда связь между ними положительна. Значение Cov (X, Y) в этом случае положительно.
Cov (пролин, алкоголь) = 164,567185
2. Связь с отрицательной тенденцией
Когда значения X (malic_acid) и Y (оттенок) меняются по отношению друг к другу таким образом, что сформированная линия тренда имеет отрицательный наклон или одна переменная уменьшается при увеличении другой, тогда связь между ними отрицательный. В этом случае значение Cov (X, Y) отрицательное.
Cov (malic_acid, оттенок) = -0,143326
3. Нет отношений из-за отсутствия тенденций:
Когда значения X и Y изменяются таким образом, что не образует никакой закономерности / тенденции, тогда между двумя переменными нет никакой связи. Значение Cov (X, Y) равно нулю при отсутствии трендов. Данные, представленные ниже, не из набора данных вина.
Характеристики ковариации:
1. Ковариация не определяет наклон линии тренда или то, как далеко точки данных находятся от этой линии. Он только говорит о том, является ли тренд положительным или отрицательным или нет тренда вообще.
2. Когда мы масштабируем данные, наклон линии тренда и точки не меняются, но значения ковариации меняются для каждого масштабирования.
3. Когда мы строим график ковариации переменной с самой собой, ковариация становится дисперсией, как показано данной формулой.
Cov (X, X) = Σ (x - x̄) ** 2 / (n-1)
После рассмотрения приведенных выше указателей становится очевидным, что ковариация не очень помогает нам в исследовательском анализе данных, а также ее труднее предсказать. Итак, мы находим корреляцию между двумя переменными, которая рассчитывается с помощью ковариации.
Что такое корреляция?
Корреляция - это статистический термин, который количественно определяет взаимосвязь между точками данных и линией тренда. Формула корреляции имеет следующий вид:
Corr (X, Y) = Cov (X, Y) / (Var (X) * Var (Y))
Формула возвращает значение от -1 до 1, где:
- Сильная положительная связь с коэффициентом корреляции 1.
Каждое положительное увеличение одной переменной приводит к положительному увеличению другой. Здесь мы видим, что с увеличением числа пролина возрастает и ценность алкоголя.
В этом случае Corr = 0,6437200371782135.
2. Сильная отрицательная связь с коэффициентом корреляции -1.
На каждое положительное увеличение одной переменной происходит уменьшение другой. Здесь мы видим, что с увеличением значения malic_acid значение оттенка уменьшается.
В этом случае Corr = -0,561295688664945.
3. Нет корреляции.
Нулевой результат указывает на отсутствие связи.
Здесь Corr = 0
Характеристики корреляции:
- Увеличение данных также увеличивает уверенность в наблюдаемой корреляции.
- Корреляция не определяет наклон линии тренда, как ковариация.
- В отличие от ковариации, на корреляцию не влияет масштаб данных. Коэффициент корреляции остается прежним.
- Высокое значение коэффициента корреляции не означает, что он будет предсказывать лучше, чем другой набор данных, для которого коэффициент корреляции относительно меньше.
- Чем ближе точки к линии тренда, тем выше будет значение коэффициента корреляции.
Вы можете найти код для приведенных выше графиков на моем Github. Вот ссылка.
Спасибо за чтение этого.