Корреляция (от лат. correlatio «соотношение») — это взаимосвязь между разными показателями в статистике. Например, когда один показатель увеличивается, другой уменьшается — или тоже увеличивается. Корреляцию используют, чтобы оценить зависимость переменных друг от друга.
Если два показателя коррелируют друг с другом, выше вероятность, что они как-то связаны: например, один зависит от другого или они оба зависят от третьей переменной.
Корреляция может быть:
- положительной — когда один показатель растет, другой тоже растет;
- отрицательной — когда одна переменная растет, другая уменьшается;
- нейтральной — изменения не связаны друг с другом.
Что показывает корреляция
С помощью корреляции определяют, как одна переменная меняется относительно другой — это определение из статистики. Это нужно, чтобы оценить, насколько показатели могут быть взаимосвязаны.
Корреляция — это не зависимость. Если две переменные коррелируют друг с другом — это еще не значит, что между ними есть причинно-следственная связь. Причины корреляции нужно исследовать отдельно — чтобы понять, как именно могут быть связаны показатели.
Корреляция может быть случайной. Иногда друг с другом коррелируют показатели, которые вообще не связаны и никак не зависят один от другого. Есть целый сайт, где собраны абсурдные корреляции: например, чем меньше люди потребляют маргарина, тем меньше разводов в штате Мэн. Корреляция — больше 99%! Понятно, что связи тут, скорее всего, нет, просто совпадение. Такое явление называют spurious correlation, или ложной корреляцией.
Для чего тогда нужна корреляция
Несмотря на риск простого совпадения, чаще всего корреляция все же помогает найти неочевидные связи между переменными. Связи могут быть различными:
- прямая зависимость одного фактора от другого;
- непрямая зависимость, например, участвуют еще и вспомогательные факторы;
- зависимость обеих переменных от какой-то третьей;
- еще какая-то связь между переменными.
Вот пример: продажи мороженого коррелируют с количеством лесных пожаров. Да, эти факторы не связаны напрямую, но есть третья переменная, которая влияет на оба: жаркая погода.
Вывод не всегда такой очевидный, как в примере выше. Поэтому корреляцию не стоит использовать как окончательный результат исследования, но не нужно и недооценивать возможную связь.
Корреляция может быть оценена различными методами, включая линейную корреляцию, которая предполагает существование линейной зависимости между переменными, а также непараметрическую корреляцию, которая не требует предположения о форме распределения данных. Для интерпретации корреляции важно учитывать контекст и особенности данных. Например, в анализе данных в науке и бизнесе корреляция может использоваться для прогнозирования и принятия решений.
Кто работает с понятием корреляции
Специалисты по математической статистике. Они могут использовать корреляцию в расчетах, нужных для научных работ, экспериментов, исследований. Это может быть фундаментальная наука или прикладная — есть и коммерческие исследования, где тоже заняты статисты.
ML-инженеры. Математика и статистика активно используются в машинном обучении, например, при создании нейронных сетей и других обучающихся моделей. По корреляции инженер может отследить, что значат или не значат для модели те или иные данные на входе. Например, добавление во входные данные той или иной переменной коррелирует с ростом точности — это поможет лучше понять, что подавать модели на вход.
Аналитики данных. Наука о данных активно использует статистику в бизнес-аналитике, дата-аналитике и других отраслях. Корреляция помогает аналитикам отобрать переменные для статистической модели, плюс в науке о данных есть отдельный метод — корреляционный анализ.
Маркетологи. Статистику вообще и корреляцию в частности используют при разработке маркетинговых стратегий. Если какой-то фактор коррелирует с повышением показателей, возможно, его стоит развивать.
Журналисты. Корреляцию используют для оценки разных событий в журналистике, особенно при расследованиях. Если корреляция между событием и каким-то фактором нашлась — это повод рассмотреть событие с другой точки зрения и, возможно, опубликовать новый материал с неочевидными выводами.
Во всех этих случаях важно избегать ложной причинно-следственной связи. Например, корреляция между посещением вебинаров и покупкой продукта не обязательно означает, что вебинары помогают покупать продукт. Может, обеими вещами просто интересуются одни и те же люди.
Некоторые виды коэффициентов корреляции
Коэффициенты корреляции — показатели, которые выражают силу корреляции между переменными. Какой коэффициент использовать — зависит от ситуации, каждый из них лучше подходит для определенных случаев.
Статистическая корреляция — это мощный инструмент анализа данных, который помогает выявлять связь между двумя или более переменными. Один из наиболее распространенных методов измерения корреляции — коэффициент корреляции, который может быть как положительным, так и отрицательным. Положительная корреляция указывает на то, что увеличение значений одной переменной обычно сопровождается увеличением значений другой, в то время как отрицательная корреляция указывает на обратную связь.
Вот несколько распространенных коэффициентов корреляции.
Пирсона. Этот коэффициент — самый популярный в статистике, описывается буквой r и показывает прямолинейную связь между переменными. Он принимает значение от -1 до 1. Чем ближе значение к 1, тем выше положительная корреляция между показателями. Если оно, наоборот, ближе к -1 — корреляция отрицательная. А близкое к 0 значение, включая сам ноль, говорит, что корреляции нет.
Кендалла. Этот коэффициент описывается буквой t и показывает корреляцию между факторами, которые можно ранжировать по какому-то признаку. Вместо значений показателя используют ранги — номера, присвоенные значениям при ранжировании. Проверить корреляцию Кендалла можно только для порядковых показателей — таких, которые можно упорядочить. Значение коэффициента — тоже от -1 до 1, и означают цифры то же, что и при корреляции Пирсона. Он тоже подходит только для оценки линейной связи.
Спирмена. Описывается буквой p.Так же как и коэффициент Кендалла, этот предназначен для оценки ранжированных показателей — но больше подходит для малых выборок. Он использует непараметрические методы, которые могут обрабатывать данные низкого качества — с погрешностями, малым количеством информации и так далее. Принимает те же значения, что и коэффициент Пирсона, и означают они то же самое.
Еще есть коэффициент фи-корреляции для бинарных переменных и коэффициент Крамера для номинальных переменных, основанный на критерии хи квадрат.
Коэффициенты существуют только для линейной корреляции, когда график одного показателя как бы «повторяет» другой. Еще есть нелинейная корреляция: одна переменная изменяется равномерно, а другая неравномерно, но взаимосвязь при этом есть. Для оценки нелинейной корреляции не пользуются коэффициентами, а используют более общий показатель — корреляционное отношение.
С помощью чего считают корреляцию
Рассчитать корреляцию для каких-то факторов можно и вручную, но специалисты и студенты обычно пользуются вспомогательными инструментами.
Онлайн-сервисы. Наиболее простой вариант: онлайн-калькуляторы для математических задач. Ими обычно пользуются студенты, чтобы сэкономить время. В такой сервис можно ввести данные для расчета, и он покажет результат, иногда даже может построить график. Такими онлайн-сервисами можно пользоваться при обучении, чтобы разобраться с самим принципом: для больших реальных выборок они не подойдут.
Excel. В редакторах таблиц есть формулы, с помощью которых можно посчитать большую часть шагов. Поэтому многие пользуются для работы Excel или Google Таблицами. Нужно ввести данные выборок в едином виде, прописать нужные формулы, а посчитает система все самостоятельно. Автоматизировать можно и обработку данных: например, привести все числа к целому типу или ранжировать по величине.
Языки программирования. Обычно математические и статистические задачи решают с помощью Python: он удобный, хорошо подходит для расчетов и интуитивно понятный. В этом языке много библиотек для разных математических методов и анализа данных, визуализации и построения графиков. Простой расчет корреляции можно написать с помощью библиотеки numpy и визуализировать с matplotlib. Преимущество такого подхода — универсальность и гибкость: можно написать код под конкретную задачу и учесть кучу факторов, а еще автоматизировать обработку и оценку данных. А для расчета достаточно ввести несколько команд из библиотеки, самостоятельно вспоминать формулы не нужно.
Вручную. Подсчитать корреляцию можно самостоятельно — на бумаге. Но это долгий и трудоемкий способ, который подходит разве что для обучения. Огромную реальную выборку с десятками тысяч значений так не обработаешь — слишком много времени уйдет на расчеты. Зато ручной подсчет хорошо помогает понять, как вообще работает оценка корреляции.
0 комментариев