Дисперсия в статистике — это мера, которая показывает разброс между результатами. Если все они близки к среднему, дисперсия низкая. А если результаты сильно различаются — высокая.
Это один из основных показателей в статистическом анализе. Точка, вокруг которой считают разброс, — это обычно среднее арифметическое из выборки, математическое ожидание или какое-то целевое значение. А если смотрят, например, разброс между ответами на какой-то тестовый вопрос, в качестве центральной точки можно взять правильный ответ.
Термин «дисперсия» также встречается в физике, химии и биологии. Например, так называют явление, когда разные вещества не смешиваются друг с другом. А еще — разложение света на отдельные цвета, когда он проходит через призму. Но это другие понятия. Они не имеют отношения к статистике.
Что показывает дисперсия
Если говорить о всей выборке, дисперсия показывает, насколько разнородны результаты. Например, в одной группе почти все — шатены. В другой половина — шатены, а остальные — блондины, рыжие и брюнеты. Вторая группа более разнородная, в ней выше дисперсия.
Более близкие к реальному миру примеры:
- бизнесу дисперсия поможет рассчитать разброс между доходами за разные месяцы;
- ученый с помощью дисперсии поймет, насколько совпадают между собой результаты серии экспериментов.
Еще дисперсия показывает вероятность того, что конкретный результат будет далек от среднего. Например, средний рост россиянина мужского пола — 175 см. Но если остановить на улице случайного мужчину, вряд ли он окажется ровно 175 см ростом — скорее всего, выше или ниже. Дисперсия высокая — вероятность встретить «не среднее» значение выше.
В реальном мире это можно использовать так:
- проверять, насколько предсказуемы бизнес-показатели;
- оценивать риски — для компании, продвижения или даже обычной жизни.
Логика тут такая: чем меньше предсказуемости — тем больше хаоса и, соответственно, больше рисков.
Кто работает с дисперсией
- Ученые, которые могут пользоваться метриками из математической статистики, например для оценки результатов эксперимента.
- Статистики — они могут собирать данные по разным параметрам и потом оценивать их.
- Аналитики — статистика и в частности дисперсия используются в большинстве направлений Data Science, анализа данных, бизнес-аналитики и так далее.
- ML-инженеры — дисперсию учитывают, когда оценивают работу модели машинного обучения. Тут это будет разброс между ответами.
Формула дисперсии
Сначала дадим формальное определение, а потом объясним простыми словами. Дисперсия рассчитывается по формуле как среднее квадратичное отклонение от среднего значения:
D(X) =1ni=1n(xi-x)2 ,
где
- n — количество элементов,
- xi – i-й элемент в выборке,
- x — среднее арифметическое.
Звучит и выглядит сложно, но фактически все не так страшно. Вот как выглядит расчет пошагово:
- Найти среднее арифметическое x. Для этого нужно сложить все элементы и разделить полученную сумму на их количество.
- Потом от каждого элемента по очереди нужно отнять среднее арифметическое, а получившееся число возвести в квадрат. Это называется квадратами отклонения от среднего.
- Найденные квадраты отклонения от среднего нужно сложить.
- Сумму разделить на количество элементов в выборке.
Формула дисперсии случайной величины рассчитывается так:
D(X)=M(X−M(X))2
Найти дисперсию случайной величины также можно по формуле, записанной в более удобном для расчетов виде:
D(X)=M(X2)−(M(X))2.
Все перечисленное посчитать несложно — достаточно школьных знаний математики. А вот чтобы понять, почему формула именно такая, уже нужно разбираться в статистике.
Пример расчета дисперсии
Давайте посмотрим на практике, как рассчитать дисперсию. Для этого возьмем простую выборку из шести элементов. Будем считать, что это оценки группы с дополнительных занятий: [5, 2, 3, 5, 4, 5].
- Сначала найдем среднее арифметическое: (5 + 2 + 3 + 5 + 4 + 5) / 6 = 24 / 6 = 4.
- Теперь найдем квадраты отклонения от среднего:
(5 – 4)² = 1
(2 – 4)² = 4
(3 – 4)² = 1
(5 – 4)² = 1
(4 – 4)² = 0
(5 – 4)² = 1
- Сложим получившиеся квадраты: 1 + 4 + 1 + 1 + 0 + 1 = 8.
- Разделим сумму на количество элементов: 8 / 6 = 1,33.
Число 1,33 — это и есть дисперсия. Не слишком большая — большинство значений близко к среднему арифметическому, равному 4.
Как интерпретировать результат
Единицы измерения дисперсии — квадраты от единиц, в которых указаны значения в выборке. Например, в нашем расчете вышел разброс в 1,33 — это не баллы оценок, а их квадраты. Чтобы узнать, каким разброс будет в баллах, нужно будет взять квадратный корень из 1,33.
Какую дисперсию считать большой или маленькой — зависит от значений и выборки в целом. Например, для нашей небольшой выборки из чисел от 0 до 5 условная дисперсия в 4 считалась бы довольно большой. Но можно представить много выборок, где 4 — маленькое значение. Например, крупная выборка, где собраны числа от 100 до 1000.
Еще это зависит от сферы. Например, в условной медицине или точной инженерии даже небольшое число может быть значимой дисперсией.
Связь с другими показателями
Дисперсия тесно связана с несколькими другими показателями из статистики. Мы уже сказали про среднее арифметическое, но оно не единственное. Вот еще три важных показателя.
Стандартное отклонение. Это квадратный корень из дисперсии — выше мы говорили, что дисперсия представляет собой значение «в квадрате». А стандартное отклонение дает результат в тех же единицах измерения, что и числа в выборке. Если взять квадратный корень из нашей дисперсии в 1,33, получится 1,15 — значит, числа в выборке отклоняются от среднего на 1,15 балла. Отклоняются они опять же в среднем — для конкретного числа отклонение может быть и больше, и меньше.
Смещение. Смещение — это ошибка выборки. Например, когда исследователь собирал выборку, отобранные значения оказались похожими по какому-то фактору, а остальные он случайно проигнорировал. Например, отобрал для выборки фото с котами только белых котиков. В случае с машинным обучением это еще и «перекос» результатов, которые выдает модель: например, называет всех белых животных котами.
При чем тут дисперсия — она растет при маленьком смещении и падает при большом. Идеальная выборка — это маленькая дисперсия при большом смещении, но в реальности это практически невозможно. Поэтому приходится балансировать.
Ошибка прогнозирования. Статистику используют для прогнозирования. Но из-за дисперсии и смещения нельзя спрогнозировать все точно. Ошибка прогнозирования — это мера неточности. Чем она выше, тем сильнее прогноз может расходиться с реальным результатом. Существуют разные способы расчета этой ошибки, обычно для них используют реальные значения, если они известны.
Когда нужно применять дисперсию
Стандартное отклонение проще для понимания, так что может возникнуть вопрос: зачем пользоваться именно дисперсией. На практике пользуются и тем, и другим — зависит от задачи. Где-то считать показатели и анализировать удобнее через дисперсию, где-то — через стандартное отклонение. Благо, одно легко высчитывается через другое.
Например, дисперсия удобнее стандартного отклонения, если исследователь пользуется статистическим анализом или регрессией либо пишет теоретическую работу вроде лабораторной. Дисперсию бывает проще представить в процентах, она используется во множестве формул — так что смотреть нужно на саму задачу. Хотя и стандартное отклонение используют не реже.
Если вы хотите узнать больше про статистику, анализ данных и машинное обучение — приглашаем на курсы! Дадим много практических заданий и поможем получить первый реальный опыт.
0 комментариев