Критерий Краскела-Уоллиса

28 марта 2023

Скопировано

Содержание

Критерий Краскела-Уоллиса — это метод математической статистики, при котором сравнивают средние значения в трех и более выборках. Его используют в анализе, если выборок несколько. Инструмент помогает узнать и оценить различия между ними.

Например, есть три группы студентов, которые учатся по разным методикам. Нужно оценить, могли ли особенности методики повлиять на результаты экзамена. В этом случае критерий Краскела-Уоллиса поможет оценить, насколько различаются средние результаты в группах. Можно увидеть, значимы ли они статистически или слишком малы для этого.

Критерий не такой подробный, как некоторые другие методы, зато быстрее и проще. К тому же он не предполагает нормальности данных, а значит, его можно использовать там, где ряд других методик не подойдет.

Методику еще называют критерием Крускала-Уоллиса или H-критерием. Она основана на ранжировании данных, при котором информация сортируется от меньшего значения к большему.

Дата-сайентисты решают поистине амбициозные задачи. Научитесь создавать искусственный интеллект, обучать нейронные сети, менять мир и при этом хорошо зарабатывать. Программа рассчитана на новичков и плавно введет вас в Data Science.

Data Scientist

Где используется критерий Краскела-Уоллиса

Критерием пользуются дата-сайентисты и дата-аналитики, иногда — ML-инженеры. Он бывает нужен:

в науке, например, при оценке результатов эксперимента;
фундаментальной и прикладной математической статистике;
анализе данных и data science.

Среди практических вариантов применения — анализ рынка и аудитории, предположения о влиянии тех или иных факторов на поведение и предпочтения людей, маркетинговые исследования. Критерий Краскела-Уоллиса используют и при проведении экспериментов или других видов исследований.

Критерий Краскела-Уоллиса как замена дисперсионному анализу

Критерий — альтернатива однофакторному дисперсионному анализу. Это методика, которая изучает влияние каких-либо факторов на средние значения выборок. Но, в отличие от дисперсионного анализа, критерий Краскела-Уоллиса непараметрический. Такие методики легче реализовать, они требуют меньшего количества вычислений и менее чувствительны к чистоте данных. Но с их помощью можно оценить влияние только одного фактора, а не нескольких. Поэтому критерий Краскела-Уоллиса может заменить лишь однофакторный анализ.

Методику применяют только в нескольких ситуациях. Например, чтобы сэкономить время на расчеты и избежать сильных погрешностей.

Условия применения методики

Критерий Краскела-Уоллиса позволяет перейти от «сырых» данных к обработанным и упорядоченным по возрастанию. Но, чтобы это было возможно, данные для анализа должны отвечать некоторым условиям. Если ситуация им не соответствует, критерий будет неинформативен или его вообще не получится использовать.

Количество выборок — не меньше трех. Если их меньше, нужно воспользоваться другим инструментом.

Количество наблюдений за одной из выборок — не меньше 4. За остальными — не меньше 2. Между количеством наблюдений за разными выборками должно оставаться соотношение 4/2/2.

Наблюдения в каждой группе независимы друг от друга. Чтобы достичь такого результата, пользуются рандомизированными исследованиями.

Распределения значений в разных выборках похожи по форме. Если представить набор значений в виде графика, то они будут сходными для разных выборок.

Зависимая переменная — порядковая или непрерывная. Переменная отклика, или зависимая — та, значение которой должно изменяться при изменении влияющего фактора. Порядковая — такая, значения которой можно перечислить по порядку, например «1, 2, 3, 4, 5». Непрерывная — такая, ряд значений которой не прерывается, например скорость или масса.

Разработаны таблицы критических значений. Эти таблицы — инструмент для определения, насколько статистически достоверны полученные результаты. Ими пользуются при анализе результатов. Шаблоны таблиц существуют для разных критериев.

Возможно применить парное сравнение. Чтобы отследить малозаметные различия, нужно попарно сравнивать разные значения.

Использование критерия Краскела-Уоллиса

Применение критерия — последовательный процесс, который состоит из пяти основных шагов. Иногда проведение теста занимает меньше времени — например, если исследователь уже подготовил данные. Но мы покажем процесс с самого начала.

Замена данных на ранги. При использовании H-критерия не пользуются «сырыми» данными. Сначала результаты нужно ранжировать, то есть отсортировать по возрастанию или убыванию, и выдать каждому ранг в зависимости от положения. Например, самый маленький результат будет иметь ранг 1, следующий за ним — 2, и так далее. Ранжирование можно представить как нумерацию данных, отсортированных по размеру. Его проводят для всего массива значений сразу, а не для выборок по отдельности.

Получившийся набор рангов — ранжировка, она понадобится при проведении анализа. Методы анализа, которые оперируют рангами, называются ранговыми. К ним, в частности, относится критерий Краскела-Уоллиса.

Ранги нужны, чтобы была возможность работать с данными без четкого правильного распределения. Это удобно: так можно получать надежные результаты, даже если предположения об исходных данных слабые.

Выделение основной и альтернативной гипотезы. Основную гипотезу называют H0 или нулевой гипотезой, альтернативную — H1. H0 означает, что каждая группа имеет одинаковое распределение величин в популяции. H1 предполагает разное распределение. При H0 средние результаты в каждой выборке равны. А при H1 по крайней мере в одной выборке результаты отличаются.

Критерий Краскела-Уоллиса используют для поиска влияния какого-то фактора на результаты. При нулевой гипотезе влияния нет, при альтернативной — есть.

Поиск средних значений и расчеты. Сначала нужно подсчитать средние значения рангов в каждой из выборок. Для этого складывают ранги, и получается их сумма для каждой группы. Ее обычно обозначают буквой R. Затем применяют формулу расчета статистики:

Суть формулы:

Число 12 делят на n * (n+1), где n — общее количество элементов во всех выборках.
Каждую из найденных сумм R нужно взять в квадрат, а потом разделить на количество элементов для этой выборки — n_i. Затем полученные числа складывают.
Результаты шагов 1 и 2 умножают.
От полученного числа отнимают 3 * (n + 1).

Обычно для расчетов пользуются калькуляторами: они есть в специальном ПО и онлайн.

Получившийся результат — статистика критерия, или H. Сама по себе она мало о чем говорит. Для интерпретации нужны таблицы.

Оценка результатов. Чтобы оценить результаты, нужно воспользоваться таблицей критических уровней для критерия Краскела-Уоллиса. В ней выбирают p-значение — это показатель, который определяет, насколько статистически значим результат.

P-значение — это число от 0 до 1. Его сравнивают с порогом — альфой, или критерием значимости. Стандартная альфа равна 0,05: если p-значение оказывается меньше, значит, нулевую гипотезу отвергают. Альфу можно изменять: чем она ниже, тем меньше вероятность, что результаты вышли случайными.

У p-значения сложное определение. Если говорить простым языком, это вероятность того, насколько ожидаемо встретить подтверждение нулевой гипотезы в реальности. Чем ниже это значение, тем реже можно встретить результат, который подтверждает H0.

Таблица нужна, чтобы не подсчитывать p-значение вручную: это сложно. Для поиска p-значения используют вычисленную ранее вероятность H: ей должно соответствовать какое-то значение в таблице. Также понадобится количество степеней свободы — n–1.

После этого полученное p-значение сравнивают с альфой. В зависимости от того, меньше оно или больше, делают выводы.

Выводы. Если p-значение больше альфы, мы не можем отвергнуть нулевую гипотезу. Вероятно, параметр, который мы оценивали, никак не влияет на результаты. Если оно меньше, нулевую гипотезу отбрасывают. Вывод делают в пользу альтернативной гипотезы.

Как автоматизировать подсчеты

Для расчета аналитических критериев обычно используют специализированное ПО: мало кто считает всё вручную. В самом простом случае поможет Microsoft Excel. Его часто используют как инструмент для аналитических подсчетов. В более сложных ситуациях могут потребоваться программные инструменты для математических расчетов, статистики и аналитики.

Вот примеры такого ПО:

MATLAB — мощная математическая платформа, которая позволяет писать код для расчетов на собственном внутреннем языке;
SPSS Statistics — классическое решение, мощная программа для сложного статистического анализа и обработки данных;
Statistica — программа для статистического и графического анализа с широкими возможностями, в том числе для визуализации;
Minitab — инструмент для аналитики, часто используют в бизнесе, из преимуществ — относительно простой интерфейс и быстрое освоение;
Stata — популярное и удобное ПО с point-and-click-интерфейсом, продвинутым построением графиков и возможностью администрировать данные.

Мы рассмотрели несколько примеров. Программ для аналитики десятки. Все их знать не нужно. Обычно работодатели требуют навыки работы с каким-то конкретным инструментом, максимум с несколькими. Если изучить одну специальную программу, освоение других пойдет быстрее.

Как начать пользоваться критерием Краскела-Уоллиса

Типовые задачи по использованию критерия можно найти в учебниках и задачниках по математической статистике. Есть и сайты с туториалами и примерами задач: они больше подходят для самостоятельного обучения.

Людям, которые начали изучать анализ данных, со временем п