Математическая статистика

Математическая статистика — наука, которая разрабатывает математические методы систематизации и применения статистических данных для практических и научных выводов.

Отрасль тесно связана с математическим аппаратом и с теорией вероятности: часто статистика использует те же формулы и методы. Она помогает описывать данные, анализировать их, строить прогнозы — для этого существуют свои методики и разделы статистики.

Кому нужна математическая статистика

  • Ученым, которые работают с результатами экспериментов и исследований и стараются правильно их интерпретировать.
  • Социологам, которые занимаются изучением общественного мнения, анализом и группировкой результатов.
  • Аналитикам, которые работают в разных отраслях бизнеса: оценивают эффективность действий, строят модели, выявляют тенденции и выдвигают гипотезы.
  • Маркетологам, которым важно понимать и уметь работать со статистическими данными, чтобы строить рекламные стратегии по имеющейся информации.
  • Аналитикам данных, которым нужно уметь обрабатывать большое количество информации, и в этом помогает статистика.
  • Экономистам, которые работают с финансовыми показателями, в том числе со статистикой.
  • Инженерам, врачам и другим специалистам, чья работа может быть связана с вычислениями и группировкой данных.

Для чего используется математическая статистика

  • Для правильного сбора и обработки статистических данных.
  • Для описания больших массивов данных, которые выражают какие-либо явления: от результатов физического эксперимента до соцопроса или информации о посещениях сайта.
  • Для представления данных в форме графиков или таблиц.
  • Для прогнозирования и проверки гипотез — предположений, которые можно подтвердить или опровергнуть с помощью статистических данных.
  • Для избавления от ошибок, которые могут быть связаны с неправильным сбором, обработкой или интерпретацией сведений.
  • Для расчета возможных отклонений результата от истины.

Читайте также: 5 причин, почему пора перестать пользоваться Excel и перейти на Python

С какими понятиями работает статистика

Генеральная совокупность 

Совокупность всех потенциально возможных вариантов, которые можно получить при одинаковых условиях. Измерить генеральную совокупность нельзя, ее размер стремится к бесконечности. Но математическая статистика использует методы, которые помогают понять, как описать ее, — для этого используется выборка.

Выборка

Данные, которые получены при наблюдениях. Размер выборки конечен и ограничен критериями — методами отбора. Таким образом выбирают множество вариантов из генеральной совокупности, по которым в теории можно сделать вывод о целом. Например, если генеральная совокупность — мнение абсолютно всех людей по вопросу, то выборка — результаты опроса по нему.

Репрезентативность

Понятие, которое говорит, насколько показательна выборка, реалистично ли в ней распределены варианты. Выборка считается репрезентативной, если в ней учтено множество параметров и она достоверно отражает генеральную совокупность.

Например, если в выборку попали только пожилые люди, то она не будет репрезентативной для оценки всех возрастных групп. А если изучалась старшая возрастная группа, то генеральной совокупностью будут все пожилые. В этом случае выборка может оказаться репрезентативной.

Репрезентативность обычно получают с помощью рандомизации — объекты или людей для исследования отбирают из генеральной совокупности случайным образом. Так в выборке получится множество разнообразных вариантов. Если же это невозможно, к репрезентативности стараются приблизиться другими способами.

Распределение

Показатель часто описывают через математические формулы. Он показывает частоту, с которой в выборке встречаются разные варианты. В результате можно сделать вывод о том, каких вариантов данных больше, каких меньше — что больше или меньше распространено внутри выборки. Если она репрезентативная, это поможет сделать выводы и о генеральной совокупности.

Визуализация

Чтобы результаты воспринимались легче, их визуализируют. Обычно строят гистограммы распределения — диаграммы со столбцами, размер которых различается в зависимости от значения. Но применяют и другие виды визуализации: точечные графики, круговые диаграммы и так далее.

Числовые характеристики 

Распределения обычно недостаточно, чтобы сделать подробные выводы. Поэтому у вариантов внутри выборки есть ряд характеристик, которые нужны для большей наглядности. Это, например:

  • среднее арифметическое — усредненное значение среди всех показателей;
  • медиана — значение, которое находится посередине распределения, то есть фактическое среднее;
  • мода — значение, которое встречается в выборке чаще всего;
  • размах — разница между минимальным и максимальным значением;
  • дисперсия — отклонение значений от среднего арифметического. Помогает понять, насколько равномерны результаты;
  • коэффициент вариации — значение, которое показывает рассеяние результатов в процентах.

Погрешность

Данные не могут быть стопроцентно точными, поэтому в математической статистике учитывается погрешность — это отклонение имеющихся результатов от объективно реальных. Она помогает понять, насколько точен анализ.

Инструменты для работы с математической статистикой

Таблицы

Это простой инструмент для начинающих. Excel и похожее ПО позволяет автоматически рассчитывать параметры, строить графики и гистограммы.

ПО для работы с данными 

Для работы с математической статистикой могут использоваться Matlab, SPSS, SAS, Stat и другие программы.

Языки программирования

Разработчикам и аналитикам данных может потребоваться самостоятельно писать код для работы со статистикой. Обычно для этого используется язык программирования Python: сейчас есть много библиотек и дополнений для решения математических задач. Это, например, NumPy или Matplotlib.

Узнать больше о том, с чего начать учить Python, можно в нашей статье

Как начать изучение статистики

  • Статистика — математическая дисциплина, поэтому нужно хорошее знание математики.
  • Также статистика тесно связана с теорией вероятности, формулами и расчетами.
  • Считать статистические данные вручную сложно, а порой невозможно, так как речь может идти об огромных выборках. Поэтому необходимо владеть хотя бы одним из инструментов, перечисленных выше.

Получить структурированную информацию можно на курсе SkillFactory.

(рейтинг: 5, голосов: 1)
Добавить комментарий