Математическая статистика — наука, которая разрабатывает математические методы систематизации и применения статистических данных для практических и научных выводов.
Отрасль тесно связана с математическим аппаратом и с теорией вероятности: часто статистика использует те же формулы и методы. Она помогает описывать данные, анализировать их, строить прогнозы — для этого существуют свои методики и разделы статистики.
Кому нужна математическая статистика
- Ученым, которые работают с результатами экспериментов и исследований и стараются правильно их интерпретировать.
- Социологам, которые занимаются изучением общественного мнения, анализом и группировкой результатов.
- Аналитикам, которые работают в разных отраслях бизнеса: оценивают эффективность действий, строят модели, выявляют тенденции и выдвигают гипотезы.
- Маркетологам, которым важно понимать и уметь работать со статистическими данными, чтобы строить рекламные стратегии по имеющейся информации.
- Аналитикам данных, которым нужно уметь обрабатывать большое количество информации, и в этом помогает статистика.
- Экономистам, которые работают с финансовыми показателями, в том числе со статистикой.
- Инженерам, врачам и другим специалистам, чья работа может быть связана с вычислениями и группировкой данных.
Для чего используется математическая статистика
- Для правильного сбора и обработки статистических данных.
- Для описания больших массивов данных, которые выражают какие-либо явления: от результатов физического эксперимента до соцопроса или информации о посещениях сайта.
- Для представления данных в форме графиков или таблиц.
- Для прогнозирования и проверки гипотез — предположений, которые можно подтвердить или опровергнуть с помощью статистических данных.
- Для избавления от ошибок, которые могут быть связаны с неправильным сбором, обработкой или интерпретацией сведений.
- Для расчета возможных отклонений результата от истины.
С какими понятиями работает статистика
Генеральная совокупность
Совокупность всех потенциально возможных вариантов, которые можно получить при одинаковых условиях. Измерить генеральную совокупность нельзя, ее размер стремится к бесконечности. Но математическая статистика использует методы, которые помогают понять, как описать ее, — для этого используется выборка.
Выборка
Данные, которые получены при наблюдениях. Размер выборки конечен и ограничен критериями — методами отбора. Таким образом выбирают множество вариантов из генеральной совокупности, по которым в теории можно сделать вывод о целом. Например, если генеральная совокупность — мнение абсолютно всех людей по вопросу, то выборка — результаты опроса по нему.
Репрезентативность
Понятие, которое говорит, насколько показательна выборка, реалистично ли в ней распределены варианты. Выборка считается репрезентативной, если в ней учтено множество параметров и она достоверно отражает генеральную совокупность.
Например, если в выборку попали только пожилые люди, то она не будет репрезентативной для оценки всех возрастных групп. А если изучалась старшая возрастная группа, то генеральной совокупностью будут все пожилые. В этом случае выборка может оказаться репрезентативной.
Репрезентативность обычно получают с помощью рандомизации — объекты или людей для исследования отбирают из генеральной совокупности случайным образом. Так в выборке получится множество разнообразных вариантов. Если же это невозможно, к репрезентативности стараются приблизиться другими способами.
Распределение
Показатель часто описывают через математические формулы. Он показывает частоту, с которой в выборке встречаются разные варианты. В результате можно сделать вывод о том, каких вариантов данных больше, каких меньше — что больше или меньше распространено внутри выборки. Если она репрезентативная, это поможет сделать выводы и о генеральной совокупности.
Визуализация
Чтобы результаты воспринимались легче, их визуализируют. Обычно строят гистограммы распределения — диаграммы со столбцами, размер которых различается в зависимости от значения. Но применяют и другие виды визуализации: точечные графики, круговые диаграммы и так далее.
Числовые характеристики
Распределения обычно недостаточно, чтобы сделать подробные выводы. Поэтому у вариантов внутри выборки есть ряд характеристик, которые нужны для большей наглядности. Это, например:
- Среднее арифметическое
- — усредненное значение среди всех показателей.
- Медиана
- — значение, которое находится посередине распределения, то есть фактическое среднее.
- Мода
- — значение, которое встречается в выборке чаще всего.
- Размах
- — разница между минимальным и максимальным значением.
- Дисперсия
- — отклонение значений от среднего арифметического.
- Коэффициент вариации
- — значение, которое показывает рассеяние результатов в процентах.
Погрешность
Данные не могут быть стопроцентно точными, поэтому в математической статистике учитывается погрешность — это отклонение имеющихся результатов от объективно реальных. Она помогает понять, насколько точен анализ.
Инструменты для работы с математической статистикой
Таблицы
Это простой инструмент для начинающих. Excel и похожее ПО позволяет автоматически рассчитывать параметры, строить графики и гистограммы.
ПО для работы с данными
Для работы с математической статистикой могут использоваться Matlab, SPSS, SAS, Stat и другие программы.
Языки программирования
Разработчикам и аналитикам данных может потребоваться самостоятельно писать код для работы со статистикой. Обычно для этого используется язык программирования Python: сейчас есть много библиотек и дополнений для решения математических задач. Это, например, NumPy или Matplotlib.
Как начать изучение статистики
- Статистика — математическая дисциплина, поэтому нужно хорошее знание математики.
- Также статистика тесно связана с теорией вероятности, формулами и расчетами.
- Считать статистические данные вручную сложно, а порой невозможно, так как речь может идти об огромных выборках. Поэтому необходимо владеть хотя бы одним из инструментов, перечисленных выше.
Получить структурированную информацию можно на курсе SkillFactory.
0 комментариев