Математическая статистика — наука, которая разрабатывает математические методы систематизации и применения статистических данных для практических и научных выводов.
Отрасль тесно связана с математическим аппаратом и с теорией вероятности: часто статистика использует те же формулы и методы. Она помогает описывать данные, анализировать их, строить прогнозы — для этого существуют свои методики и разделы статистики.
Кому нужна математическая статистика
- Ученым, которые работают с результатами экспериментов и исследований и стараются правильно их интерпретировать.
- Социологам, которые занимаются изучением общественного мнения, анализом и группировкой результатов.
- Аналитикам, которые работают в разных отраслях бизнеса: оценивают эффективность действий, строят модели, выявляют тенденции и выдвигают гипотезы.
- Маркетологам, которым важно понимать и уметь работать со статистическими данными, чтобы строить рекламные стратегии по имеющейся информации.
- Аналитикам данных, которым нужно уметь обрабатывать большое количество информации, и в этом помогает статистика.
- Экономистам, которые работают с финансовыми показателями, в том числе со статистикой.
- Инженерам, врачам и другим специалистам, чья работа может быть связана с вычислениями и группировкой данных.
Для чего используется математическая статистика
- Для правильного сбора и обработки статистических данных.
- Для описания больших массивов данных, которые выражают какие-либо явления: от результатов физического эксперимента до соцопроса или информации о посещениях сайта.
- Для представления данных в форме графиков или таблиц.
- Для прогнозирования и проверки гипотез — предположений, которые можно подтвердить или опровергнуть с помощью статистических данных.
- Для избавления от ошибок, которые могут быть связаны с неправильным сбором, обработкой или интерпретацией сведений.
- Для расчета возможных отклонений результата от истины.
С какими понятиями работает статистика
Генеральная совокупность
Совокупность всех потенциально возможных вариантов, которые можно получить при одинаковых условиях. Измерить генеральную совокупность нельзя, ее размер стремится к бесконечности. Но математическая статистика использует методы, которые помогают понять, как описать ее, — для этого используется выборка.
Выборка
Данные, которые получены при наблюдениях. Размер выборки конечен и ограничен критериями — методами отбора. Таким образом выбирают множество вариантов из генеральной совокупности, по которым в теории можно сделать вывод о целом. Например, если генеральная совокупность — мнение абсолютно всех людей по вопросу, то выборка — результаты опроса по нему.
Репрезентативность
Понятие, которое говорит, насколько показательна выборка, реалистично ли в ней распределены варианты. Выборка считается репрезентативной, если в ней учтено множество параметров и она достоверно отражает генеральную совокупность.
Например, если в выборку попали только пожилые люди, то она не будет репрезентативной для оценки всех возрастных групп. А если изучалась старшая возрастная группа, то генеральной совокупностью будут все пожилые. В этом случае выборка может оказаться репрезентативной.
Репрезентативность обычно получают с помощью рандомизации — объекты или людей для исследования отбирают из генеральной совокупности случайным образом. Так в выборке получится множество разнообразных вариантов. Если же это невозможно, к репрезентативности стараются приблизиться другими способами.
Распределение
Показатель часто описывают через математические формулы. Он показывает частоту, с которой в выборке встречаются разные варианты. В результате можно сделать вывод о том, каких вариантов данных больше, каких меньше — что больше или меньше распространено внутри выборки. Если она репрезентативная, это поможет сделать выводы и о генеральной совокупности.
Визуализация
Чтобы результаты воспринимались легче, их визуализируют. Обычно строят гистограммы распределения — диаграммы со столбцами, размер которых различается в зависимости от значения. Но применяют и другие виды визуализации: точечные графики, круговые диаграммы и так далее.
Числовые характеристики
Распределения обычно недостаточно, чтобы сделать подробные выводы. Поэтому у вариантов внутри выборки есть ряд характеристик, которые нужны для большей наглядности. Это, например:
- среднее арифметическое — усредненное значение среди всех показателей;
- медиана — значение, которое находится посередине распределения, то есть фактическое среднее;
- мода — значение, которое встречается в выборке чаще всего;
- размах — разница между минимальным и максимальным значением;
- дисперсия — отклонение значений от среднего арифметического. Помогает понять, насколько равномерны результаты;
- коэффициент вариации — значение, которое показывает рассеяние результатов в процентах.
Погрешность
Данные не могут быть стопроцентно точными, поэтому в математической статистике учитывается погрешность — это отклонение имеющихся результатов от объективно реальных. Она помогает понять, насколько точен анализ.
Инструменты для работы с математической статистикой
Таблицы
Это простой инструмент для начинающих. Excel и похожее ПО позволяет автоматически рассчитывать параметры, строить графики и гистограммы.
ПО для работы с данными
Для работы с математической статистикой могут использоваться Matlab, SPSS, SAS, Stat и другие программы.
Языки программирования
Разработчикам и аналитикам данных может потребоваться самостоятельно писать код для работы со статистикой. Обычно для этого используется язык программирования Python: сейчас есть много библиотек и дополнений для решения математических задач. Это, например, NumPy или Matplotlib.
Как начать изучение статистики
- Статистика — математическая дисциплина, поэтому нужно хорошее знание математики.
- Также статистика тесно связана с теорией вероятности, формулами и расчетами.
- Считать статистические данные вручную сложно, а порой невозможно, так как речь может идти об огромных выборках. Поэтому необходимо владеть хотя бы одним из инструментов, перечисленных выше.
Получить структурированную информацию можно на курсе SkillFactory.
Другие термины на «М»
Все термины
0 комментариев