Насколько хорошо надо знать математику, чтобы стать Data Scientist

Анализ данных — одна из самых популярных и востребованных отраслей как в бизнесе, так и в науке, которой, однако, не учат в университете так же, как, например, медицине или истории. Современные специалисты data science такие же разные, как кусочки лоскутного одеяла — с разным образованием и разной базой знаний. В этой статье мы поговорим о том, насколько необходима математика для data science.

Современная наука о данных уже накопила богатый программный инструментарий: существует много библиотек и встроенных функций для обработки информации, даже для использования самих методов машинного обучения. Для запуска собственной модели начинающему data scientist-у достаточно ознакомиться с порядком выполнения определенных процедур и наличием нужных методов в какой-либо из библиотек. Модель запуститься и будет работать, даже выдаст результат, и, вполне возможно, неплохой, а то и вовсе потрясающий. Однако, вряд ли такая модель будет хоть сколько-нибудь отвечать реальности и выдавать прогнозы, похожие на правду — использование методов машинного обучения без понимания глубинной сути и без должной предварительной обработки данных может способствовать переобучению модели или недообучению. Поэтому очень важно понимать теоретические основы (которые неотделимы от математических формул и понятий) всех аспектов науки о данных.

Математика, царица всех наук, и здесь занимает высокое положение. Молодому специалисту нужно освоить, как минимум, следующие ее разделы, чтобы стать хорошим data scientist-ом:

Линейная алгебра

  • Векторное пространство.
  • Линейная независимость.
  • Норма и скалярное произведение векторов.
  • Определение матрицы. Операции над матрицами.
  • Ранг и определитель матрицы.
  • Системы линейных уравнений.
  • Типы матриц.
  • Собственные вектора и собственные значения.

Математический анализ

  • Функции и их свойства.
  • Предел функции (основные представления).
  • Производная функции (+ её геометрический и механический смысл).
  • Производная сложной функции.
  • Экстремумы функции. Выпуклость функции.
  • Частные производные и градиент.
  • Градиент в задачах оптимизации.
  • Производная по направлению.
  • Касательная плоскость и линейное приближение.

Методы оптимизации

  • Оптимизация негладких функций (+ проблема локальных минимумов).
  • Метод имитации отжига.
  • Генетические алгоритмы. Алгоритм дифференциальной эволюции.
  • Метод Нелдера-Мида.

Математическая статистика и теория вероятности

  • Определение вероятности. Свойства вероятности.
  • Условные вероятности. Формула полной вероятности. Формулы Байеса.
  • Дискретные случайные величины.
  • Непрерывные случайные величины.
  • Оценка распределения по выборке. Статистики.
  • Характеристики распределений.
  • Важные статистики (выборочные среднее, медиана, мода, дисперсия, интерквартильный размах).
  • Центральная предельная теорема.
  • Доверительные интервалы.

Все 4 направления рассматриваются на нашем курсе по математике для data science

Допустим, вы уже имеете все перечисленные теоретические знания (или хотя бы большую часть), но как их применить на практике? Линейная алгебра полезна, как при начальной работе с данными, так и при желании понять сложные методы машинного обучения. На начальных этапах знания о матрицах, их свойствах и операциях с ними помогут понять, как устроен механизм работы методов библиотеки Numpy, как считаются важные статистические величины (например, корреляция) для больших данных.

Если же Вы работаете с нейронными сетями, то, наверняка, Вам уже приходилось слышать понятие тензора, которое основано на понятии многомерного вектора. Каждый уважающий себя аналитик данных пытается по-максимуму понять информацию, с которой он собирается работать. В этом ему помогает знание математического анализа и статистики. Построение различных распределений и функций для численных данных, применение гистограмм к факторным и категориальным значениям может помочь увидеть важные закономерности или ошибки в данных, которые могут сильно влиять на конечный результат предсказания.

Понятие градиента, касательной и знание методов оптимизации используется при применении и настройке алгоритмов уменьшения функции потерь для задач машинного обучения, это — отдельная важная часть науки о данных. Такой метод как обучение с подкреплением (reinforcement learning) не даст хороших результатов при отсутствии продуманного метода оптимизации целевой функции.

Теория вероятности и математическая статистика неотделимы от data science, по своей сути, анализ данных начался с появлением статистических исследований и попыток найти в них закономерности. Создание выборок, определение вида метода машинного обучения, подходящего конкретным данным, понимание метрик невозможно без понимания основных аспектов этих областей математики. А сколько еще тонкостей в каждом методе!

Конечно, Вам не нужно быть академиком по математике, чтобы стать хорошим data scientist-ом, однако, для начала крайне необходимо иметь представление о вышеперечисленных областях и понимать основные понятия. В дальнейшем при желании совершенствоваться не обойтись без математической подготовки.

текст: Вашурина Мария

Блог SkillFactory
Добавить комментарий