Насколько хорошо надо знать математику, чтобы стать Data Scientist

Анализ данных — одна из самых популярных и востребованных отраслей как в бизнесе, так и в науке, которой, однако, не учат в университете так же, как, например, медицине или истории. Современные специалисты data science такие же разные, как кусочки лоскутного одеяла — с разным образованием и разной базой знаний. В этой статье мы поговорим о том, насколько необходима математика для data science.

Современная наука о данных уже накопила богатый программный инструментарий: существует много библиотек и встроенных функций для обработки информации, даже для использования самих методов машинного обучения. Для запуска собственной модели начинающему data scientist-у достаточно ознакомиться с порядком выполнения определенных процедур и наличием нужных методов в какой-либо из библиотек. Модель запуститься и будет работать, даже выдаст результат, и, вполне возможно, неплохой, а то и вовсе потрясающий. Однако, вряд ли такая модель будет хоть сколько-нибудь отвечать реальности и выдавать прогнозы, похожие на правду — использование методов машинного обучения без понимания глубинной сути и без должной предварительной обработки данных может способствовать переобучению модели или недообучению. Поэтому очень важно понимать теоретические основы (которые неотделимы от математических формул и понятий) всех аспектов науки о данных.

Математика, царица всех наук, и здесь занимает высокое положение. Молодому специалисту нужно освоить, как минимум, следующие ее разделы, чтобы стать хорошим data scientist-ом:

Курс по математике для Data Science
Идет набор в группу 2 100₽ в месяц

Линейная алгебра:

  • Векторное пространство.
  • Линейная независимость.
  • Норма и скалярное произведение векторов.
  • Определение матрицы. Операции над матрицами.
  • Ранг и определитель матрицы.
  • Системы линейных уравнений.
  • Типы матриц.
  • Собственные вектора и собственные значения.

Математический анализ:

  • Функции и их свойства.
  • Предел функции (основные представления).
  • Производная функции (+ её геометрический и механический смысл).
  • Производная сложной функции.
  • Экстремумы функции. Выпуклость функции.
  • Частные производные и градиент.
  • Градиент в задачах оптимизации.
  • Производная по направлению.
  • Касательная плоскость и линейное приближение.

Методы оптимизации:

  • Оптимизация негладких функций (+ проблема локальных минимумов).
  • Метод имитации отжига.
  • Генетические алгоритмы. Алгоритм дифференциальной эволюции.
  • Метод Нелдера-Мида.

Математическая статистика и теория вероятности:

  • Определение вероятности. Свойства вероятности.
  • Условные вероятности. Формула полной вероятности. Формулы Байеса.
  • Дискретные случайные величины.
  • Непрерывные случайные величины.
  • Оценка распределения по выборке. Статистики.
  • Характеристики распределений.
  • Важные статистики (выборочные среднее, медиана, мода, дисперсия, интерквартильный размах).
  • Центральная предельная теорема.
  • Доверительные интервалы.

Все 4 направления рассматриваются на нашем курсе по математике для data science

DS
Специализация Data Science
Идет набор в группу 12 500₽ в месяц

Допустим, Вы уже имеете все перечисленные теоретические знания (или хотя бы большую часть), но как их применить на практике? Линейная алгебра полезна, как при начальной работе с данными, так и при желании понять сложные методы машинного обучения. На начальных этапах знания о матрицах, их свойствах и операциях с ними помогут понять, как устроен механизм работы методов библиотеки Numpy, как считаются важные статистические величины (например, корреляция) для больших данных.

Если же Вы работаете с нейронными сетями, то, наверняка, Вам уже приходилось слышать понятие тензора, которое основано на понятии многомерного вектора. Каждый уважающий себя аналитик данных пытается по-максимуму понять информацию, с которой он собирается работать. В этом ему помогает знание математического анализа и статистики. Построение различных распределений и функций для численных данных, применение гистограмм к факторным и категориальным значениям может помочь увидеть важные закономерности или ошибки в данных, которые могут сильно влиять на конечный результат предсказания.

Понятие градиента, касательной и знание методов оптимизации используется при применении и настройке алгоритмов уменьшения функции потерь для задач машинного обучения, это — отдельная важная часть науки о данных. Такой метод как обучение с подкреплением (reinforcement learning) не даст хороших результатов при отсутствии продуманного метода оптимизации целевой функции.

Теория вероятности и математическая статистика неотделимы от data science, по своей сути, анализ данных начался с появлением статистических исследований и попыток найти в них закономерности. Создание выборок, определение вида метода машинного обучения, подходящего конкретным данным, понимание метрик невозможно без понимания основных аспектов этих областей математики. А сколько еще тонкостей в каждом методе!

Конечно, Вам не нужно быть академиком по математике, чтобы стать хорошим data scientist-ом, однако, для начала крайне необходимо иметь представление о вышеперечисленных областях и понимать основные понятия. В дальнейшем при желании совершенствоваться не обойтись без математической подготовки.

текст: Вашурина Мария

Поделиться:
Опубликовано в рубрике Наука о данных (Data Science)Tagged ,

SkillFactory.Рассылка