math_for_DS

Какая математика мне понадобится, чтобы стать Data Scientist?

Математика — основа всех современных научных дисциплин. Наука о данных и её методы, включая машинное обучение, также строятся на математике. В университетах и колледжах по всему миру постепенно формируются академические программы «Data Science». Безусловно, они отличаются друг от друга, ведь наука о данных ещё не успела обрести свою четкую структуру. Например, магистерская программа Data Science Вашингтонского университета включает в себя 8 ключевых курсов:

  1. Введение в статистику и теорию вероятностей.
  2. Визуализация данных.
  3. Прикладная статистика и планирование экспериментов.
  4. Управление данными в науке о данных .
  5. Статистические методы машинного обучения для исследователей данных.
  6. Разработка программного обеспечения в науке о данных.
  7. Масштабируемые информационные системы и алгоритмы.
  8. Антропоцентричная наука о данных.

Краткий сравнительный обзор 20 университетов США, предлагающих магистерскую программу в области Data Science, можно посмотреть в удобной подборке на портале Medium. Ну а мы попробуем определить общий спектр математических знаний, который необходим для Data Scientist.

Сначала определимся с основными задачами и навыками исследователя данных:

  • Моделировать процесс, физический или информационный, с помощью исследования основных динамик.
  • Строить гипотезы.
  • Оценивать качество источника данных.
  • Оценивать неопределенности применительно к данным и прогнозам.
  • Определять скрытые характеристики в потоке информации.
  • Учитывать и понимать ограниченности модели.
  • Понимать математическое доказательство и всю абстрактную логику, на которой оно строится.

Все эти особенности рабочего процесса исследователя данных формируют и особенный, усложненный образ мышления: не в рамках чисел, но в контексте абстрактных математических категорий, их свойств и взаимосвязей. Таким образом, ясно, что некий пласт фундаментальных математических знаний Data Scientist просто необходим. И вот что в него входит:

Основы математического анализа

На первый взгляд может показаться, что эта дисциплина исключительно академическая и не выходит за рамки университетов. Однако на практике исследователю данных математический анализ поможет разобраться с методом обратного распространения ошибки, или backpropagation, а также освоить Deep Learning. Итак, чек-лист по матанализу:

  • Функции и их свойства.
  • Предел функции.
  • Производная функции.
  • Производная сложной функции.
  • Экстремумы функции; выпуклость функции.
  • Частные производные и градиент.
  • Градиент в задачах оптимизации.
  • Производная по направлению.
  • Касательная плоскость и линейное приближение.

Что почитать:

Calculus, James Stewart

Calculus, Michael-Spivak

Основы линейной алгебры

Линейная алгебра вряд ли понадобится новичкам. Однако если вы уже имеете опыт и хотите развиваться в этой области, то вам это будет очень полезно. Алгебра матриц — это раздел линейной алгебры, основы которого применяются в рекомендательной системе Facebook, LinkedIn, Spotify, Netflix и др. Это важный элемент знаний: именно линал помогает понять, как алгоритмы машинного обучения действуют в потоке данных. Мы собрали чек-лист понятий и подразделов линейной алгебры, который понадобится Data Scientist:

  • Векторное пространство.
  • Линейная независимость.
  • Норма и скалярное произведение векторов.
  • Определение матрицы; операции над матрицами.
  • Ранг и определитель матрицы.
  • Системы линейных уравнений.
  • Типы матриц.
  • Собственные вектора и собственные значения.
  • Матричные разложения (спектральное, сингулярное).
  • Приближение матрицей меньшего ранга.
  • Сингулярное разложение и низкоранговое приближение.

Что почитать:

Linear Algebra, Gilbert Strang.

Linear Algebra: Step by Step, Kuldeep Singh.

Статья на портале Medium Linear Algebra for Data Science. Автор подробно и последовательно рассказывает, как Data Scientist использует линейную алгебру в своей работе.

Методы оптимизации

Это довольно узкая область знаний, которая используется в теоретической информатике и исследовании операций. Однако общее понимание методов оптимизации может быть очень полезно в изучении машинного обучения. Практически каждый алгоритм машинного обучения нацелен на то, чтобы минимизировать ошибку оценки с учетом различных ограничений. В этом и состоит задача оптимизации. Итак, чек-лист по оптимизации:

  • Оптимизация негладких функций.
  • Алгоритм имитации отжига.
  • Генетические алгоритмы; алгоритм дифференциальной эволюции.
  • Метод Нелдера-Мида.
  • Линейное программирование, симплекс-метод.
  • Целочисленное программирование.

Что почитать:

Статья автора из Towards Data Science What lies beneath? Optimization at the heart of Machine Learning.

Читайте в блоге: Почему в способности объяснения модели состоит будущее Data Science

Теория вероятностей и математическая статистика

Довольно обширная и полезная область знаний. Здесь важно иметь представление об основных концепциях статистики и вероятности, ведь на них построены классическое машинное обучение и стандартные A/B тесты. А вот и чек-лист по статистике и теории вероятностей:

  • Основы теории вероятностей.
  • Условные вероятности; формула полной вероятности; формулы Байеса.
  • Дискретные случайные величины.
  • Непрерывные случайные величины.
  • Оценка распределения по выборке.
  • Характеристики распределений.
  • Центральная предельная теорема.
  • Доверительные интервалы.

Что почитать:

All of Statistics, Larry Wasserman.

Statistics Fundamentals, Katharine Alexis Kormanik.

Introduction to Statistical Learning, Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani.

Bayesian Statistics, William M Bolstad.

Think Stats, Allen B Downey.

Безусловно, сильному исследователю данных необходимы не только математические знания, но и аналитический ум, любознательность, тяга к исследованиям, бизнес-направленность и навыки программирования. И профессионалом его делает то, насколько мастерски он владеет этими навыками, дисциплинами и качествами. Поэтому не останавливайтесь на достигнутом уровне, каким бы он ни был, ищите новые области, изучайте и исследуйте мир больших данных! Сделать первый шаг к математике и статистике можно на курсе по математике для Data Science. Он состоит из четырёх модулей, поможет втянуться в линейную алгебру, матанализ, теорию вероятности и статистику. Занятия ведутся в режиме онлайн. А участники реферальный программы смогут оплатить курс со скидкой 20%!

текст: Любицкая Дарья

Поделиться: