Математика — основа всех современных научных дисциплин. Наука о данных и её методы, включая машинное обучение, также строятся на математике. В университетах и колледжах по всему миру постепенно формируются академические программы «Data Science». Безусловно, они отличаются друг от друга, ведь наука о данных ещё не успела обрести свою четкую структуру. Например, магистерская программа Data Science Вашингтонского университета включает в себя 8 ключевых курсов:
- Введение в статистику и теорию вероятностей.
- Визуализация данных.
- Прикладная статистика и планирование экспериментов.
- Управление данными в науке о данных .
- Статистические методы машинного обучения для исследователей данных.
- Разработка программного обеспечения в науке о данных.
- Масштабируемые информационные системы и алгоритмы.
- Антропоцентричная наука о данных.
Краткий сравнительный обзор 20 университетов США, предлагающих магистерскую программу в области Data Science, можно посмотреть в удобной подборке на портале Medium. Ну а мы попробуем определить общий спектр математических знаний, который необходим для Data Scientist.
Сначала определимся с основными задачами и навыками исследователя данных:
- Моделировать процесс, физический или информационный, с помощью исследования основных динамик.
- Строить гипотезы.
- Оценивать качество источника данных.
- Оценивать неопределенности применительно к данным и прогнозам.
- Определять скрытые характеристики в потоке информации.
- Учитывать и понимать ограниченности модели.
- Понимать математическое доказательство и всю абстрактную логику, на которой оно строится.
Все эти особенности рабочего процесса исследователя данных формируют и особенный, усложненный образ мышления: не в рамках чисел, но в контексте абстрактных математических категорий, их свойств и взаимосвязей. Таким образом, ясно, что некий пласт фундаментальных математических знаний Data Scientist просто необходим. И вот что в него входит:
Основы математического анализа
На первый взгляд может показаться, что эта дисциплина исключительно академическая и не выходит за рамки университетов. Однако на практике исследователю данных математический анализ поможет разобраться с методом обратного распространения ошибки, или backpropagation, а также освоить Deep Learning. Итак, чек-лист по матанализу:
- Функции и их свойства.
- Предел функции.
- Производная функции.
- Производная сложной функции.
- Экстремумы функции; выпуклость функции.
- Частные производные и градиент.
- Градиент в задачах оптимизации.
- Производная по направлению.
- Касательная плоскость и линейное приближение.
Что почитать:
Calculus, James Stewart
Calculus, Michael-Spivak
Основы линейной алгебры
Линейная алгебра вряд ли понадобится новичкам. Однако если вы уже имеете опыт и хотите развиваться в этой области, то вам это будет очень полезно. Алгебра матриц — это раздел линейной алгебры, основы которого применяются в рекомендательной системе Facebook, LinkedIn, Spotify, Netflix и др. Это важный элемент знаний: именно линал помогает понять, как алгоритмы машинного обучения действуют в потоке данных. Мы собрали чек-лист понятий и подразделов линейной алгебры, который понадобится Data Scientist:
- Векторное пространство.
- Линейная независимость.
- Норма и скалярное произведение векторов.
- Определение матрицы; операции над матрицами.
- Ранг и определитель матрицы.
- Системы линейных уравнений.
- Типы матриц.
- Собственные вектора и собственные значения.
- Матричные разложения (спектральное, сингулярное).
- Приближение матрицей меньшего ранга.
- Сингулярное разложение и низкоранговое приближение.
Что почитать:
Linear Algebra, Gilbert Strang.
Linear Algebra: Step by Step, Kuldeep Singh.
Статья на портале Medium Linear Algebra for Data Science. Автор подробно и последовательно рассказывает, как Data Scientist использует линейную алгебру в своей работе.
Методы оптимизации
Это довольно узкая область знаний, которая используется в теоретической информатике и исследовании операций. Однако общее понимание методов оптимизации может быть очень полезно в изучении машинного обучения. Практически каждый алгоритм машинного обучения нацелен на то, чтобы минимизировать ошибку оценки с учетом различных ограничений. В этом и состоит задача оптимизации. Итак, чек-лист по оптимизации:
Читайте в блоге: Почему в способности объяснения модели состоит будущее Data Science
- Оптимизация негладких функций.
- Алгоритм имитации отжига.
- Генетические алгоритмы; алгоритм дифференциальной эволюции.
- Метод Нелдера-Мида.
- Линейное программирование, симплекс-метод.
- Целочисленное программирование.
Что почитать:
Статья автора из Towards Data Science What lies beneath? Optimization at the heart of Machine Learning.
Теория вероятностей и математическая статистика
Довольно обширная и полезная область знаний. Здесь важно иметь представление об основных концепциях статистики и вероятности, ведь на них построены классическое машинное обучение и стандартные A/B тесты. А вот и чек-лист по статистике и теории вероятностей:
- Основы теории вероятностей.
- Условные вероятности; формула полной вероятности; формулы Байеса.
- Дискретные случайные величины.
- Непрерывные случайные величины.
- Оценка распределения по выборке.
- Характеристики распределений.
- Центральная предельная теорема.
- Доверительные интервалы.
Что почитать:
All of Statistics, Larry Wasserman.
Statistics Fundamentals, Katharine Alexis Kormanik.
Introduction to Statistical Learning, Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani.
Bayesian Statistics, William M Bolstad.
Think Stats, Allen B Downey.
Безусловно, сильному исследователю данных необходимы не только математические знания, но и аналитический ум, любознательность, тяга к исследованиям, бизнес-направленность и навыки программирования. И профессионалом его делает то, насколько мастерски он владеет этими навыками, дисциплинами и качествами. Поэтому не останавливайтесь на достигнутом уровне, каким бы он ни был, ищите новые области, изучайте и исследуйте мир больших данных! Сделать первый шаг к математике и статистике можно на курсе по математике для Data Science. Он состоит из четырёх модулей, поможет втянуться в линейную алгебру, матанализ, теорию вероятности и статистику.
текст: Любицкая Дарья