Какая математика нужна дата-сайентистам?

Зачем изучать линейную алгебру, теорию вероятностей, статистику и методы оптимизации

Владеть основными методами машинного обучения и уметь интерпретировать результаты построенных моделей — must have для дата-сайентиста. Но чтобы решать нестандартные задачи, важно понимать законы математики и статистики «под капотом». Разбираемся, как именно математика помогает дата-сайентистам и какие разделы нужно знать.

Какая математика нужна для Data Science?

Со знаниями математики нейронные сети и машинное обучение перестанут быть магией, вы будете понимать, как это работает. С ее помощью можно корректно обработать данные и правильно обучить модель — алгоритм, который находит оптимальное решение задачи.

Математика для Data Science нужна и если вы хотите быть в курсе последних событий в отрасли и читать научные статьи. Так, например, выглядит фрагмент статьи про компьютерное зрение в 2021 году:

Источник

Самые важные разделы математики для Data Science — это:

  • линейная алгебра;
  • теория вероятностей и математическая статистика;
  • математический анализ и методы оптимизации;
  • временные ряды.

Линейная алгебра

Большой раздел математики, имеющий дело со скалярами, наборами скаляров (векторами), массивами чисел (матрицами) и наборами матриц (тензорами).

Ключевые понятия линейной алгебры. Источник

Почти любая информация может быть представлена с помощью матрицы. Объясним на примере: МРТ-снимок головного мозга — это набор плоских снимков, слоев мозга. Каждый плоский снимок можно представить как таблицу интенсивности серого цвета, а весь МРТ-снимок — это будет тензор. Затем можно найти спектр матрицы — набор всех собственных чисел векторов. С помощью спектров можно классифицировать данные на норму и патологию и выявить, например, есть ли у человека заболевание мозга.

Теперь возьмем задачу, связанную с бизнесом, — проанализировать и спрогнозировать прибыль сети магазинов. Отдельный магазин можно описать набором чисел, которые показывают размер прибыли, количество товара, количество рабочих часов в неделе, время открытия и закрытия. Набор этих чисел будет вектором. Для всей сети магазинов набор векторов составит таблицу с числами или матрицу.

Частично линейную алгебру используют в крупных компаниях при разработке рекомендательных систем (например, в Facebook, YouTube, Instagram). Знания о матрицах, их свойствах и операциях с ними помогут понять, как устроен механизм работы методов библиотеки NumPy, как считаются важные статистические величины для больших данных.

Теория вероятностей и математическая статистика

Статистические исследования — прообраз науки о данных: они тоже проводились, чтобы найти закономерности.

К примеру, нужно определить, какой из двух рекламных роликов более удачный. Для этого надо запустить рекламу с этими видео и получить результат. Предположим, на первый кликнула 1 тыс. пользователей, на второй — 1,1 тыс. Теория вероятностей и статистика помогают понять, случайность это или закономерность.

С помощью статистических методов можно выявлять корреляцию (зависимость) между переменными, например между днем недели и количеством покупок на маркетплейсе.

Чтобы рассчитать вероятности и проанализировать, какие колебания и связи являются случайными, а какие несут в себе смысл, нужны знания о случайных величинах, их характеристиках и распределении; также нужно уметь проверять статистические гипотезы.

Математический анализ и методы оптимизация

Математический анализ — раздел математики, он включает дифференциальное и интегральное исчисления.

В анализе данных он используется в основном (хотя далеко не только) для оптимизации — подбора наилучших параметров системы для минимизации или максимизации целевой функции. Практически каждый алгоритм машинного обучения нацелен на то, чтобы минимизировать ошибку оценки с учетом различных ограничений. В этом и состоит задача оптимизации.

Например, те, кто занимается транспортной оптимизацией, минимизируют время, затраты на проезд по платным автострадам, топливо, расходы на эксплуатацию транспортных средств.

Как глубоко нужно знать математику?

Диплом механико-математического факультета МГУ точно не обязателен, чтобы стать дата-сайентистом. Джуниору-специалисту достаточно базовых знаний, но вот чтобы расти в профессии, придется углубиться.

Курс 

Data Scientist с нуля

Станьте востребованным специалистом, изучив набор инструментов, необходимый для уровня junior. Наш карьерный центр поможет вам оформить резюме и начать проходить собеседования. Дополнительная скидка 5% по промокоду BLOG.

Узнать больше

Ответ на вопрос: “Как глубоко надо знать математику?” зависит от того, как много вы хотите зарабатывать и какую должность занять. Со специальным образованием начинать будет проще, но в целом проблем освоить специальность нет, главное — относиться к математике осознанно и понимать то, что вы делаете, а не зубрить.

Математика на собеседованиях в Data Science: к чему готовиться, в каком формате могут быть вопросы?

На собеседованиях могут попросить как решить простую математическую задачу, так и предложить алгоритм решения какой-то прикладной рабочей проблемы — от подготовки данных до оценки результатов анализа. Также вас могут попросить пройти компьютерное тестирование на мышление и логику, время на выполнение которого будет ограничено, или же задать несколько устных вопросов.

Вопросы из разных разделов статистики можно посмотреть тут:

Примеры задач:

  • Анализ тональности отзывов на один из продуктов (данных не всегда хватает, они могут быть грязными и немногочисленными).
  • Написать тематический классификатор поисковых запросов (задача многоклассовой классификации).

Полезные ссылки

Книги:

Бесплатные курсы:

Видео и каналы:

Базовую математику для Data Science реально освоить, не имея опыта в этой сфере. На курсе «Математика для Data Science» вы узнаете, как знание математики и статистики работает в решении реальных задач. В курсе много практики, которая не ограничивается решением классических уравнений и абстрактных заданий.

Курс

Математика для Data Science

Изучите необходимую базу по математике и статистике для освоения машинного обучения

  • Рассказываем о математике и статистике понятно
  • 8 недель и 4 раздела
  • Практические задачи

Получить скидку

Промокод BLOG5 +5% скидки

Какие курсы вам подходят

Курс «Математика для Data Science»

От 8950 Р/мес

2 мес

Подробнее о курсе

Курс «Data Science»

От 7500 Р/мес

12 мес

Подробнее о курсе
(рейтинг: 5, голосов: 5)
Добавить комментарий