Кто такой Data Scientist?

Чем занимается дата-сайентист, сколько он зарабатывает и правда ли, что это самая сексуальная профессия

Дата-сайентист (он же Data Scientist, специалист по Data Science) может найти себе работу в любой сфере: от розничной торговли до астрофизики. Потому что именно он — настоящий повелитель больших данных. Вместе с автором кейсов для курса по Data Science Глебом Синяковым разбираемся, почему в современном мире всем так нужны дата-сайентисты.

Чем занимается Data Scientist?

Data Scientist применяет методы науки о данных (Data Science) для обработки больших объемов информации. Он строит и тестирует математические модели поведения данных. Это помогает найти в них закономерности или спрогнозировать будущие значения. Например, по данным о спросе на товары в прошлом, дата-сайентист поможет компании спрогнозировать продажи в следующем году. Модели строят с помощью алгоритмов машинного обучения, а с базами данных работают через SQL.

Где нужен и какие задачи решает Data Scientist?

Дата-сайентисты работают везде, где есть большие объемы информации: чаще всего это крупный бизнес, стартапы и научные организации. Поскольку методы работы с данными универсальны, специалистам открыты любые сферы: от розничной торговли и банков до метеорологии и химии. В науке они помогают совершать важные открытия: проводят сложные исследования, например, строят и обучают нейронные сети для молекулярной биологии, изучают гамма-излучения или анализируют ДНК.

В крупных компаниях дата-сайентист — это человек, который нужен всем отделам:

  • маркетологам поможет проанализировать данные карт лояльности и понять, каким группам клиентов что рекламировать;
  • для логистов изучит данные с GPS-трекеров и оптимизирует маршрут перевозок;
  • HR-отделу поможет предсказать, кто из сотрудников скоро уволится, проанализировав их активность в течение рабочего дня;
  • с продажниками спрогнозирует спрос на товар с учетом сезонности;
  • юристам поможет распознать, что написано на документах, с помощью технологий оптического распознавания текстов;
  • на производстве спрогнозирует оборудования на основе данных с датчиков.

В стартапах они помогают разрабатывать технологии, которые выводят продукт на новый уровень: TikTok использует машинное обучение, чтобы рекомендовать контент, а MSQRD — технологии по распознаванию лица и искусственный интеллект.

Пример задачи:

Если дата-сайентисту нужно спрогнозировать спрос на новую коллекцию кроссовок, то он:

  • готовит данные о продажах кроссовок за последние несколько лет;
  • выбирает модель машинного обучения, которая лучше всего подойдет для этого прогноза;
  • выбирает метрики, которые позволят оценить качество модели;
  • пишет код модели;
  • применяет алгоритм машинного обучения на данных о прошлых продажах;
  • получает прогнозные значения и предлагает их менеджерам для принятия решения об объемах производства кроссовок.

Что ему нужно знать?

Дата-сайентист должен хорошо знать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Математические модели позволяют найти в данных закономерности и прогнозировать их значения в будущем. А чтобы применять эти модели на практике, нужно программировать на Python, уметь работать с SQL и библиотеками (набор готовых функций, объектов и подпрограмм) и фреймворками для машинного обучения (например, NumPy и Scikit-learn). Для более сложных задач дата-сайентистам нужен язык С или C++.

Результаты анализа данных нужно уметь визуализировать, например, с помощью библиотек Seaborn, Plotly или Matplotlib.

Визуализация данных с помощью Seaborn
Пример визуализации данных с помощью Seaborn — количество спасшихся после крушения «‎Титаника»‎ женщин и мужчин по возрастам. Источник

Плюсы и минусы профессии

Плюсы:

  • Высокая зарплата — дата-сайентист приносит пользу бизнесу, за это готовы платить.
  • Влияние на бизнес — ваши модели будут напрямую влиять на развитие компании и выручку.
  • Востребованность — данных все больше, а на рынке дефицит кадров, многие крупные компании в поисках хороших кандидатов.

Минусы:

  • Непредсказуемые результаты — нельзя понять, будет ли модель эффективной, до начала работы с ней. Поэтому нужно быть терпеливым и готовым к неудачам, начинать с начала по нескольку раз.
  • Дата-сайентисты часто работают в больших интернет-компаниях, потому что те обладают огромными массивами данных для обработки. В таких компаниях результат работы специалиста сложно выделить среди результатов всего бизнеса.

Как выглядит его рабочий день?

Нужно ли дата-сайентисту работать в офисе, зависит от компании. На hh.ru можно найти около 25% вакансий удаленной работы. Иногда компании предлагают комбинировать работу из офиса и из дома. Взаимодействие с командой зависит от масштаба задач: новичок, готовящий данные к обработке, может общаться только с руководителем, а синьор дата-сайентист должен общаться с заказчиками и делегировать задачи команде.

Как правило, рабочий день начинается с разбора почты и общения с командой. Затем начинается работа с данными: нужно писать SQL-запросы и готовить массивы информации к машинному обучению, писать код модели на Python и прогонять данные через модель. В процессе работы нужно периодически созваниваться с командой и менеджерами, которые будут использовать модель на практике.

Как Data Scientist строит карьеру?

Ступени карьеры в Data Science, в целом, типичны для всей IT-отрасли.

  • Джуниор нуждается в более детализированной постановке задач, его нужно направлять и объяснять, как решать некоторые задачи. Он готовит данные к обработке, очищает их от ошибок, делает простую обработку, строит сводные таблицы.
  • Мидл может сам выполнить стандартные задачи, помощь ему нужна только в нестандартных ситуациях. Занимается машинным обучением и созданием алгоритмов.
  • Синьор имеет несколько готовых проектов, может принять задачу от бизнеса и сам решить ее. Может обработать большие данные и визуализировать результаты, работает со сложными фреймворками.

Дата-сайентист может перейти в Chief Data Officer и управлять Data-проектами или выбрать специализацию, например обработку текста или изображений.

В каких случаях становятся специалистом по Data Science?

  • Когда нравится анализ и систематизация данных и есть интерес к передовым технологиям — дата-сайентисты работают с искусственным интеллектом, нейросетями и большими данными.
  • Когда хочется заниматься исследованиями и наукой на качественно новом уровне.
  • Когда есть опыт в обычной разработке и есть желание освоить больший набор инструментов и заниматься масштабными проектами.
  • Когда на текущей работе мало перспектив, хочется освоить перспективное направление и больше зарабатывать.

Глеб Синяков

аналитик-разработчик в «Тинькофф»

Всех, кто приходит в Data Science, можно разделить на четыре потока. Есть те, кто становятся дата-сайентистами после профессионального образования, но в университетах таких курсов пока немного. Также есть люди технических и научных профессий, которые хотят найти более перспективную работу с большой зарплатой. Третий поток — разработчики, которые устают от скучного программирования и ищут интересные задачи. Есть специалисты, которые начинали с нуля: если у новичков есть самодисциплина и интерес к большим данным, то они становятся хорошими дата-сайентистами. Наконец, есть те, к кому Data Science приходит сам, например к биоинформатикам.

Подробнее о том, чем занимается Глеб Синяков, читайте в рассказе о его профессии.

Насколько это востребовано?

В крупных компаниях только и разговоров, что о дата-сайентистах. По данным Всемирного экономического форума, работа в Data Science занимает первое место в рейтинге профессий с самым большим спросом на рынке до 2025 года.

Data Science — одна из самых растущих профессий в IT, при этом специалистов компаниям не хватает. За последние три года количество вакансий выросло на 433%.

Сколько зарабатывает специалист по Data Science?

Зарплата зависит от этапа карьеры и компании: медианная зарплата junior-специалиста по Data Science — 100 тыс. руб., а дата-сайентиста  middle — более 260 тыс. руб. Для дата-сайентистов с большим стеком технологий и опытом работы от пяти лет есть вакансии и на 700 тыс. руб. Отдельная перспективная опция — возможность работы в международных компаниях.

Какие качества пригодятся дата-сайентисту?

  • Коммуникабельность — общаться нужно много: принимать задачи и разбираться в них, общаться с командой, презентовать результаты заказчикам.
  • Критическое мышление — умение задавать много вопросов окружающим и искать реальные, а не мнимые закономерности.
  • Любознательность — нужно разбираться не только в своей сфере, но и в том, как работают бизнес-процессы, чтобы помочь компании вырасти.

Как стать специалистом по Data Science?

Сейчас хорошее время для входа в профессию — конкуренция пока невысокая. Освоить ее можно и с нулевыми знаниями: главное — интересоваться большими данными и быть готовым много учиться и работать.

Можно пройти бесплатные курсы (вот подборка открытых онлайн-курсов по Data Science от Harvard University), а затем — участвовать в соревнованиях на Kaggle, в мероприятиях, например AI Journey. Не во всех компаниях требуется знать все на отлично, но с хорошим пониманием математики, знанием языка программирования и машинного обучения можно подаваться на позицию стажера или джуниора.

О том, как освоить профессию с нуля на профильных курсах, рассказывают Евгений Денисенко, который был танцором и строителем, а теперь анализирует данные в Минэнерго, и Наталья Вольдман — она ушла из образовательного центра и стала старшим скоринг-аналитиком.

P.S.: Data Scientist — самая сексуальная профессия?

Этот расхожий мем запустил журнал Harvard Business Review, в котором в 2012 году была опубликована статья «Data Scientist — самая сексуальная профессия XXI века».

Текст начинается с рассказа о Джонатане Голдмане, выпускнике Стэнфорда, который устроился в LinkedIn и построил модель, предсказывавшую владельцу аккаунта, кто из пользователей соцсети может оказаться его знакомым. Эта разработка сильно ускорила рост LinkedIn и принесла ей новых пользователей.

В статье упоминается фраза Хэла Вариана, главного экономиста Google: «В ближайшие 10 лет самая сексуальная работа — это статистика. Люди думают, что я шучу, но кто бы мог подумать, что компьютерные инженеры окажутся самой сексуальной работой 90-х?».

(рейтинг: 5, голосов: 6)
Добавить комментарий