Data Scientist и Data Engineer: в чем разница?

Разбираемся, чем занимаются два разных специалиста

Развитие науки о данных дало старт нескольким профессиям с префиксом «дата-», которые несложно перепутать. Работа дата-сайентиста и дата-инженера во многом похожа, но эти специалисты не взаимозаменяемы и выполняют разные задачи. Позиция Data Engineer — прикладная, а Data Scientist — более творческая и аналитическая.

Кто такие исследователи данных и дата-инженеры?

Дата-инженер разрабатывает, строит, тестирует и поддерживает архитектуру данных: крупные базы данных, хранилища или системы для обработки информации. Он работает с сырыми данными, перерабатывает их и строит пайплайны (схемы по их обслуживанию) — то есть подготавливает материал для использования дата-сайентистами.

Дата-сайентист использует обработанные дата-инженером данные, чтобы построить прогнозные модели и решить те или иные бизнес-задачи. Такой специалист использует методы описательной статистики для анализа и систематизирования данных и строит модели с помощью алгоритмов машинного обучения, чтобы снабжать бизнес прогнозами и инсайтами.

Что Data Scientist и Data Engineer могут делать в одной компании?

У исследователя данных и дата-инженера обычно разные цели. Первый непосредственно решает запросы бизнеса: для этого он проверяет гипотезы и строит прогнозные модели. Второй отвечает за оптимальное и надежное хранение данных, их преобразование, а также за быстрый и удобный доступ к ним. Это позволяет дата-сайентисту работать с корректными и актуальными данными. Компании, которые хотят использовать Data Science для развития своего бизнеса, могут нанимать и дата-инженера, и дата-сайентиста.

Пример: в онлайн-магазине бытовой техники каждый раз, когда посетитель сайта нажимает на тот или иной товар, создается новый элемент данных.

Дата-инженер может собрать эти данные и сохранить в удобном для доступа формате. Дата-сайентист получает данные о том, какие клиенты купили те или иные товары, и использует эту информацию так, чтобы предсказать вариант идеального предложения для каждого нового посетителя сайта.

Пример: работа в платной онлайн-библиотеке. Если компания хочет узнать, какие пользователи тратят больше денег, им нужны компетенции и дата-сайентиста, и дата-инженера. Инженер соберет информацию из логов сервера и журналов событий сайта и создаст пайплайн, который соотносит данные с конкретным пользователем. Затем инженеру нужно будет обеспечить хранение полученной информации в базе данных так, чтобы ее можно было без труда запросить. После этого дата-сайентист сможет проанализировать действия пользователей сайта и узнать особенности поведения тех, кто тратит больше денег.

Что именно делает исследователь данных, а что — дата-инженер?

Часть навыков этих специалистов пересекается (например, в области доступа к данным или программирования), но специализация у них разная. Дата-инженер — более прикладная позиция, она направлена на кропотливую работу по формированию пайплайнов данных и их дальнейшему поддержанию. Работа дата-сайентиста — более творческая и аналитическая.

Обязанности дата-сайентиста:

  • проводить анализ и исследование данных, чтобы решать бизнес-задачи;
  • использовать большие объемы данных из внутренних и внешних источников, чтобы отвечать на запросы бизнеса;
  • использовать аналитические программы, машинное обучение и статистику для прогнозирования;
  • исследовать данные, чтобы находить скрытые закономерности;
  • подавать полученную информацию в доступном формате акционерам и руководителям.

Курс

Data Science с нуля

Освойте самую востребованную профессию 2021 года! Только реальные знание и навыки, поддержка менторов и помощь в трудоустройстве. Дополнительная скидка 5% по промокоду BLOG.

Узнать больше

Обязанности инженера данных:

  • разрабатывать, строить, тестировать и поддерживать архитектуру данных;
  • обеспечивать актуальность и пригодность архитектуры данных для бизнеса;
  • искать новые возможности для получения данных;
  • разрабатывать процессы создания наборов данных для моделирования, майнинга и производства;
  • давать рекомендации по улучшению эффективности, качества хранения и надежности данных.

Какую профессию выбрать?

На практике четкая граница между специальностями дата-сайентиста и инженера данных существует только в IT-компаниях и крупных корпорациях с большими IT-отделами. Специалист по Data Science часто сочетает навыки смежных позиций — он должен подстроиться под конкретную задачу и решить ее.

Вход в профессию будет легче, если человек уже обладает частью навыков: умеет программировать, знает математику и статистику. Человек с бэкграундом в IT быстрее поймет принципы работы с данными и сможет выбрать для себя специализацию. Часто разработчики и аналитики переучиваются на дата-сайентистов, продакт-менеджеры — на аналитиков данных, а бухгалтеры и маркетологи — на бизнес-аналитиков.

Изучать науку о данных можно и без технического бэкграунда и умения программировать. Так как позиции дата-аналитика, дата-сайентиста и дата-инженера близки, при необходимости можно будет довольно быстро поменять специализацию.

Помимо этих двух специальностей, есть и другие, связанные с наукой о данных: дата-аналитик, администратор баз данных, менеджер данных, бизнес-аналитик, маркетолог-аналитик, ML-инженер. Все они подразумевают работу с данными и требуют изучения базовых понятий Data Science.

Оптимальный путь для начинающего специалиста — освоить базовые навыки Data Science, а уже затем углубиться в ту область, которая покажется самой интересной.

Блог SkillFactory
Добавить комментарий