DS_vs_DE

В чем разница между Data Scientist и Data Engineer?

Активная цифровизация экономики и других сфер жизни общества вместе с развитием науки о данных стали причиной появления сразу нескольких похожих профессий в области данных, которые, на первый взгляд, сложно отличить друг от друга. Некоторые из них так тесно переплетаются, что кажутся взаимозаменяемыми. Но если присмотреться к ним поближе и разобраться в их сути, становится ясно, что они выполняют разные функции и подразумевают развитие различных наборов умений и навыков.

Две тесно связанные профессии внутри Big Data

Data Scientist, исследователь данных, и Data Engineer, инженер данных. Те самые позиции, которые часто путают и считают если не синонимами, то каким-то непонятным разветвлением одной специальности. Давайте разберёмся, что здесь не так и кто эти люди на самом деле.

Что делает исследователь данных?

  • Очищает, обрабатывает и упорядочивает данные.
  • Использует методы описательной статистики для анализа и систематизирования данных, чтобы снабжать бизнес инсайтами.
  • Строит модели с помощью алгоритмов машинного обучения и ориентирован на решение бизнес-задач.

Что делает дата-инженер?

  • Разрабатывает, строит, тестирует и поддерживает архитектуры данных, такие как крупные базы данных или системы для обработки данных.

Получается, первый превращает предварительно обработанные дата-инженером данные в инсайты и использует их для построения моделей данных, чтобы ответить на тот или иной запрос бизнеса. Второй же работает с сырыми данными, которые могут содержать всякого рода ошибки и едва ли могут быть использованы исследователем данных для анализа и систематизации. До этого этапа дата-инженеру необходимо построить надёжные пайплайны данных.

Читайте в блоге: Как переквалифицироваться из программиста в Data Engineer? Что учить и где?

Представим, что некая компания занимается онлайн-продажей бытовой техники. Каждый раз, когда посетитель сайта нажимает на тот или иной товар, создается новый элемент данных. Дата-инженеру нужно понять, как собрать эти данные, какого типа метаданные будут добавлены для каждого клика-события и как хранить данные в удобном для доступа формате. Исследователю данных, в свою очередь, нужно получить данные о том, какие клиенты купили те или иные товары, и использовать их так, чтобы предсказать вариант идеального предложения бытовой техники для каждого нового посетителя сайта.

Или представим, что вы — Data Scientist платной онлайн-библиотеки некоего издательства. Вы хотите проанализировать историю действий пользователей сайта библиотеки и посмотреть, какие действия связаны с пользователями, которые тратят больше денег. Вашему коллеге, дата-инженеру, необходимо будет собрать информацию из логов сервера и журналов событий веб-сайта. Для этого ему необходимо создать пайплайн, который сможет «проглотить» логи сайта и логи сервера в реальном времени, проанализировать их и соотнести с конкретным пользователем. Затем инженеру нужно будет обеспечить хранение проанализированных логов в базе данных так, чтобы потом их можно было без труда запросить. Получается, Data Engineer, в отличие от Data Scientist, — позиция более прикладная, более узкая. Деятельность инженера данных направлена на кропотливую работу по формированию пайплайнов данных и их дальнейшему поддержанию.

Должностные Обязанности

Что ж, с ролями определились, теперь поговорим об обязанностях, которые одновременно похожи и отличаются.

Обязанности исследователя данных:

  • Проводить анализ и исследование данных, чтобы решать бизнес-задачи.
  • Использовать большие объёмы данных из внутренних и внешних источников, чтобы отвечать на запросы бизнеса.
  • Использовать аналитические программы, машинное обучение и статистику, чтобы подготавливать данные для прогностического и предсказательного моделирования.
  • Исследовать данные, чтобы находить скрытые закономерности.
  • Автоматизировать работу, используя предсказательную и предиктивную аналитику.
  • Подавать полученную информацию в доступном и понятном формате акционерам и руководителям.

Обязанности инженера данных:

  • Разрабатывать, строить, тестировать и поддерживать архитектуры данных.
  • Обеспечивать актуальность и пригодность архитектуры данных для бизнеса.
  • Искать новые возможности для получения данных.
  • Разрабатывать процессы создания наборов данных для моделирования данных, майнинга и производства.
  • Применять различные языки программирования и инструменты, чтобы «подружить» системы между собой.
  • Давать рекомендации по улучшению эффективности, качества хранения и надежности данных.

Вы, наверное, обратили внимание на количество повторов слова «данные» в нашей сравнительной статье. И это неудивительно, ведь оба специалиста имеют общую важную особенность: они работают с big data, и вся работа построена вокруг этих данных — не важно, сырых, прошедших предварительную очистку или готовых к построению модели. И тем не менее, очевидно, что Data Engineer и Data Scientist — это два разных специалиста, перед которыми стоят разные цели. Однако их путают не только новички big data, но и сами компании, которые не хотят разбираться в непонятных, недавно появившихся ролях. Также нередко они преследуют цель сэкономить и нанять одного человека для двойного объёма работы с данными космических размеров. Прибегая к таким мерам и игнорируя важность и различия двух профессий, компания рискует получить сниженное качество обработки, хранения и сбора данных, а также менее эффективное выполнение работы одного из этих двух профессионалов в условиях отсутствия другого. Две позиции неразрывно взаимодействуют друг с другом, и Data Engineer качественно дополняет и совершенствует работу Data Scientist.

Чтобы углубиться в детали профессии дата-инженера, прочтите большую подробную статью портала Dataquest. У вас не останется ни одного вопроса о том, кто такие инженеры данных и зачем они нужны.

Обе профессии сегодня переживают невероятный подъём. Дата-инженеры получили бо́льшую важность, чем когда-либо, а исследователи данных нередко представляют собой набор приобретенных навыков и опыта, природных талантов и особенного склада ума. Чтобы пройти курс по Data Engineering с преподавателем из Amazon, автором книги Tableau Cookbook 2019.х, Евгением Аношиным, кликайте здесь. А чтобы погрузиться в науку о данных с профессионалами из Яндекса, NVIDIA и Amazon и изучить профессию Data Scientist с нуля, зарегистрируйтесь на этот курс.
Помимо этих двух специальностей, есть и другие, связанные с наукой о данных: дата-аналитик, администратор баз данных, менеджер данных, бизнес-аналитик. Эти позиции и их особенности, используя удобную инфографику, описывает Karlijn Willems в своей статье The Data Science Industry: Who Does What.

текст: Любицкая Дарья

Поделиться: