Data Scientist

Как успешно пройти собеседование на должность Data Scientist? Самый полный гид

Давайте определимся с терминами. Data Science, или наука о данных, появилась на стыке статистики, машинного обучения и анализа данных. Дисциплина объединила в себе научные методы, модели и алгоритмы, и призвана решать бизнес-задачи.

Позиция Data Scientist может называться по-разному и включать в себя разные функции в зависимости от сферы деятельности компании. Для удобства мы будем использовать название «эксперт по анализу данных», а в списке ниже приведём обобщённые требования к должности:

  • знание основ математики и математической статистики
  • знание машинного обучения;
  • навык работы с вычислительной техникой;
  • опыт разработки программного обеспечения;
  • умение добывать и визуализировать обработанные данные.

Готовясь к собеседованию, вы, спрашиваете себя: из чего оно будет состоять? Как к нему готовиться? На какие вопросы нужно знать ответы? Каких ошибок можно избежать? Как лучше себя вести?

Проанализировав несколько источников, мы выделили ключевые вопросы, которые задают работодатели на подобных собеседованиях, определили детали, которые не стоит упускать, и частые ошибки, о которых важно знать заранее. В конце статьи вас ждут полезные ссылки на дополнительные источники и материалы.

Из чего состоит собеседование?

Собеседование на должность эксперта по анализу данных проходит в несколько этапов, важнейшим из которых, на наш взгляд, является проверка ваших знаний. На этом этапе интервьюеру будет важно понять, соответствуют ли ваши знания и навыки должности, на которую вы претендуете, и можете ли вы применять их на практике. Соответственно, стоит ожидать вопросов и заданий из областей, близких к Data Science, а именно:

  • вопросы по статистике и науке о данных;
  • вопросы по машинному обучению;
  • вопросы по глубинному обучению;
  • вопросы по языкам программирования;

Наука о данных и статистика

Наука о данных изучает проблемы анализа и обработки данных. Фундаментальными основами в Data Science, в числе прочих, являются теория вероятности, корреляция и математическая статистика — вот примеры задач по этим темам.

1. Каверзные вопросы по науке о данных и машинному обучению будут задаваться или уже задавались вам на собеседованиях. Если вы понимаете тему, то на интервью вам не сложно будет показать себя профессионалом. Чтобы ответить на вопросы, необходимо иметь практическое понимание машинного обучения и связанных с ним статистических понятий.

Вопрос: У вас есть набор данных. Он содержит недостающие значения, которые распределены вдоль 1 стандартного отклонения от медианы. Какой процент данных останется неизменным? Почему?

Ответ: В этом вопросе есть подсказка, которая подтолкнёт вас к решению. Так как данные распределены по медиане, то можно предположить, что речь идёт о нормальном распределении. Нам известно, что при нормальном распределении ~68% данных лежит в 1 стандартном отклонении от медианы, а значит ~32% данных остается неизменным. Таким образом, ~32% данных останется неизменным при недостающих значениях.

Если хотите потренироваться ещё, откройте полный список вопросов (англ.): https://www.analyticsvidhya.com/blog/2016/09/40-interview-questions-asked-at-startups-in-machine-learning-data-science/

2. Вопросы о вероятности в науке о данных. Вероятность считается основным среди понятий науки о данных. Вам нужно иметь чёткое представление об этой теме, чтобы заполучить должность эксперта по анализу данных.

Вопрос: У Алисы двое детей, и один ребёнок из двух — девочка. Какова вероятность того, что второй ребенок — тоже девочка? Вы можете предположить, что в мире равное количество людей мужского и женского пола.

A) 0,5

B) 0,25

C) 0,333

D) 0,75

Ответ: (C)

Варианты для двоих детей могут быть такими: {ММ, МД, ДМ, ДД}

Так как известно, что один ребенок — девочка, мы можем исключить вариант ММ из выборочного пространства. Таким образом, выборочное пространство может содержать 3 варианта, тогда как только один из них удовлетворяет второму условию. Таким образом, вероятность того, что второй ребенок — тоже девочка, составляет 1/3.

Если хотите потренироваться ещё, откройте полный список вопросов (англ.): https://www.analyticsvidhya.com/blog/2017/04/40-questions-on-probability-for-all-aspiring-data-scientists/

3. Корреляция — ещё одно из основных понятий в науке о данных. На первый взгляд оно кажется простым, но имеет свои нюансы. Если вы изучаете статистические методы, то вы, вероятно, сталкивались с этими вопросами. Для тех, кто имеет большой опыт в статистике, эти вопросы помогут освежить знания.

Самые часто задаваемые вопросы о корреляции (англ.): https://www.analyticsvidhya.com/blog/2015/06/correlation-common-questions/

4. Вопросы по статистике. Необходимо обладать уверенными знаниями в статистике, чтобы пройти собеседование в этой области. Умение применять статистические знания — это возможность использовать множество эффективных способов анализа объекта.

Вопрос:Исследования показывают, что прослушивание музыки во время обучения улучшает память. Чтобы это продемонстрировать, исследователь создает выборку из 36 студентов колледжа и предлагает им выполнить стандартный тест на память, одновременно слушая музыку. В обычных условиях (без музыки) средний полученный балл был 25, стандартное отклонение — 6. Средний балл после эксперимента (то есть с музыкой) составил 28.
Какова нулевая гипотеза в этом случае?

A) Прослушивание музыки во время обучения не влияет на память.

B) Прослушивание музыки во время обучения может ухудшить память.

C) Прослушивание музыки во время обучения может улучшить память.

D) Прослушивание музыки во время обучения не улучшит, но может ухудшить память.

Ответ: (D)

Нулевая гипотеза — принимаемое по умолчанию предположение о том, что между двумя наблюдаемыми феноменами нет связи. В данном случае нулевая гипотеза состоит в том, что между прослушиванием музыки и улучшением памяти нет никакой взаимосвязи.

Если хотите потренироваться ещё, вы знаете что делать (англ.): https://www.analyticsvidhya.com/blog/2017/05/41-questions-on-statisitics-data-scientists-analysts/

5. Вопросы по линейной регрессии. Метод линейной регрессии широко используется в статистике.

Вопрос:

Линейная регрессия в основном применяется для регрессии.

A) Верно.

B) Неверно.

Решение: (A)

Линейная регрессия имеет зависимые переменные, которые имеют непрерывные значения.

Дополнительные вопросы (англ.): https://www.analyticsvidhya.com/blog/2017/07/30-questions-to-test-a-data-scientist-on-linear-regression/

6. Вопросы на понимание логистической регрессии. Метод логистической регрессии — это часто используемый алгоритм для решения проблем классификации.

Попробуйте ответить на все 30 вопросов (англ.): https://www.analyticsvidhya.com/blog/2017/08/skilltest-logistic-regression/

Читайте в блоге: Обзор TensorFlow 2.0

Машинное обучение

Машинное обучение — это основная область знаний в профессии эксперта по анализу данных, поэтому к этой теме стоит подготовиться получше. Мы подобрали как общие вопросы о машинном обучении, так и задания по конкретным разделам, алгоритмам и методам.

  1. По сорока вопросам по машинному обучению можно пройтись здесь (англ.):

2. Вопросы по обработке естественного языка — разделу науки, направленному на обучение компьютеров человеческому языку, то есть тому, как мы пишем и что мы говорим:

3. Вопросы по дереву решений — алгоритму машинного обучения, который помогает решать задачи классификации и прогнозирования. Он прост в использовании, и с помощью его можно наглядно объяснить коллегам и акционерам выбранное бизнес-решение. 30 вопросов для тренировки:

4. Вопросы по методу опорных векторов:

5. Вопросы по методу снижения размерности:

6. Вопросы по кластерному анализу:

Читайте в блоге: Тренды Data-driven маркетинга: какие профессии нужно осваивать, чтобы быть в тренде

Deep Learning

Deep Learning — это область машинного обучения, с помощью которой создаются нейронные сети и математические модели, применяющиеся в распознавании речи и анализе текстов.

1.Вопросы по основам Deep Learning:

2. Вопросы по обработке изображений:

Инструменты и языки программирования

Эксперту по анализу данных необходимо владеть хотя бы одним из языков программирования: Python, R. Также было бы неплохо иметь навыки работы с каким-нибудь инструментом для анализа данных — например, SQL или SAS. Естественно, чем больше инструментов у вас в запасе, тем сильнее прокачан ваш навык программирования, а значит, больше шансов заполучить желаемую должность.

R (англ.):

Python (англ.):

SAS (англ.):

SQL (англ.):

Практические задачи

HR-менеджер или его коллеги скорее всего захотят проверить логику и ход ваших мыслей. В этом смысле ваш уникальный профессиональный опыт может сказать о вас больше, чем сертификат и диплом. Подготовьте реальные примеры решения задач и используйте их, чтобы усилить шанс на победу, или потренируйтесь в их решении здесь:

Ошибки

Перейдем к следующей важной теме: частые ошибки, которые совершают соискатели.

1.Подгоняют резюме под запрос рынка или конкретного работодателя, добавляя «правильные» термины и опыт.

Желая получить востребованную позицию, вы можете решить завысить свои умения и опыт работы в угоду требованиям вакансии. Вероятнее всего, такое резюме быстро одобрят HR-боты. Однако на собеседовании потенциальный работодатель может попросить раскрыть ту или иную тему, задав вопросы, которые поставят вас в тупик. Не стоит создавать для себя заведомо проигрышную ситуацию. Отсутствие опыта в одной области может компенсироваться богатым опытом в другой, а вот ложь вряд ли поможет компенсировать недостаток умений, и скорее испортит о вас впечатление.

2. За отсутствием фундаментальных знаний надеются на интуицию и удачу.

Интуитивное понимание — это большой плюс для кандидата, однако компенсировать им недостаток или полное отсутствие глубоких знаний в своей области не стоит. Такая самонадеянность может обернуться против вас, когда вы, например, не сможете объяснить, что значит «EM-алгоритм» или «k-means». Используйте свою интуицию как дополнительную сильную сторону, но не как основное преимущество.

3. Неспособность применять аналитические выводы в решении бизнес-вопросов.

Несмотря на то, что исследовательская работа — это основная деятельность эксперта по анализу данных, главная цель исследования — определить и разработать бизнес-решение на основе проанализированных данных, а не просто построить модель. Понимание продукта — обязательное умение, и работодатель, вероятно, предложит вам решить одну или несколько задач уже на собеседовании. В этом случае не стоит торопиться с ответом и теоретическими обоснованиями. Продумайте или напишите свой ответ, для этого можно попросить немного времени. Выстроив логику ответа, вы продемонстрируете последовательность и умение решать главную задачу эксперта по анализу данных, а значит удвоите свои шансы на победу.

Что почитать

Конечно, невозможно описать всё собеседование с точностью до вопросов и предусмотреть все нюансы будущего собеседования, поэтому мы составили подборку статей, которые не попали в гид, но могут оказаться полезными.

О машинном обучении на ресурсе Quora: https://www.quora.com/What-is-machine-learning-4

Об уникальном пути аналитика Моники Рогати, экс-аналитика LinkedIn: https://www.forbes.com/sites/quora/2017/01/20/whats-the-best-path-to-becoming-a-data-scientist/#6784b9ed37d2

О подходе к собеседованию на должность Data Scientist в Airbnb от Райли Ньюмана, директора отдела аналитики: https://www.quora.com/How-does-Airbnb-hire-data-scientists

О девяти главных навыках эксперта по анализу данных: https://www.kdnuggets.com/2018/05/simplilearn-9-must-have-skills-data-scientist.html

Заключение

Вероятно, вы уже поняли, что главный элемент успешного собеседования — это серьёзная подготовка и фундаментальные знания в области науки о данных. Мы обозначили основные темы и дали ссылки на вопросы, которые, надеемся, помогут определиться со следующим шагом на пути к совершенствованию ваших умений и навыков.

В SkillFactory есть три специализации для желающих изучать Data Science:

Специализация Data Science

Курс по Machine Learning

Курс по нейронным сетям и deep learning

текст: Любицкая Дарья

Поделиться: