Кто такой Data Scientist, чем он занимается и как им стать

03e474f0-20b1-4f4a-93d6-d49bd295fc8b
Какие навыки нужно прокачать и где взять опыт, чтобы стать дата-сайентистом

Большие данные помогают бизнесу автоматизировать процессы, оптимизировать производства, больше узнавать о своих клиентах, а значит, снижать затраты и повышать прибыль. Именно поэтому крупным и средним компаниям сейчас так нужны дата-сайентисты.

Рассказываем, чем занимается специалист по большим данным, как им стать, где брать опыт, и делимся советами дата-сайентистов, которые работают на крупный бизнес.

Чем занимается Data Scientist

Data Scientist работает с большими данными, чтобы с их помощью решить конкретную проблему бизнеса. Пример использования больших данных и искусственного интеллекта — обработка медицинских изображений. На большом количестве рентгеновских снимков алгоритм учится отличать здоровые легкие от пораженных раковой опухолью. После обучения модель может помогать врачам ставить диагноз и назначать лечение пациентам.

В небольших командах все делает один специалист: собирает данные, очищает их, создает математическую модель для обработки, тестирует ее и презентует руководству. В больших командах эти задачи делят между собой несколько человек. 

Пройдите тест из 5 вопросов и узнайте, какие перспективы ждут вас в Data Science. Ссылка в конце статьи.

Data Scientist Иоанн

Иоанн Довгополый,

Data Scientist в СберТех

В блоке «Технологии» мы работаем на внутреннего клиента и ищем способы, как применить модели машинного обучения к разным банковским процессам. Например, сейчас я занимаюсь уже второй версией модели, которая прогнозирует использование нашими сотрудниками программ с платными лицензиями. Ее цель — выяснить, кому в штате действительно нужны платные программы, а кому нет. Это помогает эффективно распределять ресурсы, обеспечивать всех необходимым ПО и сокращать издержки. Внедрение процессов — это не быстро, иногда оно может длиться целый квартал. Мои ежедневные обязанности — идти от получения данных и их исследования до внедрения готового решения в работу банка. Процентов 40 деятельности — просто разработка, остальное — это согласование, написание отчетов и так далее.

У нас маленькая команда, приходится заниматься всем: и инжинирингом данных, и согласованиями, и ведением документации. Мы получаем данные, исследуем их, стараемся понять, подходят ли они под задачу, если нет — запрашиваем еще. Затем переходим к разработке модели и адаптации ее для инфраструктуры банка

Что знает и умеет Data Scientist

Чтобы освоить Data Science, вам понадобится время. Для хорошего специалиста в этой области нужны как крепкие теоретические знания, так и практические навыки в разработке, а еще — умение работать в связке с бизнес-руководством.

Чтобы систематизировать данные и составлять алгоритмы, дата сайентисту пригодится базовая математическая подготовка: как минимум: линейная алгебра, статистика и теория вероятности. Также нужно уметь обращаться с базами данных, пользоваться языком запросов SQL, инструментами Apache Spark, Kafka, Hadoop, Apache Cassandra. Специалист по большим данные должен уметь программировать, чтобы писать алгоритмы, для старта будет достаточно изучить Python.

Дата сайентист решает проблемы бизнеса, а значит по работе придется с бизнесом общаться: получать техническое задание, задавать уточняющие вопросы, чтобы понимать, зачем нужен алгоритм, который вы проектируете. Это поможет избежать недопонимания и бесконечных переделок. Также важно уметь работать в команде: делегировать задачи, слышать своих коллег и не тянуть одеяло на себя.

Фото Иоанна, специалиста по Data Science

Иоанн Довгополый,

Data Scientist в СберТех

На работе я программирую на Python, какие-то вещи для анализа данных я делаю в R, просто потому что знаю и не хочу забывать этот язык. Для сбора данных использую SQL. Из мягких навыков помогает настойчивость. Если нужно что-то получить от других команд, нужно напоминать о себе, каждый день писать «Как продвигается» и иногда даже звонить. Также в крупных компаниях очень развито разделение труда. За разные задачи отвечают разные люди: чтобы успешно работать, нужно держать в голове не только пайплайн, но и все цепочки взаимодействия: от кого и что получить, кому отправить согласовать. Поэтому важно быть внимательным и где-то даже дотошным человеком. 

Читайте также: Какая математика нужна дата-сайентистам?

Как учиться на Data Science 

Прежде всего стоит подготовиться к тому, что быстрого старта в IT эта профессия вам не обеспечит. Для Data Science нужна крепкая теоретическая база в математике, которую не выучить за три недели. Есть несколько вариантов получить необходимые знания.

Самостоятельное обучение. Этот способ подойдет тем, у кого уже есть опыт в IT, а также стальная воля для того, чтобы организовать свой учебный процесс и следовать ему. Начать изучение Data Science можно с учебника Dive into Deep Learning, затем освоить Python и SQL, например на бесплатных курсах или на YouTube. Чтобы погрузиться в среду и разобраться с современными задачами и подходами, полезно будет почитать кейсы на Хабре. После этого нужно много практиковаться и делать pet-проекты, чтобы получить опыт для своей первой работы или стажировки. 

Онлайн-курс по Data Science. Подойдет тем, кто хочет освоить базовые знания на практике и передать организацию образовательного процесса в надежные руки. Обучение потребует от вас меньше усилий, вы будете работать над проектами под руководством кураторов-практиков. Минус этого способа — он не бесплатный. Зато быстрее, чем учиться самостоятельно. 

Магистерская программа по Data Science. Это хороший способ получить фундаментальную и теоретическую подготовку от опытных преподавателей, а также практические навыки для реальных бизнес-задач. Такой гибридный формат обучения предлагает, например, онлайн-магистратура SkillFactory и МФТИ «Науки о данных». Здесь вы получите доступ к вычислительным ресурсам, библиотекам и коворкингам МФТИ, а также к сообществу преподавателей и студентов. Со второго семестра можно выбрать специализацию и начать осваивать алгоритмы NLP или компьютерного зрения. 

Дипломным проектом станет решение реальных задач от компании, в которой студент работает, либо мы подберем кейсы от компаний — партнеров магистратуры. После выпуска можно претендовать уже не на junior, а на middle-позицию или близкую к ней, заняться наукой и изучать новые методы работы с данными.

Как дата-сайентисту получить опыт

Озаботиться тем, чтобы получить опыт в работе с данными, стоит еще во время учебы. Тогда вы выйдете на рынок подготовленными и получить работу будет легче. Вот какие есть способы получить свой первый опыт.

Хакатон

Чаще всего такие мероприятия организовывают действующие IT-компании, которые дают участникам реальные задачи из своей практики. На хакатоне бизнес может получить необычный взгляд на свои продукты и найти потенциальных стажеров. Например, студенты SkillFactory приняли участие в хакатоне от компании «Моторика», где им предложили дообучить нейросеть, которая управляет бионическим протезом руки. Начинающие дата-сайентисты смогли проверить свои навыки, попрактиковаться и даже научиться чему-то новому.

Марина Макеева, студентка SkillFactory

Было много сомнений, так как на курсе я отучилась всего три месяца, но любопытство победило. У нас сложилась классная команда — всем нашлись задачи по уровню подготовки и еще немножко «на вырост». На проекте я много работала с библиотеками NumPy и Pandas, визуализацией данных. Поняла, как важно с самого начала задать правильную архитектуру данных, которые будут собираться и обрабатываться. Для этого нужно знать требования библиотек ML к подготовке данных, владеть библиотеками, которые предоставляют инструменты для подготовки.

Читайте также: Как студенты SkillFactory разработали AI-модель для бионического протеза «Моторики»

Стажировка 

Это возможность пройти обучение на реальных задачах в команде профессионалов. Этот способ лучше всех покажет вам, какие задачи и требования вас ждут на будущей работе. Также его плюс в том, что к студентам чаще всего прикрепляют менторов, которые могут ответить на ваши вопросы и поделиться своим опытом. Если в компании есть открытая вакансия, после стажировки у вас есть шанс ее получить. 

Дарья Иванова, выпускница SkillFactory, Data Scientist

[marker color=green]Когда я делала тестовое на самую первую стажировку, я очень нервничала. Но чем больше ты делаешь, тем спокойнее себя чувствуешь.[/marker] Стажировки дают возможность получить опыт, чтобы потом искать работу. Я долго ходила по собеседованиям, набирала стажировками «критическую массу», чтобы не дожидаться окончания курса. И количество перешло в качество. Один из плюсов стажировок — командная работа. Хочешь не хочешь, но делать задачу вы будете вместе. Другой — организация своего времени. Несмотря на то что у всех были свои работа, учеба, мы часто созванивались и понимали, что без этого работа остановится. Еще один плюс: ты становишься увереннее, перестаешь вариться в своем незнании. Даже когда изучали тестовые друг друга, мы смотрели прежде всего на альтернативную точку зрения, а не на правильность решения. В изоляции труднее подтянуть свои знания.

Читайте также: Как стажировки помогают при устройстве на работу: опыт SkillFactory и «Кловери»

Pet-проект

Pet-проект — это разработка вашей собственной идеи в свободное от работы и учебы время. Выбирая этот способ, вы совмещаете приятное с полезным: можно заниматься темой, которая вам интересна, и одновременно практиковать свои навыки и наполнять портфолио.

Аргишти Саакян, Computer Vision Researcher в компании Diagnocat

Я пришел в Data Science без технического образования, поэтому мне был просто необходим pet-проект, чтобы впечатлить работодателей. Мне хотелось поработать с алгоритмами компьютерного зрения. Базовый тип задач в этой области — классификация. Оставался вопрос: что классифицировать? Мне интересны змеи и рептилии, поэтому я решил создать классификацию змей, которые обитают в Московской области. 

Задача была интересной и полезной для меня, я столкнулся с рядом реальных проблем и научился их решать. На создание проекта с нуля ушло около трех недель, я работал в свободное время, с перерывами. Мне было интересно, поэтому я часто залипал в работу надолго.

На собеседованиях у меня всегда спрашивали про этот проект: почему я выбрал именно классификацию змей, с какими трудностями столкнулся. В проекте я использовал разные технологии, поэтому он получился намного показательнее сухой задачи с Kaggle. Для одной из вакансий это был релевантный опыт — так я попал в компанию, где начал заниматься машинным зрением.

Где искать работу и как пройти собеседование

На старте ваша задача — преодолеть страх отказа, искать вакансии и откликаться на них. Для этого подойдут как привычные всем джобборды вроде hh.ru и Хабр.Карьера, так и специальные телеграм-каналы, например Data Science Jobs. Если вы учитесь на онлайн-курсе или в магистратуре, следите за чатом группы или воспользуйтесь карьерными возможностями, которые дает ваша школа.

Иоанн Довгополый, Data Scientist в Сбере:

Свою первую вакансию я нашел в чате своей учебной группы. Я решил, что нужно идти и получать опыт, даже если меня не возьмут. Я прошел четыре этапа собеседований, решил много задач, потом пришлось ждать пять месяцев, потому что найм заморозили из-за пандемии. В итоге меня все-таки взяли. После этого опыта пройти собеседование в Сбер мне показалось не такой сложной задачей. 

Советую начинающим собирать все ресурсы, какие только можно, везде откликаться, всем писать и ходить на собеседования. Здесь закон больших чисел на нашей стороне. На сотню собеседований придется как минимум один оффер. Обе свои работы я нашел по рекомендациям, а затем проходил собеседования. Вам пригодится социальный капитал, поэтому старайтесь проявлять себя в как можно большем количестве мест. 

Проходить собеседования — это такой же навык, как все остальные, поэтому оттачивать его нужно практикой. Когда вы пройдете первые несколько интервью, вы поймете, чего от вас ждут работодатели, и дальше будете собеседоваться более успешно.

Виталий Куделя, Senior Data Scientist в Tutu

Собеседование в Data Science по техническим вопросам состоит из следующих этапов:

  • Вопросы и задачи по теории вероятности, алгоритмам и структурам данных, алгоритмам машинного обучения. Например: «Объясните схему работы алгоритма Random Forest», «За какую минимальную сложность можно отсортировать список из чисел и как это сделать», «Что такое p-value».
  • Кейсы, которые проверяют подход к решению задач. Например, вам могут предложить сделать алгоритм ранжирования отзывов. Нужно будет описать схему подхода и эксперименты, пояснить, какие метрики и почему будут выбраны, как будет использоваться итоговая модель машинного обучения.
  • Реальная задача на дом. Кандидату выдадут тренировочные данные и предложат на их основе подготовить модель машинного обучения. На такие задания, как правило, дают неделю. По итогу компания проверяет точность предсказания на тестовых данных (чтобы сравнить точность разных кандидатов) и ход решения.

Читайте также: Как успешно пройти собеседование на Data Scientist

Михаил Березин, директор по продуктам IT-компании HFLabs

Я нанимал специалиста в сфере Data Science на решение задачи, которую мы уже решили сами. Соискателю нужно было разобрать адрес из строки данных — это одна из ключевых и самых сложных задач в качестве клиентских данных, над которым мы работаем. На первый взгляд, все просто: есть адрес, и его нужно ривести к стандартному формату, разобрать на гранулы (страна, город, улица, дом и еще десяток полей). Как это работает, можно посмотреть, например, на сайте DaData.ru. Проблема в том, что адрес может быть написан миллионами разных способов, часто с опечатками и мусором, старыми названиями улиц и городов. А иногда пользователь вообще вводит несуществующий адрес. Разобранные по полям адреса позволяют их сравнивать, геокодировать, точнее и дешевле доставлять заказы. В ситуации с финансовыми организациями такая обработка адресов помогает формировать корректные отчеты для регуляторов и не получать штрафы за ошибки. 

Такая задача позволяет проверить как общие знания, так и реальный опыт в конкретной узкой области. Для ее решения нужно знать Python — наиболее популярный язык в ML-разработке, NLP-библиотеки и фреймворки и уметь с ними работать. Обычно с неподходящими кандидатами интервью заканчивалось за 15–20 минут: становилось понятно, что дальше не о чем говорить. А с лучшими можно было спокойно общаться и 1–1,5 часа. Некоторые кандидаты либо честно признавались, что не имеют подходящего опыта, либо очень неуверенно начинали фантазировать над решением. На самом деле, даже не имея опыта, но обладая достаточно развитым кругозором в ML, кандидат имел все шансы успешно пройти собеседование. 

Тест: Какой вы Data Scientist?

(рейтинг: 5, голосов: 4)
Добавить комментарий