Баннер мобильный (1) Пройти тест

Кто такой Data Scientist и чем он занимается

Чем занимается дата-сайентист, сколько он зарабатывает и правда ли, что это самая сексуальная профессия

Гид по профессии

20 декабря 2023

Поделиться

Скопировано
Кто такой Data Scientist и чем он занимается

Содержание

    Дата-сайентист (он же Data Scientist, специалист по Data Science) может найти себе работу в любой сфере: от розничной торговли до астрофизики. Потому что именно он — настоящий повелитель больших данных. Разбираемся, почему в современном мире всем так нужны дата-сайентисты и с чего начать.

    Что делает Data Scientist

    Data Scientist применяет методы науки о данных (Data Science) для больших объемов информации. Он строит и тестирует математические модели поведения. Это помогает найти в них закономерности или спрогнозировать будущие значения. Например, по информации о спросе на товары в прошлом специалист по работе с большими данными может спрогнозировать продажи в следующем году. Модели строят с помощью алгоритмов машинного обучения, а с базами данных работают через SQL.

    Пройдите наш тест и узнайте, какой вы Data Scientist. Ссылка в конце статьи.

    Где нужен и какие задачи решает Data Scientist

    Дата-сайентисты работают везде, где есть много информации: чаще всего это крупный бизнес, стартапы и научные организации. Поскольку методы анализа данных универсальны, специалистам открыты любые сферы: от розничной торговли и банков до метеорологии и химии. В науке они помогают совершать важные открытия: проводят сложные исследования, например, строят и обучают нейронные сети для молекулярной биологии, изучают гамма-излучения или анализируют ДНК.

    В крупных компаниях специалист по обработке данных — это человек, который нужен всем отделам:

    • маркетологам поможет проанализировать данные карт лояльности и понять, каким группам клиентов что рекламировать;
    • для логистов изучит информацию с GPS-трекеров и оптимизирует маршрут перевозок;
    • HR-отделу поможет предсказать, кто из сотрудников скоро уволится, проанализировав их активность в течение рабочего дня;
    • с продажниками спрогнозирует спрос на товар с учетом сезонности;
    • юристам поможет распознать, что написано на документах, с помощью технологий оптического распознавания текстов;
    • на производстве спрогнозирует срок службы оборудования на основе данных с датчиков.

    В стартапах специалисты помогают разрабатывать технологии, которые выводят продукт на новый уровень: TikTok использует машинное обучение, чтобы рекомендовать контент, а MSQRD — технологии по распознаванию лица и искусственный интеллект.

    Пример задачи

    Если нужно спрогнозировать спрос на новую коллекцию кроссовок, то специалист:

    • готовит данные о продажах кроссовок за последние несколько лет;
    • выбирает модель машинного обучения, которая лучше всего подходит для прогноза;
    • выбирает метрики, которые позволят оценить качество модели;
    • пишет код модели;
    • применяет алгоритм машинного обучения на данных о прошлых продажах;
    • получает прогнозные значения и предлагает их менеджерам для принятия решения об объемах производства кроссовок.

    Что ему нужно знать

    Нужно хорошо понимать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Математические модели позволяют найти закономерности и прогнозировать их значения в будущем. А чтобы применять эти модели на практике, нужно программировать на Python, уметь работать с SQL и библиотеками (набор готовых функций, объектов и подпрограмм) и фреймворками для машинного обучения (например, NumPy и Scikit-learn). Для более сложных задач нужен язык С или C++.

    Результаты анализа нужно уметь визуализировать, например, с помощью библиотек Seaborn, Plotly или Matplotlib.

    пример работы Data Scientist
    Пример визуализации с помощью Seaborn — количество спасшихся после крушения «‎Титаника»‎ женщин и мужчин по возрастам. Источник

    Плюсы и минусы

    Плюсы
    Минусы
    Высокая зарплата — дата-сайентист приносит пользу бизнесу, за это готовы платить
    Непредсказуемые результаты — нельзя понять, будет ли модель эффективной, до начала использования. Поэтому нужно быть терпеливым и готовым к неудачам, начинать с начала по нескольку раз
    Влияние на бизнес — модели напрямую влияют на развитие компании и выручку
    Дата-сайентисты часто работают в крупных интернет-компаниях, потому что те обладают огромными массивами данных. В таких компаниях результат работы специалиста сложно выделить среди результатов всего бизнеса
    Востребованность — данных все больше, а на рынке дефицит кадров, многие крупные компании в поисках хороших кандидатов

    Как выглядит рабочий день

    Нужно ли работать в офисе, зависит от компании. На hh.ru можно найти около 25% вакансий удаленной работы. Иногда компании предлагают комбинировать работу из офиса и из дома. Взаимодействие с командой зависит от масштаба задач: новичок, готовящий данные к анализу, может общаться только с руководителем, а синьор должен общаться с заказчиками и делегировать задачи команде.

    Как правило, рабочий день начинается с разбора почты и общения с командой. Затем нужно писать SQL-запросы и готовить массивы информации к машинному обучению, писать код модели на Python и прогонять данные через модель. В процессе работы нужно периодически созваниваться с командой и менеджерами, которые будут использовать модель на практике.

    Как Data Scientist строит карьеру

    Ступени карьеры в Data Science, в целом, типичны для всей IT-отрасли.

    • Джуниор нуждается в более детализированной постановке задач, его нужно направлять и объяснять, как решать некоторые задачи. Он готовит данные, очищает их от ошибок, делает простую обработку, строит сводные таблицы.
    • Мидл может сам выполнить стандартные задачи, помощь ему нужна только в нестандартных ситуациях. Занимается машинным обучением и созданием алгоритмов.
    • Синьор имеет несколько готовых проектов, может принять задачу от бизнеса и сам решить ее. Может обработать большие данные и визуализировать результаты, работает со сложными фреймворками.

    Можно перейти в Chief Data Officer и управлять Data-проектами или выбрать специализацию, например обработку текста или изображений.

    В каких случаях выбирают Data Science

    • Когда нравится анализ и систематизация данных и есть интерес к передовым технологиям — дата-сайентисты работают с искусственным интеллектом, нейросетями и Big Data.
    • Когда хочется заниматься исследованиями и наукой на качественно новом уровне.
    • Когда есть опыт в обычной разработке и желание освоить набор инструментов, работать над масштабными проектами.
    • Когда на текущей работе мало перспектив, хочется освоить перспективное направление и больше получать.
    Глеб Синяков,
    аналитик-разработчик в «Тинькофф»

    Всех, кто приходит в Data Science, можно разделить на четыре потока. Есть те, кто становятся дата-сайентистами после профессионального образования, но в университетах таких курсов пока немного. Также есть люди технических и научных профессий, которые хотят найти более перспективную работу с большим окладом. Третий поток — разработчики, которые устают от скучного программирования и ищут интересные задачи. Есть специалисты, которые начинали с нуля: если у новичков есть самодисциплина и интерес к данным, то они будут хорошими дата-сайентистами. Наконец, есть те, к кому Data Science приходит сам, например к биоинформатикам.

    Подробнее о том, что делает Глеб Синяков, читайте в статье.

    Насколько это востребовано

    По данным Всемирного экономического форума, Data Science занимает первое место в рейтинге профессий с самым большим спросом на рынке до 2025 года.

    Data Science — одна из самых растущих профессий в IT, при этом специалистов компаниям не хватает. За последние три года количество вакансий выросло на 433%.

    Сколько зарабатывает специалист по Data Science

    Зарплата зависит от этапа карьеры и компании: у junior — 100 000 рублей, а у middle — более 280 000 рублей. Для сеньоров с большим стеком технологий и опытом от пяти лет есть вакансии и на 700 000 рублей.

    По данным Хабр.Карьеры, средняя зарплата в Data Science — 170 000 рублей.

    средняя зарплата в Data Science

    Отдельная перспективная опция — возможность работы в международных компаниях.

    Какие качества пригодятся дата-сайентисту

    • Коммуникабельность — общаться нужно много: принимать задачи и разбираться в них, общаться с командой, презентовать результаты заказчикам.
    • Критическое мышление — умение задавать много вопросов окружающим и искать реальные, а не мнимые закономерности.
    • Любознательность — нужно разбираться не только в своей сфере, но и в том, как работают бизнес-процессы, чтобы помочь компании вырасти.

    Как стать специалистом по Data Science

    Прежде всего стоит подготовиться к тому, что быстрого старта в IT не будет. Для Data Science нужна крепкая теоретическая база в математике, которую не выучить за три недели. Есть несколько вариантов получить необходимые знания.

    Самостоятельное обучение. Способ подойдет тем, у кого уже есть опыт в IT, а также стальная воля для того, чтобы организовать свой учебный процесс и следовать ему. Начать изучение Data Science можно с учебника Dive into Deep Learning, затем освоить Python и SQL, например на бесплатных курсах или на YouTube. Чтобы погрузиться в среду и разобраться с современными задачами и подходами, полезно почитать кейсы на Хабре. После этого нужно много практиковаться и делать pet-проекты, чтобы получить опыт для своей первой работы или стажировки. 

    Онлайн-курс по Data Science. Подойдет тем, кто хочет освоить базовые знания на практике и передать организацию образовательного процесса в надежные руки. Обучение потребует от вас меньше усилий, вы будете работать над проектами под руководством кураторов-практиков. Минус способа — он не бесплатный. Зато быстрее, чем учиться самостоятельно. 

    Магистерская программа по Data Science. Это хороший способ получить фундаментальную и теоретическую подготовку от опытных преподавателей, а также практические навыки для реальных бизнес-задач. Такой гибридный формат обучения предлагает, например, онлайн-магистратура Skillfactory и МИФИ «Науки о данных». Здесь можно получить доступ к вычислительным ресурсам, библиотекам, а также к сообществу преподавателей и студентов.

    P.S.: Data Scientist — самая сексуальная профессия?

    Этот расхожий мем запустил журнал Harvard Business Review, в котором в 2012 году была опубликована статья «Data Scientist — самая сексуальная профессия XXI века».

    Текст начинается с рассказа о Джонатане Голдмане, выпускнике Стэнфорда, который устроился в LinkedIn и построил модель, предсказывавшую владельцу аккаунта, кто из пользователей соцсети может оказаться его знакомым. Эта разработка сильно ускорила рост LinkedIn и принесла ей новых пользователей.

    В статье упоминается фраза Хэла Вариана, главного экономиста Google: «В ближайшие 10 лет самая сексуальная работа — это статистика. Люди думают, что я шучу, но кто бы мог подумать, что компьютерные инженеры окажутся самой сексуальной работой 90-х?».

    Тест: какой вы Data Scientist

    Скопировано
    0 комментариев
    Комментарии