Дата-аналитиков и дата-сайентистов часто путают, а иногда даже спрашивают в поисковиках: «Смесь аналитика данных и дата-сайентиста». Сферы их работы могут быть похожи, но деятельность и результат отличаются. Вместе с Натальей Соколовой, руководителем отдела аналитики в крупной компании, и Леонидом Саночкиным, научным сотрудником AIRI, разбираемся, в чем же все-таки разница.
В чем отличие аналитика от сайентиста?
У аналитика данных есть самое простое определение: это человек, который работает с данными, обрабатывает их, интерпретирует и получает из них ценные для бизнеса инсайты. Получив необработанную информацию в построчном виде, он создает отчеты и дашборды, отвечает на вопросы бизнеса и дает свою оценку и рекомендации происходящему.
Аналитик часто общается с командой и бизнесом, чтобы лучше понять бизнес-процессы.
Data Scientist обрабатывает большие объемы информации, анализирует их и на этой основе разработать модель, которая «предскажет будущее». Созданные дата-сайентистом алгоритмы помогут оптимизировать логистику транспортной компании или предположить, кто из сотрудников скоро уволится, изучив его рабочий день.
Такие специалисты не только смотрят в будущее, но и занимаются наукой, передавая свои знания другим. Для работы им нужно знать математические основы и принципы работы машинного обучения, понимать основы бизнеса или той сферы, в которой разрабатывается проект.
Основное отличие аналитика и дата-сайентиста заключается в том, что первый работает с ретроспективными данными здесь и сейчас и помогает бизнесу принять правильное решение на их основе. Второй же смотрит в будущее и создает такие модели, которые могут упростить, модифицировать или же найти креативные решения в работе компании.
Время работы специалистов также отличается: если неделя работы над одним отчетом для аналитика — часто непозволительная роскошь, то сайентист может работать над проектом месяцами. Это связано с тем, что отчеты по продажам должны быть сделаны быстро, а аналитические модели нужно сначала обучить, чтобы они давали хороший результат и действительно помогали в работе.
Объясняем на примерах
Сейчас я работаю в сфере Fashion-Tech. В моем подчинении четыре человека: дата-инженер, джун и два мидла. И результат нашей работы может быть разным. В первую очередь мы рассчитываем оптимальный уровень цен, их величину внутри различных каналов продаж, даем рекомендации по оптимальному распределению товаров между каналами продаж и маркетплейсами. Также занимаемся настройкой отчетности BI (инструменты для обработки и визуализации), вопросами коммерческой эффективности товарных групп, ad hoc-запросами (единоразовые запросы). Иначе говоря, полным обеспечением информацией руководства и заинтересованных участников.
Например, я могу анализировать, почему товар на одном из маркетплейсов продается хуже. При этом изначальные данные будут говорить о том, что цены, как и условия, схожи с конкурентами. Однако после проведения анализа может выясниться, что они могут продвигаться за счет промо или другого профиля потребителя.
К тому же в работе есть большое количество специализированных одноразовых задач (ad hoc-запросы). Например, нужно создать отчет и сделать вывод по эффективности нового продукта. Тогда, как правило, ни один из существующих отчетов не подходит и его необходимо создавать с нуля.
В этой статье мы рассказали, чем занимается аналитик данных в сервисе Gett Delivery
Мой KPI в институте AIRI — публикация результатов исследований в журналах и выступление на конференциях. Мы выдвигаем гипотезы, проводим эксперименты, выводим новые методы и делимся этой информацией с другими.
Взаимодействие с бизнесом тоже есть — все проекты должны на что-то существовать, — но при том далеко не каждая модель или результат исследований может быть монетизирован. Например, проект Сбера ruDALL-E, который генерирует картинку по описанию: там монетизация почти что невозможна, но модель двигает сферу вперед.
Стоит понимать, что Data Science-специалисты в основном не работают в науке и не развивают используемые методы, а применяют готовые методы и модели для решения прикладных бизнес-задач.
Я занимаюсь исследованиями в области активного обучения. Мой проект — модель для распределения новостей по тематикам.
Основная идея заключается в обучении модели только на наиболее информативных примерах, что значительно снижает накладные расходы на разметку данных. Это особенно актуально в областях, где для разметки приходится привлекать высококвалифицированных экспертов, например при решении задач в области медицины.
Рассмотрим пример с обучением модели классификации текстов новостей по тематикам: социальная, спорт, политика, общество и другие. Для обучения ей нужны данные, причем размеченные. Этим сначала занимаются люди: вручную распределяют часть текстов по тематикам.
Чтобы добиться хорошего качества работы модели, можно обучать ее не на всех доступных текстах, а на наиболее информативных — это сильно сократит затраты на разметку данных.
Один из вопросов, которые я решаю в ходе исследования, — как найти необходимые примеры. Самый простой способ — рассмотреть вероятности, с которыми модель относит неразмеченный текст к тому или иному классу.
Если модель предсказывает, что вероятность политической новости 95%, то это уверенное предсказание. Соответственно, размечать ее не стоит. А если у новости одинаковая вероятность по всем классам, то модель не уверена в своем решении и такой текст передается разметчику.
Применять обученные модели можно не только на текстах. В сельском хозяйстве это поможет посчитать поголовье скота и выявить зараженные участки растений, в ритейле — помочь с логистикой и покупательскими предпочтениями. Даже музыкальные рекомендации пользователей связаны с моделями предсказаний.
Что нужно знать аналитику и дата-сайентисту?
Дата-аналитику важно знать SQL для эффективной и самостоятельной работы с базами данных и выгрузки данных из них. Python нужен для обработки больших массивов данных. Я чаще всего использую аналитические библиотеки Pandas, NumPy, Scikit-learn, а также графические Seaborn, Matplotlib. Желательно знать BI-инструменты, например Power BI.
В дополнение пригодятся любые таблицы: Excel или Google Таблицы. Они нужны, чтобы делиться информацией с сотрудниками других подразделений. Например, некоторые готовы воспринимать данные лишь в виде презентаций PowerPoint.
Из софт-скиллов необходимы самостоятельность и любознательность. В компании важно налаживать отношения. Также не стоит рассчитывать на то, что за вас все будут решать старшие коллеги или отвечать на ваши вопросы моментально. Некоторые вопросы можно просто погуглить.
Стек навыков у дата-сайентиста отличается в зависимости от специализации: ML-инженеру достаточно базовых знаний SQL, потому что его задача — получить данные, изучить и положить обратно. Data-инженер, который строит весь пайплайн (процесс) работы с данными в компании, должен знать способы и места хранения данных, в какой базе они находятся и как пополнять их. Такой инженер не будет обучать новые модели на этих данных — он скорее будет их предоставлять.
Также в работе важны база и математическая подготовка, понимание вероятностных моделей. Все это нужно для того, чтобы понимать, как работают методы. Но в последнее время сфера становится более дружелюбными, и сталкиваться с этим придется не каждый день. Например, мидл может объяснить джуниору, как лучше сделать, или при выборе метода будет дано простое объяснение формул и область их применения.
Как учиться и насколько перспективна профессия?
Мое обучение заняло примерно пять лет: в 2011 году я закончила магистратуру по маркетингу, а до этого училась на факультете статистики. Уже через несколько лет я знала большинство основных инструментов и могла претендовать на хорошие должности.
Первой работой стал крупный оператор сотовой связи, где я занималась анализом эффективности продуктового портфеля и расчетом LTV (life-time-value) и других ключевых метрик абонентов после ввода новых продуктов. Там я научилась многому: работодатель отправлял меня на сначала на базовые курсы SQL, а после — на продвинутые.
Для аналитиков сейчас растут требования: 10 лет назад нужно было знать SQL, 5 лет назад — SQL и Python, а сейчас добавились и BI-инструменты. Выучить это можно в университете, с помощью коллег или самостоятельно. Обойтись без базиса в виде высшего образования можно, но тогда лучше быть любознательным и готовым учиться и развиваться.
Профессия пригодится везде, и она очень перспективна. Человек, который взаимодействует с бизнесом и помогает принимать решения не на основе интуиции, а на основе цифр, очень важен. Автоматизация в этой сфере действительно может произойти, но многие предприятия далеки от этого. Кому-то не хватит денег, а у кого-то это просто невозможно. Поэтому люди всегда будут нужны.
Я математик по образованию: получив знания по прикладной математике, сразу же пошел в Data Science и работаю там уже 11 лет.
Чтобы вырасти в сфере, придется понимать математику, так как без нее не получится продвинуться дальше позиции стажера или джуниора. Но не стоит ее бояться, так как в профильных университетах или на курсах дают достаточно большой объем.
Сейчас есть все условия для дата-сайентистов: такие специалисты требуются как в России, так и за границей. Многие заинтересованы в этом направлении из-за выросшего объема данных, а систем, которые могут справиться с таким их количеством, еще не так много.
К тому же дата-сайентист не только прогнозирует, распределяет и обучает модели, но и уменьшает человеческие затраты и ресурсы. Компаниям это выгодно.