Большинство компаний использует Data-Driven подход. Поэтому дата-сайентисты, аналитики данных получают высокие зарплаты, а спрос на них продолжает расти. Некоторые компании не хотят привлекать к работе IT-специалистов. Так появилась новая профессия – Citizen Data Scientist – гражданский специалист по работе с данными. Разбираемся, кто это такой, чем он занимается и какие инструменты использует.
Как появилась профессия
Часто специалисты в предметных областях становятся аналитиками данных. Это происходит потому, что бизнес-эксперты — основные носители ключевых знаний о компании — хотят использовать данные в работе. У бизнес-экспертов есть информация и множество идей, как улучшить бизнес. Например, маркетологи проводят маркетинговые исследования, финансисты — ищут зависимость между финансовыми показателями, а специалисты по запасам — прогнозируют спрос на продукцию.
Но в большинстве компаний вся аналитика данных завязана на IT-отделе. Поэтому появляются проблемы:
- у бизнеса много желаний, мало IT-ресурсов, а рынок быстро меняется. Так появляются очереди к IT-специалистам. Реализация задачи может затянуться на месяцы;
- эксперты разбираются в бизнесе, но не понимают язык разработчиков. Разработчики, наоборот, не знают все тонкости бизнеса. Объяснение терминологии, постановка задач и обсуждение технического задания занимает много времени. Это тоже плохо влияет на сроки решения задач.
Бизнес-экспертам часто нужно анализировать данные своими силами, тестировать гипотезы, получать работоспособные прототипы систем, оперативно решать задачи, не дожидаясь разработчиков. Так в аналитике появилась новая роль — гражданский специалист по работе с данными (Citizen Data Scientist).
Кто такой Citizen Data Scientist
Citizen Data Scientist — бизнес-эксперт в предметной области, который умеет генерировать аналитические модели и прогнозировать результат. У него нет глубоких знаний интеллектуального анализа данных и Big Data, профильного образования и навыков в этой сфере. При этом Citizen Data Scientist привносит в процесс уникальные предметные знания и собственный опыт.
В работе с данными он использует специальное программное обеспечение. Аналитические инструменты для неспециалистов помогают собирать, обрабатывать данные и заниматься расширенной аналитикой, включающей Machine Learning и другие инструменты Data Science.
Какие инструменты использует Citizen Data Scientist
Excel
Основной инструмент любого специалиста, который работает с данными. Популярный табличный редактор помогает описать практически любой бизнес-процесс:
- быстро построить сводные таблицы;
- выполнить расчеты;
- сделать прогноз и показать графики руководителю и пр.
В Excel есть статистические процедуры и функции (регрессия, корреляция, скользящее среднее и пр.), инструменты визуализации, очистки данных, надстройки и приложения Microsoft, которые позволяют создавать сложные модели и отчеты, очистки данных и пр.
Преимущества:
- Excel знаком почти всем, поэтому подойдет начинающим аналитикам;
- программу можно использовать, чтобы быстро изучить гипотезы, если данные структурированы и их немного.
Недостатки:
- если данных для анализа становится много, производительность программы сильно снижается;
- когда компания растет, один отчет в Excel могут готовить сразу несколько сотрудников из разных подразделений. Они постоянно обмениваются файлами, поэтому нужна сложная многоэтапная обработка или автоматизация. Можно написать макросы на языке, встроенном в MS Office. Они будут склеивать данные из разных файлов. Но это ненадолго решит проблему.
Business Intelligence (BI) системы
Удобные системы визуализации данных – Power BI, Tableau и другие – могут собирать информацию из разных источников, строить интерактивные дашборды и красивые отчеты с любой степенью детализации. BI-системы применяют для подготовки отчетности, мониторинга, оценки KPI (ключевых показателей эффективности) и других задач. Системы помогают понять, что случилось ранее или происходит сейчас. Программы могут обработать в несколько раз больше данных, чем Excel.
Чтобы вы могли быстрее начать использовать BI-системы, мы подготовили инструкцию по работе с Power BI.
Преимущества:
- бизнес-пользователи могут быстро и легко освоить базовые функции BI-систем. Для работы не требуются специальные знания;
- BI-системы позволяют строить наглядные отчеты для руководителей и проводить визуальную оценку для поиска решений.
Недостатки:
- в BI-системах нет инструментов для продвинутой аналитики, только встроенные сторонние языки программирования. Поэтому, чтобы заниматься анализом и предсказывать развитие ситуации в будущем, придется погружаться в разработку;
- почти 80% анализа данных состоит из загрузки, предобработки, очистки и стандартизации данных. Это называется ETL-процесс (Extract – извлечение, Transform – преобразование, Load – загрузка). В зависимости от объемов задачи, он может занимать как несколько часов, так и дней и даже недель. В BI-платформах есть инструменты или компоненты для ETL-процесса, но их возможности либо ограничены и недостаточны, либо нужно писать код.
Языки программирования
Основные языки аналитиков – Python и R. Они гибкие и мощные, помогают написать все, что нужно в работе, а также обработать практически любой массив данных. Для языков есть много готовых шаблонов и библиотек для ETL, визуализации, интеллектуального анализа данных и машинного обучения. Библиотеки регулярно обновляются и находятся в свободном доступе.
Узнать больше о библиотеках для Python можно из нашей статьи.
Преимущества:
- языки программирования помогают полностью настроить процесс анализа данных и применять в работе продвинутые алгоритмы машинного обучения.
Недостатки:
- это высокий порог входа для начинающего аналитика. Использовать только библиотеки недостаточно: потребуются специальные знания в области статистики и IT, умение писать код. На изучение основ программирования потребуется много времени и сил.
Low-code платформы для аналитики
Инструменты визуального проектирования для аналитиков, не владеющих языками программирования. Например, Loginom, Alteryx и другие. Платформы работают по принципу low-code и напоминают конструктор с набором кубиков. В них есть все инструменты для простой работы с большими массивами данных.
Среди возможностей:
- получение данных из разных систем,
- очистка,
- преобразование,
- объединение,
- визуализация,
- простые и сложные вычисления и пр.
Работу, которая занимает у аналитиков до 80% времени, можно легко выполнять на аналитической платформе без специальных знаний и кодинга.
Преимущества:
- платформы low-code позволяют автоматизировать повседневную работу аналитика, почти не привлекая разработчиков. Решения можно быстро собирать «мышкой»;
- для продвинутой аналитики есть инструменты Machine Learning;
- low-code платформы можно быстро освоить. Гибкие настройки алгоритмов анализа данных и подробная документация упрощают вход в профессию. С базовыми знаниями Excel может потребоваться менее недели.
Недостатки:
- чтобы использовать продвинутую аналитику, потребуются базовые знания математической статистики и анализа данных. Нужно понимать, как подготовить данные для анализа, как работают алгоритмы, как правильно интерпретировать результаты;
- если функционала недостаточно, будут нужны встроенные языки программирования и помощь IT-шников. Low-code минимизирует написание кода, а не исключает его.
Как выбрать подходящий инструмент аналитики
Все зависит от масштабов бизнеса, собранной базы данных и уровня подготовки специалиста. Если минимального набора информации достаточно и для анализа, и для красивой визуализации, подойдет Excel. Но стоит не упускать возможность научиться новому. Особенно, если компания быстро развивается. Каждый шаг вперед – это прогресс в перспективном IT-направлении – Data Science.
Если вы хотите узнать больше о Data Science и аналитике данных, повысить квалификацию или освоить востребованную профессию, записывайтесь на онлайн-конференцию по Data Science и Machine Learning от Loginom Day. Мероприятие состоится 20 октября.