Это рубрика, в которой эксперты отвечают на актуальные и волнующие вопросы об IT-профессиях, будущем сферы и ее перспективах.
Я хочу поделиться своим мнением и рекомендациями для начинающих специалистов.
Развитие Data Science как области привело к разделению обязанностей аналитика на разные зоны ответственности. Совсем недавно Data Scientist был «универсальным солдатом», который собирал данные, валидировал их на качество, настраивал потоки (ETL/ELT) и остальные процессы. Он строил гипотезы, первые модели и выводил свой pipeline в production. Сейчас же успеть все невозможно. Системы быстро прогрессируют, появляется большое количество вспомогательных инструментов. Именно поэтому из одной области появилось сразу несколько направлений профессии: Data Engineer, Data Analyst/Data Scientist, MLOps/DevOps. Для каждого можно выделить список ресурсов, однако, по моему мнению, есть общие знания, которые помогут адаптироваться под разные условия и направления.
В первую очередь необходим навык работы с данными. Как бы ни хотелось получить данные в идеальном виде, построить гипотезы и начать с ними работать, на практике все сложнее.
Точно пригодятся навыки работы:
- со множествами,
- типами данных,
- агрегированием данных,
- функциями агрегирования,
- оконными функциями,
- правилами хранения таблиц/файлов.
Для освоения этих навыков рекомендую к прочтению первые две книги из списка: одну в T-SQL варианте, вторую — для разбора библиотеки Pandas, которая предназначена для работы с плоскими таблицами в Python.
Затем уже можно погружаться в статистику, математику и алгоритмы. Список я отсортировал по порядку чтения.
1. «Освой SQL за 10 минут», Бен Форта. Это небольшая книга для знакомства с SQL.
2. «Изучаем Pandas. Высокопроизводительная обработка и анализ в Python», Майкл Хейдт. Книга о том, как создать окружение, работать с Pandas + о визуализации/статистике.
3. «Python. К вершинам мастерства», Лучано Рамальо. Книга позволит чувствовать себя увереннее в работе с Python, с ее помощью можно погрузиться в язык.
4. «Статистика. Шаг за шагом», Роберт А. Доннелли — младший. Книга о работе со статистикой.
5. «Грокаем алгоритмы. Иллюстрированное пособие для программистов и любопытствующих», Адитья Бхаргава. Тут все об алгоритмах.
6. «Думай, как математик. Как решать любые задачи быстрее и эффективнее», Барбара Оакли. Поможет погрузиться в математику.
Читайте также:
- Сергей Светлаков: «Я прошел годовой курс за три с половиной месяца и стал middle дата-сайентистом»
- Какая математика нужна дата-сайентистам?
- 9 языков программирования для работы с Big Data
Если вы хотите задать вопрос эксперту о том, как изменилась сфера IT, напишите их в комментариях под этим постом, в нашей группе во ВКонтакте или в Telegram-канале.