Не все умеют использоваться Python, но многие хотят этому научиться. Рассказываем, с чего начать и в каком направлении двигаться, чтобы не потратить время впустую.
Если вместе с этим хотите разобраться и в data science, почитайте наш материал «Разобраться в data science: подборка статей, курсов и конференций».
Задача анализа данных — собрать, исследовать, очистить и преобразовать данные в наглядные графики. Так человек видит картину происходящего и понимает, какие действия предпринять. Для анализа используются разные инструменты: Excel, Google-таблицы, BI-системы и языки программирования.
Языки программирования предпочтительнее. С их помощью данные обрабатываются быстрее и можно автоматизировать выполнение большинства задач, которые в Excel и Google-таблицах выполняются вручную.
Для анализа данных мы советуем использовать язык программирования Python.
Почему Python
Это популярный язык. Python — распространенный язык программирования. Поэтому нетрудно найти сообщества специалистов, которые используют его в работе. Возьмем для примера сообщество Stackoverflow. Там вы найдете обучающие материалы, фрагменты кода и способы исправления распространенных ошибок, а участники сообщества всегда помогут советом.
Легко освоить. Синтаксис Python хорошо продуман, поэтому по сравнению с другими языками требуется меньше кода для написания программы.
Есть средства для анализа данных. Этими средствами являются библиотеки Python. О них мы расскажем ниже.
Что не требуется для изучения Python
Ученая степень по информатике. Все, что требуется для анализа данных с помощью Python, — это написать работающий код, чтобы программа правильно делала то, что от нее требуется. Ученая степень по информатике для этого не понадобится.
Полное освоение Python:
Заучивать синтаксис. Нет смысла учить синтаксис наизусть. Он отложится в памяти сам по себе во время изучения справочных материалов и практики. Лучше направить силы на поиск смысла в программировании, например, задаваясь такими вопросами: зачем нужна эта функция? как работают условные операторы? и т.д.
Для тех, кто хочет изучить Python и его инструменты под руководством наставника: «Курс по Python для анализа данных»
Как установить Python
Советуем сделать это с помощью дистрибутива Anaconda, так как в нем содержатся необходимые библиотеки для анализа данных.
Как изучать Python для анализа данных
Мы сторонники обучения на практике: учеба не наскучивает, Python усваивается быстрее и сразу видно, в чем надо подтянуться. Однако сначала необходимо набрать базовые знания, чтобы понимать, с чего начинать, когда приступаешь к практике. Поэтому мы разделили план по изучению Python для анализа данных на три ступени:
- Освоение основных принципов программирования.
- Изучение библиотек, необходимых для анализа данных.
- Закрепление знаний на практике.
Освоение основных принципов программирования
Главное в программировании — не знание синтаксиса, а понимание того, как сделать так, чтобы машина исполняла ваши поручения. И вот что мы советуем:
Начинающим. Прочитать четыре книги:
- Automate the Boring Stuff with Python (Автоматизация рутинных задач с помощью Python). Купить бумажную книгу на английском в Озоне или на русском в Лабиринте. Читать на английском и бесплатно на сайте книги.
- How to Think Like a Computer Scientist (Научись думать, как программист). Читать на английском и бесплатно на сайте книги.
- Изучаем программирование на Python. Купить бумажную книгу в КомБук.
- Изучаем Python. Купить бумажную книгу в КомБук.
Тем, кто знает другой язык программирования.
Это видео разъясняет многие вопросы:
- В чем разница между такими типами данных, как целое число, число с плавающей точкой (запятой) и строкой?
- Как сделать калькулятор на «Python»?
- Что такое цикл for и когда его использовать?
- Какую структуру имеет функция?
- Как использовать условные операторы (if… else…), чтобы привести выражение к логическому типу?
- Как работают операторы импорта?
Для закрепления пройденного. Использовать эти ресурсы:
Code Fights — предлагаются разные по сложности задачи: одни решаются за пять минут, другие — за несколько часов. Выдалась свободная минутка — решаете легкие задачи, появилось больше свободного времени — задачи посложнее.
PracticePython.org — предлагаются задачи по программированию на Python. К каждой задаче прилагаются ссылки на то, как ее решили другие люди. Можно сравнить свое решение с решениями других и найти сильные и слабые стороны своего подхода. Новые задачи появляются почти каждую неделю.
Изучение библиотек, необходимых для анализа данных
Библиотеки — это собрание функций и объектов, которые используются в скриптах. Они экономят время, так как не нужно прописывать функции с нуля.
Что понадобится для изучения. Jupyter Notebook — набор средств для разработки программ. Если вы скачали Python с помощью дистрибутива Anaconda, то используйте Anaconda Navigator, чтобы создать и сохранить Jupyter Notebook. Как это делается, показывается в видео.
Порядок изучения:
- Почитать справочную информацию, выделив на это примерно 30 минут.
- Открыть Jupyter Notebook и загрузить библиотеку.
- Посмотреть, как работает библиотека, используя инструкцию по работе с библиотекой.
- Снова выделить минут 30 на изучение справочной информации.
Действуя в таком порядке, вы освоите библиотеку достаточно, чтобы начать использовать ее в работе.
Список библиотек:
- NumPy — для числовых расчетов. Является основой для многих библиотек, используемых в анализе данных. Справочная информация и инструкция по работе с библиотекой.
- Pandas — для анализа данных. Содержит структуры данных и операции для обработки числовых таблиц и временных рядов. Работа с этой библиотекой строится поверх NumPy. Справочная информация и инструкция по работе с библиотекой.
- Matplotlib — для двумерной или трехмерной визуализации данных. Она мощная, но довольно громоздкая. Справочная информация и инструкция по работе с библиотекой.
- Seaborn — для визуализации данных. Изучите ее, если библиотека Matplotlib показалась сложной. Справочная информация и инструкция по работе с библиотекой.
Закрепление знаний на практике
К этой ступени вы подходите с необходимыми знаниями для начала аналитической работы с Python. Осталось их закрепить и приумножить на практике. Мы знаем три способа попратиковаться с пользой: участвовать в конкурсах Kaggle, придумать и решить задачу самому, пройти практический курс.
Участвовать в конкурсах. Kaggle часто проводит конкурсы по анализу данных. Советуем сначала участвовать в конкурсах без призов, потому что они самые простые. И со временем перебираться к более сложным.
Вряд ли в реальной работе вам встретятся задачи похожие на те, что вы решали на конкурсах, зато потренируетесь в нахождении верных путей решения.
Если такой способ практики вам подходит, почитайте руководство, как участвовать в конкурсах Kaggle, — The Beginner’s Guide to Kaggle.
Придумать и решить задачу самому. Давайте представим маркетолога, который устал допоздна засиживаться на работе из-за того, что приходится вручную собирать и обрабатывать данные и делать на их основе наглядные отчеты. Чтобы упростить себе работу и возвращаться вовремя домой, он ставит задачу — автоматизировать этот процесс, используя Python, и решает ее.
Подобным образом вы находите то, что затрудняет вам работу, и придумываете, как это устранить. Единственное, что вам может помешать, — это незнание последовательности действий. От этого вы можете пропустить необходимые шаги и потерпеть неудачу. Либо застрять посередине, не зная, как действовать дальше.
Если это произойдет, воспользуйтесь способом ниже.
Пройти практический курс. Под практическим курсом мы понимаем получение необходимых знаний и закрепление их на реальной задаче под присмотром наставника.
Мы не стали искать подобные курсы у других, а сделали свой. Называется он «Курс по Pytnon для анализа данных». Участники изучат Python и научатся использовать его для анализа данных на примере реальных бизнес-задач.
Теперь вы знаете, в каком направлении двигаться, чтобы научиться использовать Python для анализа данных. Если сомневаетесь, что осилите это самостоятельно, приходите к нам на курс.