в Python, Анализ данных

Учебный план по самостоятельному изучению Python для анализа данных

Не все умеют использоваться Python для анализа данных, но многие хотят этому научиться. Рассказываем, с чего начать и в каком направлении двигаться, чтобы не потратить время впустую.

Если вместе с этим хотите разобраться и в data science, почитайте наш материал «Разобраться в data science: подборка статей, курсов и конференций».

Задача анализа данных — собрать, исследовать, очистить и преобразовать данные в наглядные графики. Так человек видит картину происходящего и понимает, какие действия предпринять. Для анализа используются разные инструменты: Excel, Google-таблицы, BI-системы и языки программирования.

Языки программирования предпочтительнее. С их помощью данные обрабатываются быстрее и можно автоматизировать выполнение большинства задач, которые в Excel и Google-таблицах выполняются вручную.

Для анализа данных мы советуем использовать язык программирования Python.

Почему Python

Это популярный язык. Python — распространенный язык программирования. Поэтому нетрудно найти сообщества специалистов, которые используют его в работе. Возьмем для примера сообщество Stackoverflow. Там вы найдете обучающие материалы, фрагменты кода и способы исправления распространенных ошибок, а участники сообщества всегда помогут советом.

Python для анализа данных один из самых распространенных языков программирования

Python занимает четвертое место по популярности среди языков программирования. Источник: TIOBE

Легко освоить. Синтаксис Python хорошо продуман, поэтому по сравнению с другими языками требуется меньше кода для написания программы. Для примера, сравните программу «Привет, мир!» на Python и на Java:

Python Java
print( «Привет, мир!» ) public class Main {

public static void main(String[] args) {

System.out.println(«Привет, мир!»);

}

}

Есть средства для анализа данных. Этими средствами являются библиотеки Python. О них мы расскажем ниже.

Что не требуется для изучения Python

Ученая степень по информатике. Все, что требуется для анализа данных с помощью Python, — это написать работающий код, чтобы программа правильно делала то, что от нее требуется. Ученая степень по информатике для этого не понадобится.

Полное освоение Python:

Для анализа данных нет смысла изучать Python целиком

Заучивать синтаксис. Нет смысла учить синтаксис наизусть. Он отложится в памяти сам по себе во время изучения справочных материалов и практики. Лучше направить силы на поиск смысла в программировании, например, задаваясь такими вопросами: зачем нужна эта функция? как работают условные операторы? и т.д.

Для тех, кто хочет изучить Python и его инструменты под руководством наставника: Онлайн-курс «Python для анализа данных»

Как установить Python

Советуем сделать это с помощью дистрибутива Anaconda, так как в нем содержатся необходимые библиотеки для анализа данных.

Как изучать Python для анализа данных

Мы сторонники обучения на практике: учеба не наскучивает, Python усваивается быстрее и сразу видно, в чем надо подтянуться. Однако сначала необходимо набрать базовые знания, чтобы понимать, с чего начинать, когда приступаешь к практике. Поэтому мы разделили план по изучению Python для анализа данных на три ступени:

  1. Освоение основных принципов программирования.
  2. Изучение библиотек, необходимых для анализа данных.
  3. Закрепление знаний на практике.

Освоение основных принципов программирования

Чтобы использовать Python для анализа данных, необходимо освоить основы программирования

Главное в программировании — не знание синтаксиса, а понимание того, как сделать так, чтобы машина исполняла ваши поручения. И вот что мы советуем:

Начинающим. Прочитать четыре книги:

  1. Automate the Boring Stuff with Python (Автоматизация рутинных задач с помощью Python). Купить бумажную книгу на английском в Озоне или на русском в Лабиринте. Читать на английском и бесплатно на сайте книги.
  2. How to Think Like a Computer Scientist (Научись думать, как программист). Читать на английском и бесплатно на сайте книги.
  3. Изучаем программирование на Python. Купить бумажную книгу в КомБук.
  4. Изучаем Python. Купить бумажную книгу в КомБук.

Тем, кто знает другой язык программирования. Посмотреть видео Learn Python in One Video. Это видео разъясняет многие вопросы, касающиеся Python и анализа данных:

  • В чем разница между такими типами данных, как целое число, число с плавающей точкой (запятой) и строкой?
  • Как сделать калькулятор на «Python»?
  • Что такое цикл for и когда его использовать?
  • Какую структуру имеет функция?
  • Как использовать условные операторы (if… else…), чтобы привести выражение к логическому типу?
  • Как работают операторы импорта?

Для закрепления пройденного. Использовать эти ресурсы:

Code Fights — предлагаются разные по сложности задачи: одни решаются за пять минут, другие — за несколько часов. Выдалась свободная минутка — решаете легкие задачи, появилось больше свободного времени — задачи посложнее.

Python Challenge — головоломка по программированию. Состоит из 33 ступеней, которые нужно пройти, используя Python. Помогает узнать Python со всех сторон.

PracticePython.org — предлагаются задачи по программированию на Python. К каждой задаче прилагаются ссылки на то, как ее решили другие люди. Можно сравнить свое решение с решениями других и найти сильные и слабые стороны своего подхода. Новые задачи появляются почти каждую неделю.

Изучение библиотек, необходимых для анализа данных

У Python для анализа данных есть библиотеки

Библиотеки — это собрание функций и объектов, которые используются в скриптах. Они экономят время, так как не нужно прописывать функции с нуля.

Что понадобится для изучения. Jupyter Notebook — набор средств для разработки программ. Если вы скачали Python с помощью дистрибутива Anaconda, то используйте Anaconda Navigator, чтобы создать и сохранить Jupyter Notebook. Как это делается, показывается в видео How to create and save a jupyter notebook with anaconda navigator.

Порядок изучения:

  1. Почитать справочную информацию, выделив на это примерно 30 минут.
  2. Открыть Jupyter Notebook и загрузить библиотеку.
  3. Посмотреть, как работает библиотека, используя инструкцию по работе с библиотекой.
  4. Снова выделить минут 30 на изучение справочной информации.

Действуя в таком порядке, вы освоите библиотеку достаточно, чтобы начать использовать ее в работе.

Список библиотек:

  1. NumPy — для числовых расчетов. Является основой для многих библиотек, используемых в анализе данных. Справочная информация и инструкция по работе с библиотекой.
  2. Pandas — для анализа данных. Содержит структуры данных и операции для обработки числовых таблиц и временных рядов. Работа с этой библиотекой строится поверх NumPy. Справочная информация и инструкция по работе с библиотекой.
  3. Matplotlib — для двумерной или трехмерной визуализации данных. Она мощная, но довольно громоздкая. Справочная информация и инструкция по работе с библиотекой.
  4. Seaborn — для визуализации данных. Изучите ее, если библиотека Matplotlib показалась сложной. Справочная информация и инструкция по работе с библиотекой.

Закрепление знаний на практике

Чтобы начать использовать Python для анализа данных, нужно закрепить знания на практике

К этой ступени вы подходите с необходимыми знаниями для начала аналитической работы с Python. Осталось их закрепить и приумножить на практике. Мы знаем три способа попратиковаться с пользой: участвовать в конкурсах Kaggle, придумать и решить задачу самому, пройти практический курс по анализу данных на Python.

Участвовать в конкурсах. Kaggle часто проводит конкурсы по анализу данных. Советуем сначала участвовать в конкурсах без призов, потому что они самые простые. И со временем перебираться к более сложным.

Вряд ли в реальной работе вам встретятся задачи похожие на те, что вы решали на конкурсах, зато потренируетесь в нахождении верных путей решения.

Если такой способ практики вам подходит, почитайте руководство, как участвовать в конкурсах Kaggle, — The Beginner’s Guide to Kaggle.

Придумать и решить задачу самому. Давайте представим маркетолога, который устал допоздна засиживаться на работе из-за того, что приходится вручную собирать и обрабатывать данные и делать на их основе наглядные отчеты. Чтобы упростить себе работу и возвращаться вовремя домой, он ставит задачу — автоматизировать этот процесс, используя Python, и решает ее.

Подобным образом вы находите то, что затрудняет вам работу, и придумываете, как это устранить. Единственное, что вам может помешать, — это незнание последовательности действий. От этого вы можете пропустить необходимые шаги и потерпеть неудачу. Либо застрять посередине, не зная, как действовать дальше.

Если это произойдет, воспользуйтесь способом ниже.

Пройти практический курс по анализу данных на Python. Под практическим курсом мы понимаем получение необходимых знаний и закрепление их на реальной задаче под присмотром наставника.

Мы не стали искать подобные курсы у других, а сделали свой. Называется он «Pytnon для анализа данных». Это онлайн-курс, который начнется 28 февраля. Участники изучат Python и научатся использовать его для анализа данных на примере реальных бизнес-задач.


Теперь вы знаете, в каком направлении двигаться, чтобы научиться использовать Python для анализа данных. Если сомневаетесь, что осилите это самостоятельно, приходите к нам на курс.

Поделиться:
  • Андрей Шкода

    спасибо

    • Skillfactory.ru

      Рады, что понравилось. Будем периодически дополнять материал

  • Спасибо, а как подписаться на обновления блога?