Баннер мобильный (1) Пройти тест

Как научиться работе с данными самостоятельно на Python

Не все умеют использоваться Python, но многие хотят этому научиться. Рассказываем, с чего начать и в каком…

Разбор

28 февраля 2024

Поделиться

Скопировано
Как научиться работе с данными самостоятельно на Python

Содержание

    Не все умеют использоваться Python, но многие хотят этому научиться. Рассказываем, с чего начать и в каком направлении двигаться, чтобы не потратить время впустую.

    Если вместе с этим хотите разобраться и в data science, почитайте наш материал «Разобраться в data science: подборка статей, курсов и конференций».

    Задача анализа данных — собрать, исследовать, очистить и преобразовать данные в наглядные графики. Так человек видит картину происходящего и понимает, какие действия предпринять. Для анализа используются разные инструменты: Excel, Google-таблицы, BI-системы и языки программирования.

    Языки программирования предпочтительнее. С их помощью данные обрабатываются быстрее и можно автоматизировать выполнение большинства задач, которые в Excel и Google-таблицах выполняются вручную.

    Для анализа данных мы советуем использовать язык программирования Python.

    Почему Python

    Это популярный язык. Python — распространенный язык программирования. Поэтому нетрудно найти сообщества специалистов, которые используют его в работе. Возьмем для примера сообщество Stackoverflow. Там вы найдете обучающие материалы, фрагменты кода и способы исправления распространенных ошибок, а участники сообщества всегда помогут советом.

    Python занимает четвертое место по популярности среди языков программирования. Источник: TIOBE

    Легко освоить. Синтаксис Python хорошо продуман, поэтому по сравнению с другими языками требуется меньше кода для написания программы.

    Есть средства для анализа данных. Этими средствами являются библиотеки Python. О них мы расскажем ниже.

    Что не требуется для изучения Python

    Ученая степень по информатике. Все, что требуется для анализа данных с помощью Python, — это написать работающий код, чтобы программа правильно делала то, что от нее требуется. Ученая степень по информатике для этого не понадобится.

    Полное освоение Python:

    Заучивать синтаксис. Нет смысла учить синтаксис наизусть. Он отложится в памяти сам по себе во время изучения справочных материалов и практики. Лучше направить силы на поиск смысла в программировании, например, задаваясь такими вопросами: зачем нужна эта функция? как работают условные операторы? и т.д.

    Для тех, кто хочет изучить Python и его инструменты под руководством наставника: «Курс по Python для анализа данных»

    Как установить Python

    Советуем сделать это с помощью дистрибутива Anaconda, так как в нем содержатся необходимые библиотеки для анализа данных.

    Как изучать Python для анализа данных

    Мы сторонники обучения на практике: учеба не наскучивает, Python усваивается быстрее и сразу видно, в чем надо подтянуться. Однако сначала необходимо набрать базовые знания, чтобы понимать, с чего начинать, когда приступаешь к практике. Поэтому мы разделили план по изучению Python для анализа данных на три ступени:

    1. Освоение основных принципов программирования.
    2. Изучение библиотек, необходимых для анализа данных.
    3. Закрепление знаний на практике.

    Освоение основных принципов программирования

    Главное в программировании — не знание синтаксиса, а понимание того, как сделать так, чтобы машина исполняла ваши поручения. И вот что мы советуем:

    Начинающим. Прочитать четыре книги:

    1. Automate the Boring Stuff with Python (Автоматизация рутинных задач с помощью Python). Купить бумажную книгу на английском в Озоне или на русском в Лабиринте. Читать на английском и бесплатно на сайте книги.
    2. How to Think Like a Computer Scientist (Научись думать, как программист). Читать на английском и бесплатно на сайте книги.
    3. Изучаем программирование на Python. Купить бумажную книгу в КомБук.
    4. Изучаем Python. Купить бумажную книгу в КомБук.

    Тем, кто знает другой язык программирования.

    Это видео разъясняет многие вопросы:

    • В чем разница между такими типами данных, как целое число, число с плавающей точкой (запятой) и строкой?
    • Как сделать калькулятор на «Python»?
    • Что такое цикл for и когда его использовать?
    • Какую структуру имеет функция?
    • Как использовать условные операторы (if… else…), чтобы привести выражение к логическому типу?
    • Как работают операторы импорта?

    Для закрепления пройденного. Использовать эти ресурсы:

    Code Fights — предлагаются разные по сложности задачи: одни решаются за пять минут, другие — за несколько часов. Выдалась свободная минутка — решаете легкие задачи, появилось больше свободного времени — задачи посложнее.

    PracticePython.org — предлагаются задачи по программированию на Python. К каждой задаче прилагаются ссылки на то, как ее решили другие люди. Можно сравнить свое решение с решениями других и найти сильные и слабые стороны своего подхода. Новые задачи появляются почти каждую неделю.

    Изучение библиотек, необходимых для анализа данных

    Библиотеки — это собрание функций и объектов, которые используются в скриптах. Они экономят время, так как не нужно прописывать функции с нуля.

    Что понадобится для изучения. Jupyter Notebook — набор средств для разработки программ. Если вы скачали Python с помощью дистрибутива Anaconda, то используйте Anaconda Navigator, чтобы создать и сохранить Jupyter Notebook. Как это делается, показывается в видео.

    Порядок изучения:

    1. Почитать справочную информацию, выделив на это примерно 30 минут.
    2. Открыть Jupyter Notebook и загрузить библиотеку.
    3. Посмотреть, как работает библиотека, используя инструкцию по работе с библиотекой.
    4. Снова выделить минут 30 на изучение справочной информации.

    Действуя в таком порядке, вы освоите библиотеку достаточно, чтобы начать использовать ее в работе.

    Список библиотек:

    1. NumPy — для числовых расчетов. Является основой для многих библиотек, используемых в анализе данных. Справочная информация и инструкция по работе с библиотекой.
    2. Pandas — для анализа данных. Содержит структуры данных и операции для обработки числовых таблиц и временных рядов. Работа с этой библиотекой строится поверх NumPy. Справочная информация и инструкция по работе с библиотекой.
    3. Matplotlib — для двумерной или трехмерной визуализации данных. Она мощная, но довольно громоздкая. Справочная информация и инструкция по работе с библиотекой.
    4. Seaborn — для визуализации данных. Изучите ее, если библиотека Matplotlib показалась сложной. Справочная информация и инструкция по работе с библиотекой.

    Закрепление знаний на практике

    К этой ступени вы подходите с необходимыми знаниями для начала аналитической работы с Python. Осталось их закрепить и приумножить на практике. Мы знаем три способа попратиковаться с пользой: участвовать в конкурсах Kaggle, придумать и решить задачу самому, пройти практический курс.

    Участвовать в конкурсах. Kaggle часто проводит конкурсы по анализу данных. Советуем сначала участвовать в конкурсах без призов, потому что они самые простые. И со временем перебираться к более сложным.

    Вряд ли в реальной работе вам встретятся задачи похожие на те, что вы решали на конкурсах, зато потренируетесь в нахождении верных путей решения.

    Если такой способ практики вам подходит, почитайте руководство, как участвовать в конкурсах Kaggle, — The Beginner’s Guide to Kaggle.

    Придумать и решить задачу самому. Давайте представим маркетолога, который устал допоздна засиживаться на работе из-за того, что приходится вручную собирать и обрабатывать данные и делать на их основе наглядные отчеты. Чтобы упростить себе работу и возвращаться вовремя домой, он ставит задачу — автоматизировать этот процесс, используя Python, и решает ее.

    Подобным образом вы находите то, что затрудняет вам работу, и придумываете, как это устранить. Единственное, что вам может помешать, — это незнание последовательности действий. От этого вы можете пропустить необходимые шаги и потерпеть неудачу. Либо застрять посередине, не зная, как действовать дальше.

    Если это произойдет, воспользуйтесь способом ниже.

    Пройти практический курс. Под практическим курсом мы понимаем получение необходимых знаний и закрепление их на реальной задаче под присмотром наставника.

    Мы не стали искать подобные курсы у других, а сделали свой. Называется он «Курс по Pytnon для анализа данных». Участники изучат Python и научатся использовать его для анализа данных на примере реальных бизнес-задач.

    Теперь вы знаете, в каком направлении двигаться, чтобы научиться использовать Python для анализа данных. Если сомневаетесь, что осилите это самостоятельно, приходите к нам на курс.

    Разбор

    Поделиться

    Скопировано
    0 комментариев
    Комментарии