В новую область человека может привести банальное любопытство. А вот удержать его интерес любопытство способно не всегда. Чаще нужно приложить усилие, особенно, когда на пути к неизведанному встречаются преграды. Что касается интереса к машинному обучению и data science, этих преград всегда предостаточно. Считается, что это сложная и требующая глубоких математических и статистических знаний отрасль и что начать ею заниматься доступно не каждому. И если с первым утверждением мы спорить не станем, то со вторым мы уж точно не согласны! В доказательство тому мы перевели и адаптировали для вас руководство от Nityesh Agarwal, студента колледжа, изучающего Machine Learning и основы Data Science и делящегося опытом с новичками каким до недавнего времени был и он сам.
Nityesh в своей статьей замечает, что раньше, когда его спрашивали с чего начать обучение аналитике больших данных и МО, он приводил в пример какой-нибудь курс, самоучитель или предлагал заняться изучением Python, как когда-то сделал он сам. Но так было до того момента, пока он не познакомился с платформой Kaggle…
Kaggle — это открытая площадка, где можно начать изучение МО, data science, практиковать различные модели данных, проанализировать их. И если вы хотите учиться через практику, то вам сюда! Здесь можно найти готовые наборы данных, ядра (kernels), обучающие материалы по SQL и Deep Learning, поучаствовать в соревнованиях по МО, поделиться своим kernel и получить совет от эксперта в области data science. Но обо всем по порядку.

Зачем мне нужен Kaggle?
По мнению Nityesh есть, как минимум, три причины.
Причина #1 Узнать и изучить ровно столько, сколько необходимо для погружения в Machine Learning и Data Science
В Kaggle есть вкладка Learn, в которой скрывается сразу несколько полезных курсов: Введение в SQL, Введение в МО, Deep Learning, Python и другие. Курсы не научат вас теории и математике, стоящими за алгоритмами МО. Но они сосредоточены на обучении тем принципам и навыкам, которые жизненно необходимы при анализе и моделировании наборов данных. Это поможет вам сэкономить время, которое обычно тратиться на пассивное изучение материала, и подготовит вас к участию в соревнованиях по МО.
Причина #2 Заразиться духом обучения через практику
Мысль проста: вместо того, чтобы искать какой-то проект после того, как вы что-то изучили, начните работать над проектом уже сейчас и изучите то, что понадобиться именно для этого проекта. Автор статьи уверен, что так обучение data science и machine learning проходит гораздо увлекательнее и полезнее. И мы поддерживаем эту идею! Кстати, на курсе Специализация Data Science от Skillfactory преподаватели из ВШЭ, Яндекс.Дзен, NVIDIA и EORA придерживаются того же принципа, они погрузят вас в основы программирования на Python, математику и статистику для Data Science, практический Machine Learning, Deep learning и нейронные сети, Data Engineering, менеджмент для Data Science и сделают из вас профессионального Data Scientist! Курс длится год и начнется уже в августе. Почитать отзывы и увидеть как проходит обучение можно здесь.
Причина #3 Использовать реальные данные для решения реальных проблем
Kaggle хостит соревнования, которые инициируют реальные компании. И они ищут решения реальных проблем, с которыми сталкиваются в работе и дают участникам реальные наборы данных. А что уж говорить о реальных призовых фондах! И все это значит только одно: решая настоящие проблемы существующих компаний, вы приобретаете не только опыт взаимодействия с ними, но и продвигаетесь в своих знаниях data science и машинного обучения.

С чего лучше начать?
#1 Получите базовые знания
Nityesh Agarwal начинал свое изучение с Python и советует как раз начинать с базовых знаний, выбрав язык программирования, тот же Python или R.
После освоения базы приступайте к Kaggle Learn, здесь можно закрепить основы выбранного языка программирования, начать погружение в машинное обучение и познакомиться с методами визуализации данных.
#2 Найдите интересный проект или набор данных
Выберите несложный конкурс и попробуйте себя. Ко всем очевидным плюсам в виде опыта и новых знаний добавляются еще и возможность доступа к открытым kernel.
Kernels или ядра — онлайн-среда для программирования, которая работает на серверах Kaggle. В ней можно писать Python/R-скрипты и работать в Jupyter Notebooks. Благодаря им, среду не нужно настраивать на своём компьютере — она уже готова.
Они бесплатны и отлично подходят для тестирования. Их можно скопировать, изменить и обмениваться с другими пользователями. Они будут очень полезны новичкам. И помните, что ваша главная цель не победа, а прокачка скиллов в data science и machine learning.
#3 Изучите открытые kernels
Пройдясь по открытым kernels, мы сможете понять что еще вам нужно узнать и понять в data science и МО. Это ускорит процесс погружения и сделает его более осознанным. Главное на этом этапе — не пугайтесь новых терминов, ведь они могут стать вашими любимыми при более близком рассмотрении.
#4 Создайте свой kernel
Сперва вам может так не показаться, но вы уже готовы к созданию собственного kernel! Используйте все свои знания и сделайте мини-проект собственной среды! Кстати kernel лучше сделать публичным, так можно заработать больше очков на платформе. Как именно это сделать — читайте в статье от Alexandra Deis, бывшего бизнес-аналитика, а теперь дата-аналитика.
#5 Узнайте что вам нужно сделать ещё и вернитесь к шагу #4
Learn, leap and repeat — известный принцип менеджеров и руководителей. Он означает «Научись, сделай большой шаг вперёд и по-новой». Важно следовать этому циклу и помнить его значимость, особенно, если что-то не получается с первого, со второго или даже с третьего раза. Это может быть небольшая статья или многостраничный самоучитель — неважно что это будет, важно как это вам поможет продвинуться.
#6 Совершенствуйте свой анализ, вернувшись к шагу #3
Если вы добрались до этого этапа, то, вероятно, вы уже построили свою предиктивную модель. Поздравляем вас с этим! А теперь самое время вернуться к шагу #3 и посмотреть что получилось у других пользователей. Вы можете задать им вопрос, открыть дискуссию или просто поучиться у других и дополнить свою модель.
Что ж, теперь вы готовы начать учиться и анализировать больше данных, создавать свои датасеты и модели! Мы уверены, что Kaggle — отличная отправная точка. Не теряйте время и начните свое погружение в мир больших данных! А ниже мы оставим несколько ссылок на интересные, на наш взгляд, соревнования на Kaggle.
Predict Future Sales от компании 1C
Northeastern SMILE Lab — Recognizing faces in the wild от компании SMILE Lab
Aerial Cactus Identification от мексиканских исследователей в области климатического кризиса и проекта VIGIA
New York City Taxi Fare Prediction в партнерстве Google Cloud и Coursera
Любицкая Дарья