Работа с Kaggle, как и с чего начать?

В новую область человека может привести банальное любопытство. А вот удержать его интерес любопытство способно не всегда. Чаще нужно приложить усилие, особенно, когда на пути к неизведанному встречаются преграды. Что касается интереса к машинному обучению и data science, этих преград всегда предостаточно. Считается, что это сложная и требующая глубоких математических и статистических знаний отрасль и что начать ею заниматься доступно не каждому. И если с первым утверждением мы спорить не станем, то со вторым мы уж точно не согласны! В доказательство тому мы перевели и адаптировали для вас руководство от Nityesh Agarwal, студента колледжа, изучающего Machine Learning и основы Data Science и делящегося опытом с новичками каким до недавнего времени был и он сам. 

Nityesh в своей статьей замечает,  что раньше, когда его спрашивали с чего начать обучение аналитике больших данных и МО, он приводил в пример какой-нибудь курс, самоучитель или предлагал заняться изучением Python, как когда-то сделал он сам. Но так было до того момента, пока он не познакомился с платформой Kaggle… 

Kaggle — это открытая площадка, где можно начать изучение МО, data science, практиковать различные модели данных, проанализировать их. И если вы хотите учиться через практику, то вам сюда! Здесь можно найти готовые наборы данных, ядра (kernels), обучающие материалы по SQL и Deep Learning, поучаствовать в соревнованиях по МО, поделиться своим kernel и получить совет от эксперта в области data science. Но обо всем по порядку. 

Курс по Machine Learning
Идет набор в группу 3 800₽ в месяц

Зачем мне нужен Kaggle?

По мнению Nityesh есть, как минимум, три причины.

Причина #1 Узнать и изучить ровно столько, сколько необходимо для погружения в Machine Learning и Data Science

В Kaggle есть вкладка Learn, в которой скрывается сразу несколько полезных курсов: Введение в SQL, Введение в МО, Deep Learning, Python и другие. Курсы не научат вас теории и математике, стоящими за алгоритмами МО. Но они сосредоточены на обучении тем принципам и навыкам, которые жизненно необходимы при анализе и моделировании наборов данных. Это поможет вам сэкономить время, которое обычно тратиться на пассивное изучение материала, и подготовит вас к участию в соревнованиях по МО. 

Причина #2 Заразиться духом обучения через практику

Мысль проста: вместо того, чтобы искать какой-то проект после того, как вы что-то изучили, начните работать над проектом уже сейчас и изучите то, что понадобиться именно для этого проекта. Автор статьи уверен, что так обучение data science и machine learning проходит гораздо увлекательнее и полезнее. И мы поддерживаем эту идею! Кстати, на курсе Специализация Data Science от Skillfactory преподаватели из ВШЭ, Яндекс.Дзен, NVIDIA и EORA придерживаются того же принципа, они погрузят вас в основы программирования на Python, математику и статистику для Data Science, практический Machine Learning, Deep learning и нейронные сети, Data Engineering, менеджмент для Data Science и сделают из вас профессионального Data Scientist! Курс длится год и начнется уже в августе. Почитать отзывы и увидеть как проходит обучение можно здесь.

Причина #3 Использовать реальные данные для решения реальных проблем

Kaggle хостит соревнования, которые инициируют реальные компании. И они ищут решения реальных проблем, с которыми сталкиваются в работе и дают участникам реальные наборы данных. А что уж говорить о реальных призовых фондах! И все это значит только одно: решая настоящие проблемы существующих компаний, вы приобретаете не только опыт взаимодействия с ними, но и продвигаетесь в своих знаниях data science и машинного обучения. 

DS
Специализация Data Science
Идет набор в группу 12 500₽ в месяц

С чего лучше начать?

#1 Получите базовые знания

Nityesh Agarwal начинал свое изучение с Python и советует как раз начинать с базовых знаний, выбрав язык программирования, тот же Python или R. 

После освоения базы приступайте к Kaggle Learn, здесь можно закрепить основы выбранного языка программирования, начать погружение в машинное обучение и познакомиться с методами визуализации данных. 

#2 Найдите интересный проект или набор данных

Выберите несложный конкурс и попробуйте себя. Ко всем очевидным плюсам в виде опыта и новых знаний добавляются еще и возможность доступа к открытым kernel. 

Kernels или ядра — онлайн-среда для программирования, которая работает на серверах Kaggle. В ней можно писать Python/R-скрипты и работать в Jupyter Notebooks. Благодаря им, среду не нужно настраивать на своём компьютере — она уже готова. 

Они бесплатны и отлично подходят для тестирования. Их можно скопировать, изменить и обмениваться с другими пользователями. Они будут очень полезны новичкам. И помните, что ваша главная цель не победа, а прокачка скиллов в data science и machine learning. 

#3 Изучите открытые kernels 

Пройдясь по открытым kernels, мы сможете понять что еще вам нужно узнать и понять в data science и МО. Это ускорит процесс погружения и сделает его более осознанным. Главное на этом этапе — не пугайтесь новых терминов, ведь они могут стать вашими любимыми при более близком рассмотрении. 

#4 Создайте свой kernel

Сперва вам может так не показаться, но вы уже готовы к созданию собственного kernel! Используйте все свои знания и сделайте мини-проект собственной среды! Кстати kernel лучше сделать публичным, так можно заработать больше очков на платформе. Как именно это сделать — читайте в статье от Alexandra Deis, бывшего бизнес-аналитика, а теперь дата-аналитика.

#5 Узнайте что вам нужно сделать ещё и вернитесь к шагу #4

Learn, leap and repeat — известный принцип менеджеров и руководителей. Он означает «Научись, сделай большой шаг вперёд и по-новой». Важно следовать этому циклу и помнить его значимость, особенно, если что-то не получается с первого, со второго или даже с третьего раза. Это может быть небольшая статья или многостраничный самоучитель — неважно что это будет, важно как это вам поможет продвинуться.

#6 Совершенствуйте свой анализ, вернувшись к шагу #3

Если вы добрались до этого этапа, то, вероятно, вы уже построили свою предиктивную модель. Поздравляем вас с этим! А теперь самое время вернуться к шагу #3 и посмотреть что получилось у других пользователей. Вы можете задать им вопрос, открыть дискуссию или просто поучиться у других и дополнить свою модель.

Что ж, теперь вы готовы начать учиться и анализировать больше данных, создавать свои датасеты и модели! Мы уверены, что Kaggle — отличная отправная точка. Не теряйте время и начните свое погружение в мир больших данных! А ниже мы оставим несколько ссылок на интересные, на наш взгляд, соревнования на Kaggle.

Predict Future Sales от компании 1C

Northeastern SMILE Lab — Recognizing faces in the wild от компании SMILE Lab

Aerial Cactus Identification от мексиканских исследователей в области климатического кризиса и проекта VIGIA

New York City Taxi Fare Prediction в партнерстве Google Cloud и Coursera  

Любицкая Дарья

Поделиться:
Опубликовано в рубрике Machine LearningTagged ,

SkillFactory.Рассылка