Специалистам в области Data Science необходимо постоянно учиться и улучшать свои навыки. Платформа Kaggle помогает начинающим дата-сайентистам практиковаться на реальных данных, а опытным — изучать работу коллег и соревноваться с ними.
Что такое Kaggle?
Kaggle — это сообщество специалистов по Data Science. Здесь можно изучать машинное обучение, писать свои и разбирать чужие прогнозные модели, участвовать в соревнованиях и общаться с дата-сайентистами. Сервис полностью бесплатен.
Kaggle используют и начинающие, и опытные дата-сайентисты со всего мира. Есть пользовательский рейтинг — очки в нем можно заработать за решение задач по машинному обучению, обсуждение на форуме, публикацию своего кода и наборов данных. Многие компании при найме обращают внимание на место соискателя в рейтинге Kaggle.
Читайте также: Как достичь успеха в Kaggle?
Зачем Kaggle начинающему дата-сайентисту?
Поможет освоить основные принципы Machine Learning и Data Science
В разделе Learn есть больше десятка полезных курсов: введение в SQL, введение в машинное обучение, Python, визуализация данных и другие. Курсы не объяснят математику, стоящую за алгоритмами машинного обучения, но научат принципам, необходимым для анализа данных. Это поможет сэкономить время, которое обычно тратится на пассивное изучение материала.
Быстро погрузит в практику
Вместо того чтобы искать задачи по изученной теории, можно начать работать над проектом и уже в процессе «добирать» необходимые знания. Так обучение Machine Learning и Data Science проходит увлекательнее и приносит больше пользы.
Поможет решать актуальные проблемы на реальных данных
Kaggle публикует соревнования, которые инициируют компании — они ищут решения актуальных проблем и дают участникам реальные наборы данных. Это дает возможность не только получить опыт в решении задач, но и начать взаимодействовать с компаниями и их запросами.
Читайте также: Как пройти собеседование на дата-сайентиста?
С чего начать?
Шаг 1: получите базовые знания
Выберите язык программирования — например, Python или R — и изучить его основы. Затем перейти к Kaggle Learn, чтобы закрепить знания по выбранному языку программирования, начать погружение в машинное обучение и познакомиться с методами визуализации данных.
Шаг 2: найти интересный проект или набор данных
Для начала можно выбрать несложный конкурс и испытать себя. На этом этапе начинающим дата-сайентистам помогут Kernels («ядра») — онлайн-среда для программирования, которая работает на серверах Kaggle. В ней можно писать Python/R-скрипты и работать в Jupyter Notebooks.
Kernels бесплатны и отлично подходят для тестирования. Можно скопировать или изменить уже существующее «ядро» другого пользователя, а также поделиться своим с сообществом.
Шаг 3: изучить открытые «ядра»
Анализ открытых «ядер» поможет сравнить свой код с кодом других пользователей и понять, какие разделы Machine Learning и Data Science следует изучить тщательнее. Это ускорит погружение в тему и сделает процесс более осознанным.
Шаг 4: опубликовать собственное «ядро»
Создаqnt собственный Kernel — даже если у вас еще нет уверенности в своих силах. «Ядро» лучше сделать публичным: так можно заработать больше очков на платформе и получить обратную связь.
Шаг 5: изучите новую информацию и снова опубликуйте «ядро»
Следуйте принципу «Learn, leap and repeat» (научись, сделай большой шаг вперед и начни снова): усовершенствуйте свои навыки и опять вернитесь к шагу 4.
Шаг 6: совершенствуйте анализ, изучая Kernels
На этой стадии у начинающего дата-сайентиста обычно уже есть свои методы работы с данными и прогнозирующие модели — поэтому еще раз изучите «ядра» других пользователей. Можно задать коллегам вопрос, начать дискуссию или просто дополнить свои наработки.
Как Kaggle поможет опытному дата-сайентисту?
Если у вас уже есть опыт, то вы сможете участвовать в соревнованиях по исследованию данных — в одиночку или командой решать задачи по машинному обучению. Однако опытные специалисты соревнуются не только из интереса: призеры соревнований получают денежные призы, становятся известными в сообществе, их приглашают на престижные позиции.
Например, в конце 2020 года стартовал конкурс «Взлом почки». Задача специалистов — находить ткани определенного типа на изображениях. Это часть проекта Human BioMolecular Atlas Program (HuBMAP) по изучению работы человеческого организма на клеточном уровне. Призовой фонд — $60 000.