Лучшие в Kaggle: что такое соревновательный дата-сайенс и как достичь в нем успеха

Как компании узнают, кто из дата-сайентистов круче, когда нанимают их на работу? Как показать свой талант и стать известным в сообществе? На основе чего формируется рейтинг, исходя из которого вас потом могут нанять на престижную позицию? Рассказываем про самую известную состязательную платформу, возможности и правила ее игры, а еще раскрываем список лучших участников из России.  

Дата-сайенс — по определению всё-таки наука. Поэтому, чтобы оценивать разработчиков и аналитиков долгое время применялся и применяется распространенный среди ученых индекс Хирша. Он помогает по числу публикаций и их цитируемости понять, насколько востребованы научные работы — а значит и их автор. 

Индекс Хирша h равен числу статей, на каждую из которых сослались не менее h раз. То есть, чтобы его рассчитать, берут все статьи ученого, которые цитировали его коллеги, расставляют в порядке уменьшения числа ссылок на них, присваивая им номера. После этого находят последнюю статью, чей номер не превосходит число ее цитирований. Этот номер и есть индекс Хирша. 

Сложно? Вроде не очень, а уж настоящим дата-сайентистам понятно сразу — вот только для оценки их работы не слишком подходит. Ведь результат их работы куда чаще — код, а не научный текст. К тому же дата-сайентисты востребованы на рынке, а рынку важнее примеры алгоритмов, чем достижения в науке. 

Но часто компании держат информацию о своих сотрудниках и их работе в тайне. Особенно тщательно скрывают дата-сайентистов в России, где наблюдается огромный дефицит кадров в этой области. 

В ответ на спрос стала расти популярность соревновательных  платформ для разработчиков. Самый известный сервис Kaggle (произносится: «кэггл»), который принадлежит Google. Его используют студенты, а профессиональные разработчики рассказывают, как прокачать свой рейтинг. Применяемые там решения задают моду в среде дата-сайентистов, а компании в России и в мире обращают внимание на место в рейтингах Kaggle при найме на работу. 

В 2017 году в Kaggle было зарегистрировано больше миллиона пользователей, а в августе 2020 года пользователи из России гуглили сервис почти так же часто, как словосочетание «‎Big Data»‎: 

Kaggle полностью бесплатен, и любой пользователь может организовать конкурс по исследованию данных или участвовать в уже существующем. В системе размещены наборы открытых данных, а также предоставляются облачные инструменты для их обработки и машинного обучения. Еще есть возможность учиться и раздел для размещения вакансий, где отобрать лучших кандидатов тоже помогут конкурсы. 

Как это работает

Одна из интересных фич Kaggle, благодаря которой он стал настолько популярен в среде дата-сайенс, система рейтинга

Пользователи могут зарабатывать очки и улучшать свой рейтинг в четырех разных категориях: 

  • Соревнования. В одиночку или командой вы решаете задачи по машинному обучению. Соревнования очень разнообразны: от простой и понятной задачи по предсказанию количества выживших на «Титанике» до оценки эффективности игроков защиты при игре в пас от NFL Big Data Bowl 2021.
  • Программный код. Делитесь своим кодом с сообществом, запуская его в Kaggle Notebooks облачной вычислительной среде.
  • Наборы данных. Вы можете помогать другим дата-сайентистам, выкладывая новые данные для совместного использования.
  • Обсуждения. Обсуждайте задачи и делитесь лучшими решениями, а также оценивайте посты других пользователей.

Продвижение в каждой из категорий не зависит от остальных. В них доступны разные уровни достижений: 

  • Новичок. Вам достаточно зарегистрироваться.
  • Участник. Вы заполнили профиль и пообщались с сообществом, а также использовали все возможности платформы:
    • Запустили один скрипт.
    • Поучаствовали в одном соревновании.
    • Написали один комментарий.
    • Отдали один голос кому-то из участников.
  • Эксперт. Вы выполнили значительный объем работ в Kaggle в одной или нескольких областях знаний и заработали бронзовые медали. Для каждой из категорий необходимо разное количество медалей, а после получения достижения вы попадете в рейтинг Kaggle соответствующей категории. 
  • Мастер. Чтобы получить этот уровень, нужно продемонстрировать превосходство в одной или нескольких категориях знаний на Kaggle и получить серебряные или золотые медали в зависимости от категорий. Мастера в категории «Соревнования» имеют право участвовать в эксклюзивных состязаниях, недоступных другим категориям.
  • Грандмастер. Вы постоянно демонстрируете выдающиеся показатели и получаете золотые медали. Вы лучший из лучших.

Медали присваиваются за отличный результат на соревнованиях, популярный программный код или полезный набор данных и остаются навсегда. В то же время баллы со временем теряют свою ценность, что позволяет общему рейтингу оставаться актуальным. 

Кто на первом месте?

Больше всего в Kaggle зарегистрировано пользователей из Индии и США. Россияне занимают в общем рейтинге стран стабильное пятое место — между Китаем и Японией. Первое место в общем рейтинге соревнований по дата сайенс занимает Гуаншо Сю (Guanshuo Xu)— дата-сайентист из Нью-Йорка. За пять лет он набрал более 255 тысяч очков в Kaggle-соревнованиях (это абсолютный рекорд).

Гуаншо закончил бакалавриат по специальности «Электротехника и электроника» в университете Тунцзи в Шанхае, а после поступил в магистратуру университета Нью-Джерси. С 2010 года он занимался задачами по распознаванию изображений и алгоритмами машинного обучения, в 2017 году впервые стал грандмастером в Kaggle, а с 2019 года работает на позиции Data Scientist в H2O.ai (алгоритмами этой компании пользуются Cisco, Intel и PayPal). 

Лучшие дата-сайентисты из России по версии Kaggle

Для составления списка лучших практикующих дата-сайентистов России мы использовали данные участников Kaggle-соревнований, у которых указана личная информация.

Самый сильный из участвующих в Kaggle-соревнованиях российский разработчик Дмитрий Гордеев (dott) тоже работает в H2O.ai. Он зарегистрировался в Kaggle восемь лет назад, и на сегодня у него 114 тысяч очков.

В общем рейтинге Kaggle он занимает девятое место. В 2010 году Дмитрий закончил МГУ, занимаясь там распознаванием изображений и data mining. Работая с 2008 года в группе моделирования розничных рисков в банке, он вырос до руководителя директора подразделения и переехал в Австрию в 2013 году. В 2014 году прошел курс по дата-сайенс на Coursera, а уже в 2020-м присоединился к команде в H2O.ai.

На втором месте среди российских дата-сайентистов в рейтинге соревнований Kaggle Артур Кузин (n01z3) он занимает 28-е место в общем рейтинге Kaggle, имея больше 71 тысячи очков. 

Артур закончил Московский физико-технический институт в 2011 году и занимался исследовательской аналитикой с 2008 по 2016 год. После этого он устроился в «Авито» на позицию Data Scientist, а последние несколько лет руководит командой по Computer Vision в X5 Retail Group. У Артура несколько публикаций по физике и патент на устройство для калибровки просвечивающих электронных микроскопов.

Третье место в общем рейтинге соревнований Kaggle среди россиян занимает Артем Кулаков (Art) в общем рейтинге у него 29-е место и 71 тысяча очков Kaggle, которые он заработал за два года участия в соревнованиях. 

Артем учится в ВШЭ по специальности Computer Science и уже успел поработать на позиции Data Analyst в «Тинькофф Банке» и «Мегафоне». Сейчас Артем занимается фрилансом и специализируется на задачах Computer Vision и NLP. 

На четвертом месте Роман Соловьев (ZFTurbo) у него 69 тысяч очков и 31-е место в общем рейтинге соревнований Kaggle. Роман ведущий научный сотрудник Института проблем проектирования в микроэлектронике РАН. 

На пятом месте Илья Ларченко (ilialar), занимающий сейчас 37-е место в общем рейтинге Kaggle с 65 тысячами очков. 

Илья окончил МФТИ в 2014 году, а затем работал аналитиком и разработчиком. С 2017 года он руководил командой дата сайентистов в компании DOC+, а в 2020 году переехал в Таиланд, где работает на позиции Data Science Manager в компании Agoda. 


Небольшой элемент геймификации, позволяющий пользователям зарабатывать баллы и медали в соревнованиях Kaggle, изменил правила игры в вопросах найма. 

Пример лучших дата-сайентистов из России показывает: образование и опыт работы с данными не столь важны для построения успешной карьеры. Например, Артем Кулаков еще учится в университете, а принимать участие в соревнованиях на Kaggle начал всего два года назад. Сейчас он в списке лучших дата-сайентистов России и работает на фрилансе. Гуаншо Сю закончил бакалавриат по специальности «Электротехника и электроника», а сейчас работает в H2O.ai лидере open source решений в дата-сайенс.

Начните с простых задач сегодня и кто знает, быть может, через год или два вы сможете оказаться в рейтинге лучших дата сайентистов и двигать прогресс вперед, реализуя технологии исследований ВИЧ, модели прогнозирования загруженности магистралей и многое другое. Главное иметь желание развиваться в области Data Science и как можно больше практиковаться. 

Текст и инфографики: Георгий Власов

Поделиться:
Опубликовано в рубрике UncategorizedTagged ,

SkillFactory.Рассылка