Data Scientist — это не только полезный сотрудник для бизнеса, который помогает изучать аудиторию, предсказывать спрос на товары и разрабатывать алгоритмы для рекомендаций на стримингах. В Data Science можно быть настоящим ученым, развивать свои идеи, создавать универсальные инструменты, которые двигают вперед как бизнес, так и, например, медицину.
О том как построить научную карьеру в Data Science, рассказывает эксперт. В конце статьи — подборка полезных ссылок: на телеграм-каналы, видео и чаты по Machine Learning.
Старт карьеры: NLP или CV?
Я училась на программе «Прикладная математика и информатика» в Государственном университете управления. За первые два курса мы прошли основные математические дисциплины, пришло время определяться, с какими предметами я планирую связать будущую профессию. Я поняла, что хочу работать с глубоким машинным обучением. Мне нравились диффуры и линейная алгебра, они тесно связаны с этой сферой.
Я достаточно быстро подтянула Python и пошла на стажировку в Институт системных исследований РАН. Там я осталась работать до конца бакалавриата, то есть на два года. Я занималась проектами, связанными с компьютерным зрением и NLP, оба они были достаточно крупные и длительные. На этом опыте я поняла, что обработка естественного языка мне интереснее.
Чтобы углубленно изучить NLP, я пошла в магистратуру Университета МИСИС на программу «Обработка естественного языка». Параллельно с этим устроилась в «Криптонит» на позицию джуна в Лабораторию искусственного интеллекта. Спустя чуть больше года стала мидлом и продолжаю расти в компании.
Наша лаборатория работает с тремя модальностями — изображения, аудио и текст. При решении задач мы преимущественно используем нейросети. Сейчас мы готовимся решать задачу суммаризации текстов. Сложность в том, что мы работаем со специфическим доменом, и в нем практически нет обучающих данных. Это серьезная научная проблема, которую мы собираемся решить вместе с командой.
Чем отличается работа дата-сайентиста в исследовательских и бизнес-проектах
У дата-сайентиста на бизнес-проекте и в научной команде разные пайплайны и цели.
На бизнес-проектах
- Фокус на решении с помощью Data Science конкретной бизнес-проблемы или улучшения бизнес-процесса, чтобы в итоге увеличить прибыль.
- Преимущественно используются готовые решения: проверенные методы и модели машинного обучения, которые есть на рынке.
- Как правило, нет проблем с данными: у каждого бизнеса есть CRM-система, из которой можно получить большое количество данных о продуктах, продажах, прибыли, клиентах.
- Сроки выполнения у бизнеса почти всегда сжаты: компании нужно максимально быстро получить решение проблемы.
Пример задачи Data Science для бизнеса: прогнозирование спроса в праздничные дни. Дата-сайентист тренирует модель на исторических данных, чтобы предсказать рост или падение количества заказов на маркетплейсах. Это помогает точно рассчитать, когда и насколько нужно усилить команду доставки: например, перед 14 февраля, 8 Марта, в дни распродаж «Черная пятница».
В исследовательских проектах
- Цель — создать новые методы и модели или улучшить текущие. Результат работы — это новый подход, который затем может стать популярным и его будут использовать в бизнес-проектах.
- По времени исследовательские проекты могут длиться долго, потому что состоят из многих этапов. Невозможно определить, сколько займет каждый этап с точностью до дней или недель.
- В исследовательских проектах может не хватать данных для обучения и тестирования моделей.
- Исследователи ориентируются на то, насколько хорошо будет решена научная проблема, насколько решение будет устойчивым и как его можно применять в разных областях.
Пример исследовательской задачи в Data Science: определить, какие слои в нейросети в наименьшей степени влияют на предсказание, чтобы убрать их. Сделать модель проще и быстрее, не потеряв важных свойств, которые влияют на результат.
Одни исследовательские команды решают фундаментальные вопросы. Как правило, результат их работы — научная публикация, которую впоследствии либо они будут дорабатывать, либо научное сообщество подхватит и будет развивать метод.
Другие исследователи, как команда «Криптонита», занимаются прикладными исследованиями. Мы хотим на выходе получить рабочую модель, которая будет устойчивой, быстрой и сможет показывать хорошие результаты на специфических данных.
Необходимые навыки для исследователя в Data Science
В любой хорошей научной статье будет много математики, поэтому глубокие теоретические знания в этой области — самое важное.
Нужен высокий уровень английского языка, потому что все качественные статьи публикуются на английском. В них бывает достаточно сложная лексика, иногда даже относительно понятные вещи интерпретируют по-разному. Нужно выработать навык читать научные статьи на английском и понимать их.
Также важен навык работы с гипотезами: выдвигать, проверять, делать дизайн исследования, чтобы получить статистически значимые результаты.
Как построить карьерный трек в науке о данных
Построить научную карьеру как Data Scientist можно в коммерческой организации или в научном институте.
Найти стажировку или работу в фундаментальной науке можно через университет, в котором вы учитесь. Скорее всего, на факультете много преподавателей, которые связаны с исследовательской работой. Нужно вырабатывать с ними связи, заявлять о себе, чтобы вас могли порекомендовать или рассказать о возможностях трудоустройства.
Работу в коммерческой организации можно найти на том же hh.ru. Добавьте в ваш поиск ключевые слова RND, «изучение научных статей», «отслеживание новых методов». Сейчас многие компании занимаются прикладными исследованиями и у них есть RnD-отдел, куда можно для начала попасть на стажировку.
Важна ли для трудоустройства научная степень?
При найме в «Криптонит» мы, конечно, смотрим, где человек учился. Нам важна хорошая математическая база. Быть выпускником мехмата при этом необязательно, хорошо выучить математику можно на факультетах химии или физики.
Требования к наличию кандидатской степени мы не выдвигаем. Это выбор самого соискателя: хочет ли он после магистратуры идти в аспирантуру и двигаться дальше. Как правило, кандидатская требует много времени и сил, поэтому придется урезать рабочее время или переходить на полставки.
Но если вы хотите вкладываться в фундаментальную науку, то это возможно. В нашей компании поощряют сотрудников, которые хотят получить или уже получили степень, но для развития на работе это необязательно.
Нужен ли исследователю в Data Science опыт на бизнес-проектах?
В целом это необязательно. На самом деле переключаться между бизнес-проектами и исследованиями несложно. Если вы хотите перейти из бизнеса в науку, нужно понять: сможете ли вы тратить много времени на изучение научных статей на английском, выдвигать гипотезы и проверять их, быть готовыми к тому, что большинство экспериментов окажутся неудачными. Если есть желание переключиться с исследований на бизнес, нужно научиться работать в сжатые сроки и быстро искать рабочее решение.
Советы исследователям в Data Science
Выясните, действительно ли вам интересны исследования. В каждой профессии есть своя романтика, и она должна вдохновлять на работу. В исследованиях нужно сидеть часами и монотонно что-то изучать. В науке нужно уметь переживать неудачи, потому что не каждая гипотеза сработает. Можно просидеть над моделью несколько месяцев и не получить желаемого результата. С другой стороны, когда ваше изобретение работает, это невероятная радость: ваши труд и старания оправдали себя. Готовы к такому? Тогда науки о данных — для вас.
Развивайте критическое мышление и оригинальность. Исследование — это всегда про поиск новых путей, иногда далеко не очевидных. Полезными могут оказаться даже безумные идеи. Нужно уметь задавать себе правильные вопросы и самостоятельно искать ответы.
Не пренебрегайте софт скилами. Есть стереотип, что исследователи и в принципе айтишники — достаточно интровертные люди. Но умение общаться с коллегами в компании, людьми из индустрии и с заказчиком — это важно, в том числе для карьерного роста. Со временем вы можете вырасти в тимлида или менеджера продукта, если хорошо покажете себя в командной работе.
Полезные ресурсы для дата-сайентистов в науке
Анна Холькина рекомендует полезные материалы и делится ссылками.
- arxiv.org и Google Scholar — здесь ищем и читаем статьи.
- YouTube-канал Deep Learning School — рекомендуем младшим коллегам для углубленного изучения DL.
- Сиолошная — канал про Data Science.
- Gonzo-обзоры ML-статей — обзоры интересных статей на тему ML / DL / AI.
- Machine learning Interview — канал с разбором вопросов с собеседований в ML / DS / DL.
- Yandex for ML — интересные посты на тему ML и DL, анонсы мероприятий и конференций, проводимых Яндексом.
- Хабр / ML & AI — публикации из RSS-фидов тематических хабов «Машинное обучение» и «Искусственный интеллект» портала Хабр.
- Эйай ньюз и Эйай фор сайенс — новости из мира AI и статьи.
- Natural Language Processing — чат русскоязычного NLP-комьюнити.
- Распознавание и синтез речи — чат для исследователей в аудио.
- Machine learning chat — чат про машинное обучение.