Я была филологом, а стала дата-сайентистом

И теперь пишу диссертацию по компьютерным наукам

Оксана Дереза закончила филологический факультет, но уже в магистратуре стала изучать компьютерную лингвистику, потому что заинтересовалась Data Science. Она рассказала, как за год переквалифицировалась в дата-сайентиста и почему для нее собственные исследования важнее денег.

Оксана Дереза,
29 лет


Образование: филология; магистратура: компьютерная лингвистика.

SkillFactory: ментор на курсе «Реальный Data Science».

Предыдущая профессия: преподавательница в НИУ ВШЭ.

Новая профессия: исследовательница в Insight Centre for Data Analytics.

Что я делала раньше

Я закончила филологический факультет МГУ и до того, как прийти в Data Science, преподавала английский и ирландский, а также делала письменные переводы с английского, датского, французского и ирландского на русский.

Когда я заканчивала пятый курс, то удаленно подрабатывала аналитиком веб-данных в Лаборатории Касперского, занималась анализом датского контента, поэтому всё, что от меня требовалось, — это знание языка. Благодаря этой работе я поняла, что мне интересны технологии и хотелось бы не просто собирать и размечать данные, а решать более интересные задачи.

При этом я не хотела полностью уходить от первой специальности, мне было бы интересно работать с текстовыми данными. Поэтому я поступила в магистратуру по компьютерной лингвистике в НИУ ВШЭ. На тот момент, судя по отзывам и карьерному пути выпускников, это была лучшая магистратура по этому направлению в России. Параллельно с учебой я проходила курсы по программированию, машинному обучению и NLP (Natural Language Processing — обработка естественного языка) на Coursera и edX.

Магистерская программа включала в себя все необходимое — от линейной алгебры до машинного перевода. Что касается онлайн-курсов, какие-то из них советовали однокурсники, а какие-то я выбирала, ориентируясь на то, кто их читает: для меня в приоритете были известные ученые и дата-сайентисты вроде Кристофера Мэннинга и Эндрю Ына. Еще мы с однокурсниками часто ходили на открытые лекции и семинары в Яндекс, Mail.ru и т.п. — о таких событиях, как правило, нам рассказывали преподаватели или мы узнавали о них из тематических рассылок и групп в соцсетях.

Когда я училась в магистратуре (2015–2017), русскоязычных ресурсов было мало, поэтому большинство материалов были на английском. Сейчас дело обстоит гораздо лучше: переведено уже много книг издательства O’Reilly, появляются книги по машинному обучению и Data Science российских авторов (например, «Глубокое обучение. Погружение в мир нейронных сетей» С. Николенко, А. Кадурина и Е. Архангельской). Так что в целом сейчас английский уже не является барьером для изучения Data Science; единственная серьезная проблема, с которой придется столкнуться без знания английского, — это чтение документации библиотек (набор готовых функций, объектов и подпрограмм). Но если вы хотите заниматься исследованиями и быть в курсе последних достижений в области, то английский знать все же желательно, так как абсолютное большинство научных статей, туториалов, курсов, постов в тематических блогах изначально пишутся на английском. Так что если хочется узнать о чем-то новом побыстрее (а скорость в этой области очень важна), то язык знать желательно.

Самой главной сложностью лично для меня было вспомнить математику и разобраться в алгоритмах. Решала я эти проблемы банально — много занималась. Еще мы с однокурсниками всегда помогали друг другу, вместе разбирались в непонятных темах. Я бы сказала, что ключевыми факторами успеха в моем случае были целеустремленность и командная работа.

Поскольку я уже работала в IT-компании, когда начала изучать Data Science, мне постепенно стали давать новые задачи, связанные с программированием и анализом данных. Через год учебы бОльшую часть моих задач на работе в Лаборатории Касперского составляли задачи компьютерного лингвиста и дата-сайентиста, а не веб-аналитика.

Почему я выбрала исследования

Моя зарплата в Лаборатории Касперского тогда выросла примерно в два раза, но надо сказать, что и работать я начала больше. Впрочем, в какой-то момент мне стало скучновато и захотелось вернуться в академическую среду, поэтому я уволилась и начала преподавать в НИУ ВШЭ программирование и NLP, параллельно занимаясь собственными исследованиями, а через два года уехала в Ирландию писать диссертацию. Последние два события на зарплате сказались отрицательно, но я рассматриваю это как инвестицию в будущее.

построение тематической модели документа для НИУ ВШЭ
Так я объясняла студентам НИУ ВШЭ, что такое построение тематической модели документа. Источник

Я не пожалела, потому что теперь могу совмещать в своей работе и исследованиях две совершенно разные области и у меня гораздо больше выбор дальнейших путей развития карьеры. Ну и, в конце концов, дата-сайентист зарабатывает во много раз больше преподавателя языка или переводчика, хотя это не было частью моей мотивации для перехода.

исследование по кластеризации средневековых текстов
Часть моего исследования по кластеризации средневековых текстов на основе символьных N-грамм для поиска влияния редакторов текстов на датировки

Я ехала в Ирландию писать диссертацию, но все происходило совершенно как при приеме на работу: никаких мотивационных писем и Research Proposal (документ, предлагающий исследовательский проект), только резюме и техническое собеседование. Оно не показалось мне сложным, потому что я подавалась в проект, для которого мои исследовательские интересы и экспертиза подходили идеально, поэтому с решением задач у меня проблем не возникло.

Что я делаю сейчас

Моя диссертация посвящена диахроническим (связанным с историческим развитием языка) моделям эмбеддингов. Эмбеддинги — это распределенные векторные представления слов. Проще говоря, это представления категориальной переменной (как правило, слова) в виде низкоразмерного вектора дробных чисел, который отражает употребление этого слова в контексте. Для обучения эмбеддингов нужно много данных, а текстов на древних языках не так много, при этом у них ненормированная орфография и сложная грамматика. Моя гипотеза состоит в том, что данные более позднего состояния языка помогут лучше смоделировать его более ранние стадии (идея transfer learning). Помимо написания диссертации, я занята в двух проектах в исследовательском институте Insight Centre for Data Analytics в лаборатории Unit for Linguistic Data.

Научно-исследовательский институт
Научно-исследовательский институт, в котором я теперь работаю

Совет

Я бы сказала, что сейчас работодатели смотрят не на дипломы и сертификаты, а на то, что ты умеешь. Поэтому главный совет — собирайте портфолио на GitHub, участвуйте в соревнованиях на Kaggle и в хакатонах от IT-компаний. Еще полезно ходить на мероприятия, посвященные Data Science, которые эти компании организуют, — например, AI Journey. Помимо того что на таких мероприятиях можно послушать ведущих российских и зарубежных дата-сайентистов и даже с ними познакомиться, там часто бывают рекрутеры компании-организатора.

Для тех, кто планирует искать работу за рубежом, могу сказать, что рынок стремительно растет во всем мире, хороших специалистов не хватает, поэтому найти работу дата-сайентистом за рубежом вполне реально — знаю немало примеров. Мои знакомые из России работают, например, в Google, Amazon, Apple и Microsoft. Но их уровень — мидл и выше, тут ждут людей с опытом.

Профессия Data Scientist

Освойте самую востребованную профессию 2021 года

Блог SkillFactory
Добавить комментарий