Я была филологом, а стала дата-сайентистом

И теперь пишу диссертацию по компьютерным наукам

28 февраля 2024

Скопировано

Я была филологом, а стала дата-сайентистом

Содержание

Оксана Дереза закончила филологический факультет, но уже в магистратуре стала изучать компьютерную лингвистику, потому что заинтересовалась Data Science. Она рассказала, как за год переквалифицировалась в дата-сайентиста и почему для нее собственные исследования важнее денег.

Что я делала раньше

Я закончила филологический факультет МГУ и до того, как прийти в Data Science, преподавала английский и ирландский, а также делала письменные переводы с английского, датского, французского и ирландского на русский.

Когда я заканчивала пятый курс, то удаленно подрабатывала аналитиком веб-данных в Лаборатории Касперского, занималась анализом датского контента, поэтому всё, что от меня требовалось, — это знание языка. Благодаря этой работе я поняла, что мне интересны технологии и хотелось бы не просто собирать и размечать данные, а решать более интересные задачи.

Дата-сайентисты решают поистине амбициозные задачи. Научитесь создавать искусственный интеллект, обучать нейронные сети, менять мир и при этом хорошо зарабатывать. Программа рассчитана на новичков и плавно введет вас в Data Science.

Data Scientist

При этом я не хотела полностью уходить от первой специальности, мне было бы интересно работать с текстовыми данными. Поэтому я поступила в магистратуру по компьютерной лингвистике в НИУ ВШЭ. На тот момент, судя по отзывам и карьерному пути выпускников, это была лучшая магистратура по этому направлению в России. Параллельно с учебой я проходила курсы по программированию, машинному обучению и NLP (Natural Language Processing — обработка естественного языка) на Coursera и edX.

Магистерская программа включала в себя все необходимое — от линейной алгебры до машинного перевода. Что касается онлайн-курсов, какие-то из них советовали однокурсники, а какие-то я выбирала, ориентируясь на то, кто их читает: для меня в приоритете были известные ученые и дата-сайентисты вроде Кристофера Мэннинга и Эндрю Ына. Еще мы с однокурсниками часто ходили на открытые лекции и семинары в Яндекс, Mail.ru и т.п. — о таких событиях, как правило, нам рассказывали преподаватели или мы узнавали о них из тематических рассылок и групп в соцсетях.

Когда я училась в магистратуре (2015–2017), русскоязычных ресурсов было мало, поэтому большинство материалов были на английском. Сейчас дело обстоит гораздо лучше: переведено уже много книг издательства O’Reilly, появляются книги по машинному обучению и Data Science российских авторов (например, «Глубокое обучение. Погружение в мир нейронных сетей» С. Николенко, А. Кадурина и Е. Архангельской). Так что в целом сейчас английский уже не является барьером для изучения Data Science; единственная серьезная проблема, с которой придется столкнуться без знания английского, — это чтение документации библиотек (набор готовых функций, объектов и подпрограмм). Но если вы хотите заниматься исследованиями и быть в курсе последних достижений в области, то английский знать все же желательно, так как абсолютное большинство научных статей, туториалов, курсов, постов в тематических блогах изначально пишутся на английском. Так что если хочется узнать о чем-то новом побыстрее (а скорость в этой области очень важна), то язык знать желательно.

Самой главной сложностью лично для меня было вспомнить математику и разобраться в алгоритмах. Решала я эти проблемы банально — много занималась. Еще мы с однокурсниками всегда помогали друг другу, вместе разбирались в непонятных темах. Я бы сказала, что ключевыми факторами успеха в моем случае были целеустремленность и командная работа.

Поскольку я уже работала в IT-компании, когда начала изучать Data Science, мне постепенно стали давать новые задачи, связанные с программированием и анализом данных. Через год учебы бОльшую часть моих задач на работе в Лаборатории Касперского составляли задачи компьютерного лингвиста и дата-сайентиста, а не веб-аналитика.

Почему я выбрала исследования

Моя зарплата в Лаборатории Касперского тогда выросла примерно в два раза, но надо сказать, что и работать я начала больше. Впрочем, в какой-то момент мне стало скучновато и захотелось вернуться в академическую среду, поэтому я уволилась и начала преподавать в НИУ ВШЭ программирование и NLP, параллельно занимаясь собственными исследованиями, а через два года уехала в Ирландию писать диссертацию. Последние два события на зарплате сказались отрицательно, но я рассматриваю это как инвестицию в будущее.

построение тематической модели документа для НИУ ВШЭ — Так я объясняла студентам НИУ ВШЭ, что такое построение тематической модели документа. Источник

Я не пожалела, потому что теперь могу совмещать в своей работе и исследованиях две совершенно разные области и у меня гораздо больше выбор дальнейших путей развития карьеры. Ну и, в конце концов, дата-сайентист зарабатывает во много раз больше преподавателя языка или переводчика, хотя это не было частью моей мотивации для перехода.

исследование по кластеризации средневековых текстов — Часть моего исследования по кластеризации средневековых текстов на основе символьных N-грамм для поиска влияния редакторов текстов на датировки

Я ехала в Ирландию писать диссертацию, но все происходило совершенно как при приеме на работу: никаких мотивационных писем и Research Proposal (документ, предлагающий исследовательский проект), только резюме и техническое собеседование. Оно не показалось мне сложным, потому что я подавалась в проект, для которого мои исследовательские интересы и экспертиза подходили идеально, поэтому с решением задач у меня проблем не возникло.

Что я делаю сейчас

Моя диссертация посвящена диахроническим (связанным с историческим развитием языка) моделям эмбеддингов. Эмбеддинги — это распределенные векторные представления слов. Проще говоря, это представления категориальной переменной (как правило, слова) в виде низкоразмерного вектора дробных чисел, который отражает употребление этого слова в контексте. Для обучения эмбеддингов нужно много данных, а текстов на древних языках не так много, при этом у них ненормированная орфография и сложная грамматика. Моя гипотеза состоит в том, что данные более позднего состояния языка помогут лучше смоделировать его более ранние стадии (идея transfer learning). Помимо написания диссертации, я занята в двух проектах в исследовательском институте Insight Centre for Data Analytics в лаборатории Unit for Linguistic Data.

Совет

Я бы сказала, что сейчас работодатели смотрят не на дипломы и сертификаты, а на то, что ты умеешь. Поэтому главный совет — собирайте портфолио на GitHub, участвуйте в соревнованиях на Kaggle и в хакатонах от IT-компаний. Еще полезно ходить на мероприятия, посвященные Data Science, которые эти компании организуют, — например, AI Journey. Помимо того что на таких мероприятиях можно послушать ведущих российских и зарубежных дата-сайентистов и даже с ними познакомиться, там часто бывают рекрутеры компании-организатора.

Для тех, кто планирует искать работу за рубежом, могу сказать, что рынок стремительно растет во всем мире, хороших специалистов не хватает, поэтому найти работу дата-сайентистом за рубежом вполне реально — знаю немало примеров. Мои знакомые из России работают, например, в Google, Amazon, Apple и Microsoft. Но их уровень — мидл и выше, тут ждут людей с опытом.