Кто такой специалист по машинному обучению?

kto-takoj-ml-speczialist-1
От классификации картинок до диагностирования болезней — рассказываем, чем занимается ML-специалист

Проекты машинного обучения пронизывают практически все сферы нашей жизни. Учить ботов отвечать как человек или предугадывать музыкальные предпочтения — это  увлекательно, но не так просто. Вместе с Викторией Тюфяковой, ментором на курсе по Data Science, разбираемся, с какой базой можно идти в машинное обучение и какие языки популярны в сфере, кроме Python.

Чем занимается ML-специалист?

Специалист по машинному обучению (ML-специалист) с помощью алгоритмов строит модели, которые способны обучаться самостоятельно на различных наборах данных, от табличных данных до картинок и текстов. Он выявляет сложные закономерности в массивах данных, чтобы модель точнее прогнозировала результат, а также помогает автоматизировать процессы принятия решений для трудных задач на практике. Машинное обучение — это подраздел искусственного интеллекта (artificial intelligence), в который входят также глубокое обучение (deep learning), нейронные сети.

Главное отличие ML-специалиста от дата-сайентиста в том, что первый вдобавок ко всему имеет более сильные навыки разработки и может вывести модель в продакшн, например встроить в существующий продукт или упаковать в новый.

Где он нужен?

Так как деятельность ML-специалиста направлена на облегчение принятия решений, то его ищут и для повседневных задач бизнеса, и для научных проектов во многих отраслях.

  • Транспорт. С помощью моделей можно тренировать беспилотные машины, определять препятствия, пробки на дороге, строить оптимальные маршруты или рекомендовать удобные места посадки.
  • Ритейл. Можно планировать поставки, персонифицировать рекламу и скидочные предложения или оценивать эффективность промоакций.
  • Здравоохранение. На основе результатов анализов можно диагностировать патологии, ставить более точные диагнозы, выбирать оптимальный путь лечения.
  • Финансы. Методы машинного обучения помогают банкам быстрее принимать решения о выдаче кредитов, прогнозировать изменения объемов вкладов, а обработка естественного языка позволяет настраивать чат-боты и виртуальных ассистентов.
  • Промышленность. Можно прогнозировать, когда оборудование выйдет из строя, или находить брак.
  • Развлечения. Благодаря алгоритмам в игровой сфере можно создавать более реальные аватары, предсказывать следующий шаг, чтобы выиграть или проиграть, а также создавать 3D-модели для VR-очков. Ленты фильмов в онлайн-кинотеатрах и новостей в соцсетях подстраиваются под наши предпочтения тоже благодаря машинному обучению.

Машинное обучение используют как известные мировые бизнесы, вроде Amazon, Google, Netflix, Apple, так и крупные российские компании и банки: Билайн, Тинькофф, «Спортмастер», «Лента», а также небольшие стартапы.

Что ему нужно знать?

В машинное обучение достаточно трудно приходить с нуля — уже на старте нужны серьезные математические навыки. Для разработки алгоритмов нужно разбираться в линейной алгебре, математическом анализе, статистике, теории вероятностей. ML-специалисты пользуются линейной, логистической регрессиями, деревьями решений, Байесовским классификатором, бустингами — это далеко не полный список алгоритмов, которые популярны в машинном обучении. Они требуют хорошей математической подготовки для оптимального использования в зависимости от структуры или размеров данных.

Облако компетенций ML-специалиста по данным отчета за 2020 год. Источник

Изучите также: Какая математика нужна дата-сайентистам?

Так как ML-специалист постоянно работает с данными, ему нужно знать SQL, уметь писать запросы к базам данных и работать с хранилищами данных.

Чаще всего ML-специалисты используют Python (или R) и библиотеки: Pandas, NumPy, Sklearn, Keras. Для рекомендательных систем и нейронных сетей подходит фреймворк TensorFlow, а для обработки естественного языка специалисты пользуются PyTorch.

Scala — эффективный в промышленных масштабах язык программирования, но в вакансиях он встречается реже. Он быстрее Python и R, что выгодно выделяет его при работе с обширными базами данных. Также ML-специалисты часто пользуются фреймворком Apache Spark, который позволяет работать с неструктурированными или слабоструктурированными наборами данных.

Нередко среди навыков можно встретить и языки C или C++. Дело в том, что они быстрее обрабатывают большие объемы данных, чем Python, а для задач машинного обучения скорость обучения бывает очень важна. Также на них можно развертывать модели с MATLAB — это пакет программ, который используют для ML в научной среде.

В сфере большой спрос на навыки MLOps — это стандартизация и оптимизация управления жизненным циклом модели машинного обучения. Это помогает снизить риски при работе с машинным обучением и автоматизировать процессы.

Помимо технических навыков, в вакансиях также упоминают знание английского языка. Он нужен для чтения технических документаций и научной литературы, так как многие актуальные труды по теме не переводят на русский язык. К тому же это позволит выйти на международный рынок.

Курс

Машинное обучение и нейросети

Комплект продвинутых курсов для освоения машинного и глубокого обучения от классических моделей до нейронных сетей. Дополнительная скидка 5% по промокоду BLOG.

Узнать больше

Виды машинного обучения

В машинном обучении не обязательно получать идеальный безошибочный результат. Модель скорее должна максимально соответствовать метрикам, которые устанавливает бизнес вместе с постановкой задачи.

Для разных задач используются разные виды машинного обучения: с учителем, без учителя, обучение с подкреплением.

Обучение с учителем

У модели есть данные о прошлом взаимодействии с системой. Она понимает, как должны выглядеть правильные ответы. Такой вид обучения используют чаще всего. Обучение с учителем решает две основные задачи:

– классификации. Модель должна определить категорию анализируемых объектов. Например, можно отделять картинки с котами от картинок с собаками или выявлять мошеннические действия клиента банка.

– регрессии. В таких задачах на основе временного ряда можно в краткосрочной или даже долгосрочной перспективе прогнозировать значения, например, курса доллара.

Обучение без учителя

Модели не подаются правильные ответы, поэтому она сама выстраивает взаимосвязи между данными и интерпретирует их. Самые популярные задачи:

– понижение размерности. Это позволяет выделить значимую информацию из данных через меньшее количество признаков. Так можно уменьшить размер данных, если их слишком много, чтобы при хранении они занимали меньше места, например уменьшить размер картинок.

кластеризация. При кластеризации группируются похожие данные, чтобы находить между членами группы закономерности. Это позволяет отыскивать инсайды, чтобы, например, применять таргетированную рекламу. Чаще всего ее используют в рекомендательных системах, которые предлагают купить клиенту тематический товар.

Обучение с подкреплением

Наиболее близкий к искусственному интеллекту вид машинного обучения. Алгоритм, руководствуясь заданным набором действий и правил, взаимодействует со средой. Методом проб и ошибок он выстраивает самый оптимальный порядок своих действий. Такие задачи популярны в навигации: алгоритм движется по помещению и строит траекторию, чтобы не врезаться в препятствие.

Перспективы и зарплаты ML-специалистов

Машинное обучение с каждым годом все глубже проникает во все сферы человеческой деятельности, мы пользуемся им ежедневно, например когда ищем информацию в поисковиках. Как отмечает Надежда Зуева, сооснователь Deep Learning School на базе МФТИ, все больше сервисов используют технологии машинного обучения, что влечет за собой увеличение рабочих мест.

Активнее всего машинное обучение внедряют в информационных технологиях, финансовом, транспортном секторах и маркетинге. Существенно увеличивается рынок чат-ботов, которые используют в клиентской поддержке, на что, конечно, сильно повлияла пандемия.

По прогнозам Gartner, в 2022 году пятью основными категориями в сфере будут менеджмент знаний, виртуальные помощники, беспилотные транспортные средства, цифровые рабочие места и краудсорсинговые данные. Источник

По данным компании Gartner, в 2022 году мировой доход в сфере увеличится на 21,3%. 48% руководителей IT-организаций уже внедряют технологии машинного обучения или планируют сделать это в течение 2022 года.

На hh.ru на декабрь 2021 года было около 1600 вакансий по запросу ML. При этом самая низкая зарплата среди этих вакансий — 40 тыс. рублей для джуниора. Однако в среднем зарплаты колеблются от 150 до 250 тыс. рублей. Синьорам с опытом работы от трех лет в сфере платят от 400 тыс. рублей.

Однако количество специалистов практически не увеличивается, в сфере заметен дефицит квалифицированных сотрудников.

Источник

Как новичку получить работу?

Новичку можно рассчитывать на работу, если у него уже есть практический опыт. В Data Science легко наработать этот опыт, просто решая кейсы. Можно самостоятельно собирать данные, участвовать в соревнованиях по машинному обучению, например на Kaggle, в хакатонах, где участникам дают данные, с помощью которых они решают реальные проблемы бизнеса.

Читайте также: Что такое Kaggle и зачем он дата-сайентисту?

Такую задачу можно оформить в кейс и выложить на своем GitHub. Таким образом можно собрать портфолио, чтобы представить свои навыки на собеседовании. Чем подробнее кейс, тем больше вероятность, что вас возьмут на работу, потому что будет видно, что вы постарались углубиться в тему.

Джуниору, который знает базовые принципы, но еще не получил практического опыта, могут давать задачи на тестирование гипотез, выгрузку данных. Он не сильно влияет на конечный продукт. Для позиции миддла нужно работать в сфере около двух лет. Он может разрабатывать модели, которые влияют на принятие решений в компании. Синьор со стажем помимо разработки моделей может их и внедрять. Часто кроме технических задач у него появляются и менеджерские обязанности по руководству командой.

С чего начать?

Книги

Если вы только заинтересовались машинным обучением, можно начать с книг, чтобы понять, насколько вам легко разбираться в базовых понятиях:

«Введение в машинное обучение с помощью Python» Андреаса Мюллера,

«Прикладное машинное обучение с помощью Scikit-Learn, Keras и TensorFlow» Орельена Жерона.

Обширная библиотека с английскими и русскими книгами по машинному обучению и искусственному интеллекту также есть в telegram-канале «Машинное обучение».

YouTube

Канал TensorFlow с пояснительными роликами о машинном обучении и записями конференций.

Канал Jon Krohn, в котором особое внимание уделяется и математике.

Пятичасовой ролик о машинном обучении на Python с нуля.

Открытый курс по машинному обучению от ШАД.

Обучаться самостоятельно

Если вы уже владеете базовыми математическими навыками и готовы самостоятельно изучать языки и библиотеки, можно ориентироваться на готовые roadmap, чтобы структурировать и не забыть всю информацию, которую нужно знать.

Более лаконичная дорожная карта с библиотеками и фреймворками

Коллекция на GitHub со списком необходимых навыков, курсов, компетенций.

Сообщества

Чтобы оставаться в курсе актуальных новостей, конкурсов, технологий, обратиться за помощью или найти работу, нужно обновлять комьюнити. Одни из самых больших и популярных — ods.ai и Kaggle, не только для дата-сайентистов или аналитиков, но вообще для всех специалистов в области Data Science, в том числе и ML.

Курсы

Можно начать с бесплатных, всегда выручает Coursera: короткие ознакомительные программы предлагают как российские вузы (НИУ ВШЭ, МФТИ), банки, так и множество зарубежных компаний и институтов от Amazon до Стэнфорда.

Можно также пройти курс по машинному и глубокому обучению. Его преимущество — в практике и наставниках, которые помогут разобраться в любых нюансах. Для такой сложной специализации, как машинное обучение, поддержка опытных профессионалов как никогда важна, особенно если вы только открываете для себя профессию.

Курс

Machine Learning и Deep Learning

Отработка практических навыков программирования глубоких нейронных сетей. Используйте силу машинного обучения для решения задач бизнеса

  • помощь наставника на протяжении обучения;
  • фокус на практическом применении;
  • 21 модуль.

Узнать больше

Курсы по теме

(рейтинг: 5, голосов: 5)
Добавить комментарий