Баннер мобильный (3) Пройти тест

Data Science vs Machine Learning: в чем разница?

Разбираем на примерах распознавания котиков и покупки телефона

Разбор

23 июля 2024

Поделиться

Скопировано
Data Science vs Machine Learning: в чем разница?

Содержание

    Data Science — это большая и серьезная область, которая решает задачи от подбора фильма на вечер до предсказания рака на ранней стадии. Вместе с развитием этой сферы растет количество направлений и профессий в ней. Так как человек не алгоритм, в таком количестве данных можно запутаться. 

    Например, Data Science и Machine Learning часто используют как синонимы, хотя это не совсем так. Они тесно связаны между собой, но работают с данными по-разному. Разбираемся, как, на примерах.

    Мем о том, как устроена сфера Data Science
    NLP — не то, чем кажется… Источник

    Что такое Data Science

    Data Science — это наука о том, как извлекать знания из данных, делать большие объемы информации полезными. Она состоит из множества разных методов и подходов, таких как анализ данных, машинное обучение, статистика, data mining. 

    Дата-сайентисты работают с разными данными: структурированными таблицами, текстовыми документами, изображениями и звуковыми файлами. Задача специалистов — выявлять закономерности, тренды и взаимосвязи, которые можно использовать для принятия решений, создания прогнозов или улучшения бизнес-процессов.

    Разберем на примере интернет-магазина. Ежедневно покупатели совершают на сайте множество действий: выбирают товары, покупают их, добавляют в избранное, кладут в корзину и не оплачивают. Все эти действия — ценные данные, которые можно обработать и проанализировать. Затем — выявить закономерности, внести изменения в работу сайта или выдачу товаров и повысить прибыль магазина. 

    Процесс работы над проектами в области Data Science обычно состоит из нескольких этапов:

    • сбор данных;
    • очистка и подготовка; 
    • исследовательский анализ; 
    • построение моделей, их обучение;
    • оценка эффективности моделей;
    • презентация результатов. 

    Этап построения и обучения моделей — это часть Data Science, которая относится к Machine Learning.

    Что такое Machine Learning

    Machine Learning — это один из методов Data Science, который позволяет компьютерам учиться на основе данных. Machine Learning использует алгоритмы и математические модели, чтобы анализировать данные и выявлять в них закономерности. Алгоритмы запоминают, как это делается, и обучаются работать с любым набором похожих данных. Этот процесс позволяет системе улучшать свою производительность с опытом и адаптироваться к изменяющимся условиям. 

    Вернемся к примеру с интернет-магазином. Здесь обученная модель может анализировать действия пользователя на сайте и предсказывать, какие товары ему могут быть интересны и с большей вероятностью отправятся в корзину. На основе этих данных можно создавать персональные рекомендации на сайте или автоматизировать рассылку подборок на почту пользователя. 

    Как алгоритмы учатся выполнять такие задачи? Существует три основных типа машинного обучения:

    Обучение с учителем (Supervised Learning). В наборе данных каждая запись имеет метку, соответствующую ее классу. Алгоритм машинного обучения должен научиться связывать характеристики данных с этими метками, чтобы классифицировать новые данные. Например, задача — научить компьютер узнавать котиков на фотографиях. Нужно показать алгоритму много фотографий с котиками и без и пояснить: «Вот это — котик, а это — нет». Затем показать компьютеру новые фотографии и спросить: «Это котик или нет?» В итоге компьютер научится сам определять, котик на фотографии или другой объект.

    Обучение без учителя (Unsupervised Learning). Этот тип обучения используется, когда меток для данных нет. Алгоритм должен самостоятельно обнаружить структуру или закономерности в данных. В этом случае есть много фотографий, но ML-специалист не знает, котики на них или нет. Он просто отдает компьютеру все данные фотографий и ставит задачу: «Найди котиков». В результате компьютер находит области на фотографиях, где, скорее всего, есть котики, и сообщает об этом.

    Обучение с подкреплением (Reinforcement Learning). Этот тип обучения похож на обучение с учителем, но вместо того чтобы получать метки для каждого примера, алгоритм получает награду или штраф за свои действия. По факту обучения разным данным присваивают позитивные значения и негативные. Это позволяет ему учиться на своих ошибках и стремиться к лучшим результатам.

    Мем о распознании изображений
    Хорошо обученные алгоритмы могут отличить кота от собаки, а собаку корги — от коробки с посылкой. Но это не тот случай. Источник

    Алгоритмы машинного обучения варьируются от простых, таких как линейная регрессия, до сложных, таких как нейронные сети. Простейшая линейная регрессия поможет, например, выбрать подержанный телефон по самой оптимальной цене. Алгоритм может посмотреть цены в нескольких объявлениях, вывести средний ценник, учесть важные параметры (например, осталась ли гарантия на телефон) и сделать вывод — подходящий телефон будет стоить X–Y тысяч рублей. Нейронные сети способны решать более сложные задачи, такие как обработка изображений и естественного языка, генерация картинок и текста. 

    Чем отличаются Data Science и Machine Learning

    Основное различие между Data Science и Machine Learning — в целях и задачах. Data Science стремится извлечь полезные знания из данных и предоставить инсайты для принятия решений. Data Science охватывает использование статистических методов, визуализации данных, исследование паттернов. Machine Learning фокусируется на создании моделей, способных автоматически делать прогнозы на основе данных.

    Разберем на примере. Пользователь хочет купить телефон на сайте. Если он заходит на сайт впервые, сначала он просматривает все телефоны случайным образом. Затем он использует фильтры, чтобы сузить свои предпочтения, — например, бренд, объем аккумулятора, разрешение камеры. Из полученных результатов выбирает 4–5 телефонов и сравнивает их. После того, как пользователь выберет модель телефона, под товаром он увидит рекомендацию — похожий телефон по более низкой цене или с большим количеством функций, сопутствующие аксессуары для выбранного вами телефона и так далее. Как веб-сайт рекомендует их, если о человеке мало что известно?

    Все благодаря данным миллионов других людей, которые выбирали тот же телефон, а также искали/покупали аксессуары. Ранее накопленный массив данных помогает системе автоматически рекомендовать вам то же самое. Весь процесс сбора данных от пользователей — очистка, фильтрация необходимых данных для оценки, поиск схожих тенденций — это Data Science. 

    На основе собранных данных и выявленных тенденций машина понимает, что это аксессуары, которые другие пользователи обычно покупают вместе с конкретным телефоном. Следовательно, он строит предположения, основываясь на том, чему он «научился» раньше. Это Machine Learning.

    Итог

    Возможно, различия будут более понятны, если представить их упорядоченно — в виде таблицы.

    Характеристика
    Data Science
    Machine Learning
    Определение
    Междисциплинарная область, изучающая данные и их использование для принятия решений
    Подраздел Data Science, занимающийся разработкой и использованием алгоритмов машинного обучения
    Цель
    Извлечение полезной информации из данных, принятие решений на основе данных
    Разработка алгоритмов, которые могут учиться на данных
    Задачи
    Сбор, подготовка и анализ данных, построение моделей, визуализация данных, принятие решений на основе данных
    Прогнозирование, классификация, рекомендации, контроль, обнаружение аномалий
    Инструменты
    Статистические методы, инструменты анализа данных, инструменты визуализации данных
    Алгоритмы машинного обучения, инструменты разработки программного обеспечения

    Несмотря на то что сферы DS и ML отличаются, необходимые навыки для специалистов во многом пересекаются.

    Навыки в целом похожи. В общем случае для Machine Learning нужно больше математической подготовки и знания алгоритмов, чем в абстрактном Data Science. Data Science сейчас слишком общая область, и туда входит слишком много всего, чтобы говорить про конкретные навыки; лучше ориентироваться на требования в вакансиях. Вопрос софт скиллов сильно зависит от грейда: чем выше грейд, тем выше требования к софтам.

    Леонид Саночкин,
    NLP Lead в MTS AI

    Подробнее узнать о навыках, которые нужны специалистам в этих профессиях, можно в статье «Data Scientist и Data Engineer: в чем разница?».

    Разбор

    Поделиться

    Скопировано
    0 комментариев
    Комментарии