Что такое машинное обучение: виды и основные принципы ML

Разбираемся в матчасти популярной технологии

6 августа 2025

Скопировано

Что такое машинное обучение: виды и основные принципы ML

Содержание

Автор Skillfactory, любит технологии и рассказывать о них.

Гид по машинному обучению — что это такое, как работает, каким бывает, какой язык программирования и математику нужно учить, чтобы стать ML-специалитом.

Что такое машинное обучение?

Машинное обучение, или ML — раздел искусственного интеллекта, который ориентирован на обучение алгоритмов и дальнейшее прогнозирование. Модель учится на основании данных, заранее загруженных в систему. При этом для технологии не пишут «строгий» код, нужный для выполнения определенных задач. Обучение происходит автоматически, без явных инструкций со стороны человека. То есть роль человека в работе с моделью с машинным обучением скорее корректирующая: настроить параметры обучения, выбрать алгоритмы, просмотреть итоговый ответ от модели.

Для развития и обучения алгоритма используют данные из самых разных отраслей. К примеру:

результаты МРТ;
звуки;
транзакции и покупки;
изображения;
тексты;
погодные сводки.

В процессе обучения технология анализирует эти данные, выявляет в них определенные закономерности. А после анализа и изучения подобных закономерностей алгоритм выдает прогнозы или даже предлагает решения.

Машинное обучение ≠ Искусственный интеллект

Иногда машинное обучение называют искусственным интеллектом, но это не совсем верно. Для удобства мы собрали различия между этими терминами.

Критерий

Машинное обучение

Искусственный интеллект

Масштабность

Область искусственного интеллекта

Общая концепция, которая охватывает все аспекты имитации человеческого разума

Цель

Найти закономерности в данных и смоделировать их

Стремится решить задачи на уровне человеческих способностей

Применение

ML решает конкретные задачи

AI охватывает более широкий спектр

Что включает в себя

Модели, способные находить закономерности автоматически

Модели для прогнозирования и принятия решений

Машинное обучение

Эволюционное моделирование

Мультиагентное моделирование

Как начинается процесс обучения по технологии ML?

Шаг 1. Процесс обучения модели с машинным обучением начинается со сбора данных. Обычно это датасеты с информацией, необходимые для обучения алгоритма.

Затем следует шаг 2 — предобработка данных. Здесь проводят очистка от шума и ошибок, приводят данных к общему виду.

На шаге 3 выбирают модель или алгоритм, который лучше всего подходит для решения конкретной задачи. Разработчики могут использовать уже имеющуюся модель или создать полностью новую.

Шаг 4 – обучение модели на тренировочных данных. В процессе этого этапа алгоритм «учится» выявлять закономерности и делать прогнозы.

После обучения происходит оценка модели на тестовых данных. Эти данные не используются при обучении, с ними работают на финальной стадии для проверки точности и эффективности модели. Если результаты оценки удовлетворительные, модель внедряется в систему и начинает решать реальные задачи.

В зависимости от типа алгоритма машинного обучения процесс обучения может проходить под контролем человека (обучение с учителем), без его участия (обучение без учителя) или с использованием наград и штрафов (обучение с подкреплением).

Обучение с учителем (Supervised Learning)

Метод машинного обучения, где алгоритм обучается на основе предварительно размеченных данных. При этом разметку данных почти всегда делают люди. В систему загружают информацию по принципу «входные данные — ответ», показывая верный вариант. Задача системы — научиться предсказывать ответ от новых входных данных. Обучение с учителем используют для моделей с машинным обучением, которые определяют спам, распознают текст и предлагают цены.

Обучение без учителя (Unsupervised Learning)

В модель с машинным обучением загружают данные без каких-либо ответов. Задача алгоритма — найти в массивах информации некоторые закономерности или структуры. Затем модель, обученную без учителя, отправляют решать подобные бизнес-задачи:

провести кластеризацию, например разделить клиентов на группы по их покупательскому поведению;
снизить размерность: упростить данные, удалив менее важные признаки;
найти аномалии.

Обучение с подкреплением (Reinforcement Learning)

Это метод машинного обучения, в основе которого — принцип взаимодействия алгоритма с окружающей средой. Алгоритм исследует окружение, совершая различные действия. За каждое действие он получает обратную связь в виде награды или штрафа. Эта система наград и штрафов служит подкреплением и помогает технологии определить, какие действия приводят к лучшему результату. Главная цель алгоритма с подкреплением — максимизировать суммарную награду.

Модель с подкрепленным обучением можно встретить в области робототехники, игровых систем, автоматизации управления и процессов.

Какой язык используют для машинного обучения?

Существует несколько языков программирования для машинного обучения. Лидер использования — Python. Во многом это объясняется наличием обширного списка библиотек, например:

1) PyTorch — открытая и едва ли не самая популярная библиотека машинного обучения с открытым исходным кодом. С ней работают:

для отработки компьютерного зрения;
обработки естественного языка;
анализа данных.

2) Scikit-learn — базовая библиотека для классического машинного обучения. Используется:

для классификации;
регрессии;
кластеризации;
предобработки данных.

3) TensorFlow — фреймворк для глубокого обучения. Применяется:

для создания нейронных сетей;
обучения моделей компьютерного зрения;
обработки естественного языка;
разработки рекомендательных систем.

4) Pandas — библиотека с быстрыми, гибкими структурами данных, которая нужна для работы с «относительными» или «маркированными» данными. Она используется в машинном обучении:

загрузка и экспорт данных;
обработка и очистка данных от дублей;
анализ данных;
визуализация данных и манипуляция ими.

Кроме Python, разработчики могут использовать для машинного обучения еще ряд языков. Среди них:

R. Этот язык используется в статистике и машинном обучении. Он содержит пакеты для анализа данных и визуализации;
Java. Программисты выбирают его для больших систем, и в нем тоже есть библиотеки для машинного обучения;
C++. Иногда работают с этим языком из-за его высокой производительности.

Насколько важна математика при изучении машинного обучения?

Математика — важный элемент в работе с машинным обучением. С ней специалист понимает, как работают алгоритмы и разрабатываемые модели. Особое значение в понимании ML играют математический анализ, линейная алгебра, вероятность и статистика, оптимизация — они используются для формулировки и решения задач машинного обучения.

Но это не значит, что человек без математического образования не сможет работать в сфере машинного обучения. Для успешной карьеры важна не только математика, но и критическое и стратегическое мышление, желание и умение программировать.

И да, сегодня ряд библиотек уже забирают у программиста рутинные обязанности по математическим подсчетам.

Перспективы машинного обучения — технология глубокого обучения

Глубокое обучение (Deep Learning) — это подраздел машинного обучения, основанный на искусственных нейронных сетях с большим количеством слоев. При создании искусственных нейронных сетей разработчики вдохновлялись человеческим мозгом и его нейронами. Каждый нейрон получает входные данные, обрабатывает их и передает результат на следующий уровень.

Устройство сетей глубокого обучения во многом похоже на человеческий мозг.

В них также есть:

нейроны (искусственные единицы обработки);
связи между нейронами;
многоуровневая обработка сигнала.

Причем глубокое обучение может использоваться для решения задач обучения с учителем, обучения без учителя и обучения с подкреплением. Этот метод позволяет обрабатывать очень сложные данные, такие как изображения, звуки и тексты.

Известные нейронные сети глубокого обучения

Название

Предназначение

Где уже применили

Искусственные нейронные сети (ANN)

Имитирует работу человеческого мозга для обработки и анализа данных

Tesla использует ANN для работы своих систем автопилотирования в электромобилях

Сверточные нейронные сети (CNN)

Используют в области компьютерного зрения для распознавания изображений и видео

Amazon внедрил CNN в свои складские роботы для идентификации товаров

Рекуррентные нейронные сети (RNN)

Эти сети подходят для обработки последовательных данных: текст, речь или временные ряды

Google использует RNN в своих сервисах Google Translate и Smart Reply в Gmail для понимания и генерации текста

Автоэнкодеры

Используются для изучения данных, а также для снижения размерности и обнаружения аномалий

NVIDIA применяет технологию для сжатия видеоматериалов

Генеративно-состязательные сети (GANs)

Это пара сетей, которые «состязаются» друг с другом для создания реалистичных, но синтетических данных, например изображений

Midjourney базируется на GAN-технологиях для создания фотореалистичных изображений

Машинное обучение — главное

Машинное обучение (ML) — это подраздел искусственного интеллекта, где модели учатся на данных, находят закономерности и делают прогнозы без жесткого программирования.
Основные типы ML: обучение с учителем (по размеченным данным), без учителя (поиск структуры в данных) и с подкреплением (обучение через награды и штрафы).
Процесс обучения включает сбор и очистку данных, выбор модели, ее обучение и проверку на тестовых данных перед внедрением.
Python — основной язык ML благодаря библиотекам вроде TensorFlow, PyTorch, Scikit-learn и Pandas; математика важна, но не обязательна для старта.
Глубокое обучение (на основе нейросетей) — перспективное направление ML, используемое в автопилотах, распознавании изображений, переводе и генерации контента (например, в Midjourney и Google).

Научитесь эффективно работать с Java, Python или Go на онлайн-магистратуре МИФИ. Учитесь у экспертов МИФИ и проктиков из Huawei, Delivery Club, ВКонтакте и выходите на новый уровень в профессии и карьере

Онлайн-магистратура с МИФИ по разработке программного обеспечения