mathematic_ds

Чем машинное обучение отличается от статистики? (Спойлер: да, это разные вещи)

Историческая справка

Одной из составляющих науки о данных является машинное обучение (МО) — молодая отрасль Data Science, основные понятия которой были сформулированы во второй половине 20 века. Цель МО — спрогнозировать результат по входным данным и частично или полностью автоматизировать решение сложной задачи в различных сферах деятельности человека. Его суть — выявлять некие закономерности в массивах данных, чтобы затем применять их к новым объектам.

Итак, машинное обучение — группа методов искусственного интеллекта, которые отличаются не прямым решением задач, а обучением в процессе обработки решений новых, но схожих задач.

Начало статистической практики относят ещё к временам до нашей эры, а рождение термина «статистика» — к 18 веку. Статистика (С) — наука, которая занимается общими вопросами сбора, измерения и анализа данных. Она берёт свои корни в инженерном деле, тогда как МО развивалось программистами. Методы машинного обучения с самого начала сильно зависели от вычислительной мощности компьютеров. Статистика же наоборот, в силу исторических особенностей, опиралась на вычислительные способности человека, поэтому в ней использовались маленькие выборки и большие допущения в отношении данных и их распространения.

DS
Специализация Data Science
Идет набор в группу 150 000 ₽

Типы машинного обучения

Существует два типа обучения: индуктивное (по прецедентам) и дедуктивное. Некоторые методы индуктивного обучения были разработаны в качестве альтернативы классическим статистическим подходам. Индуктивное обучение основано на выявлении эмпирических закономерностей, дедуктивное — на формализации знаний экспертов и их использовании в качестве базы знаний. Первый тип характеризуется большим количеством данных и отсутствием или ненадобностью прошлого опыта. Второй тип обучения отличается малым массивом данных или выбором в пользу малых наборов данных, а также глубокими знаниями изучаемого вопроса. МО применяет оба этих метода, чередуя их в своем анализе. Статистика же ограничивается в своих подходах, оставаясь крайне консервативной.

Курс по Machine Learning
Идет набор в группу 44900 ₽

Инструменты и применение МО

Для создания методов МО использует математическую статистику, методы оптимизации, численные методы, теорию вероятностей, графов и др.

Машинное обучение используется в биржевом анализе, распознавании речи и жестов, обнаружении мошенничества и спама, медицинской диагностике, системе кредитного скоринга и т. д. Например, банки используют кредитный скоринг (систему оценки заёмщика), основанный на статистических методах. Баллы выставляются по результатам заполненной анкеты, разработанной оценщиками кредитных рисков, а система, в свою очередь, принимает решение: одобрить кредит или отказать в нём.

Таким образом, основная задача МО — изучить и создать системы, способные выводить закономерности из данных. В нашем случае закономерность — погасит заёмщик кредит или не погасит — строится на основе полученных и проанализированных данных: возраст, стаж работы, уровень дохода, имеющиеся кредиты и др.    

Итоги

В обсуждаемых нами двух дисциплинах есть общие элементы, инструменты и даже объект, но у них разные корни и свои особенности и цели. Обе анализируют данные, но МО «учится» на всех типах данных, тогда как С анализирует и классифицирует данные. Статистика консервативна в подходах и отдаёт предпочтение традиционным методам анализа, в отличие от МО, открытого для новых подходов. Также МО нередко прибегает к эвристическим методам в поисках лучшего решения, что абсолютно не свойственно традиционной статистике, остающейся при решении задач в заданных рамках. МО поощряет изобилие информации: чем больше входных данных, тем точнее будет результат. Статистика же, напротив, поддерживает анализ меньших объёмов данных.

Статистики осторожно относятся к машинному обучению и порой не признают его методы, ссылаясь на свободу МО в выборе подходов в изучении данных. Однако машинное обучение приобретает все большую популярность, находясь на стыке нескольких дисциплин и решая сложные задачи в условиях непрекращающегося роста количества данных.

Интерес к машинному обучению и желание применять его методы на практике можно утолить здесь:

Курс по математике для Data Science за 8 недель даст необходимую базу по математике и статистике, чтобы вы могли освоить машинное обучение.

Практический курс по машинному обучению с менторской поддержкой научит решать бизнес-задачи методами машинного обучения. С его помощью вы сможете начать карьеру Data Scientist или углубить свои знания в области Data Science. Стартуем 30 апреля!

текст: Любицкая Дарья

Поделиться:
Опубликовано в рубрике Наука о данных (Data Science)Tagged ,

SkillFactory.Рассылка