Байесовский классификатор

Байесовский классификатор — это один из способов решить задачу классификации объектов с помощью формулы Байеса из теории вероятностей. Например, нужно классифицировать несколько разных овощей: присвоить им значения «огурец» или «помидор». Вероятностные классификаторы делают это с помощью признаков: зеленый объект скорее всего окажется огурцом, а красный — помидором.

На самом деле способов байесовской классификации в математике много: чем больше используется разных признаков объектов, тем сложнее задача. В машинном обучении в основном используют только один способ — Наивный байесовский классификатор. В нем допускается, что каждый признак объекта влияет на определение его класса независимо от других: факт «зелености» огурца никак не влияет на факт его «продолговатости».

Формула Байеса

Формула Байеса помогает рассчитать вероятность наступления события А в случае наступления события B, связанного с А. Для этого нужно знать отдельные вероятности наступления событий P(A) и P(B), а также вероятность наступления события B при условии, что наступило событие А — P(B I A).

В байесовской классификации А — это класс объекта (например, огурец), а B — его признак (например, зеленый цвет).

У объектов есть много признаков, при этом они могут быть связанными между собой. Например, и продолговатый, и зеленый объект окажется огурцом с большей вероятностью. Это сильно усложняет применение формулы Байеса. Но можно сделать нереалистичное допущение, что признаки независимы — такой байесовский классификатор называют наивным или простым. Это упрощает задачу.Несмотря на то, что наши предположения о взаимосвязи признаков неверны , такой классификатор показывает достаточно высокую точность.

Формулу Байеса с допущениями и множеством признаков записывают так:

C = arg max P(Ck) ∏ P(Oi I Ck)

Такую запись называют максимальной апостериорной гипотезой. Формула ищет максимально похожий класс объекта С среди всех классов Сk, для которых посчитаны условные вероятности признаков Oi.

В машинном обучении

Байесовский классификатор позволяет обработать большой объем данных и найти среди них нужные объекты. Например, в поисковых алгоритмах он ищет ближайшие к пользователю рестораны на карте по территориальному признаку. Для этого классификатор нужно натренировать: рассчитать вероятности P(Ck) и P(Oi I Ck) для каждого признака и класса.

Курс

Data Science

Освойте востребованную профессию за 13 месяцев. На курсе вы получите необходимый набор компетенций для уровня Junior.

  • Python и SQL;
  • Machine Learning и Deep Learning;
  • Data Engineering.

Узнать больше

Промокод “BLOG” +5% скидки

(рейтинг: 0, голосов: 0)
Добавить комментарий