Data_Science_superpower

Почему в способности объяснения модели состоит будущее Data Science

За последние десять лет я опросил многих специалистов по Data Science, и техники объяснения моделей — моя любимая тема, позволяющая выделить хороших ученых.

Некоторые люди считают, что модели машинного обучения — это черные ящики, необходимые для создания предсказаний, но в остальном непонятные. Однако хороший специалист по Data Science знает, как извлечь реальные идеи из любой модели. Для любой модели они могут ответить на следующие вопросы:

  • Какие функции данных, по мнению модели, наиболее важны?
  • Как повлияла каждая функция данных на конкретное предсказание?
  • Какие взаимодействия между объектами оказывают наибольшее влияние на предсказания модели?

Ответы на эти вопросы полезнее, чем многие думают. Техники объяснения моделей полностью изменят привычный процесс построения, проверки и развертывания модели машинного обучения.

Почему эти идеи важны?

Пять способов применения идей модели:

  • Debugging
  • Informing feature engineering
  • Directing future data collection
  • Informing human decision-making
  • Building Trust

Debugging

В мире много недостоверных, неорганизованных и в целом путанных данных. При написании препроцессорного кода вы добавляете потенциальный источник ошибок. Однако иметь ошибки в реальной практике в Data Science — норма.

Беря во внимание частоту и потенциально катастрофические последствия ошибок, отладка является одним из самых ценных навыков в науке о данных. Четкое понимание находимых моделью шаблонов поможет определить, когда они противоречат вашим знаниям о реальном мире. Как правило, это первый шаг в отслеживании ошибок.

Informing Feature Engineering

Feature Engineering — это наиболее эффективный способ повышения достоверности модели. Feature Engineering обычно включает в себя многократное создание новых объектов с использованием преобразований исходных данных или ранее созданных функций.

Иногда для прохождения этого процесса достаточно лишь интуиции. Однако при наличии множества необработанных функций или отсутствии базовых знаний о предмете, над которым вы работаете, вам понадобится больше указаний.

Яркий пример — соревнование Kaggle по предсказанию непогашений кредитов. Соревнование обладает сотней необработанных функций. По соображениям конфиденциальности функции названы f1, f2 и f3. В итоге сценарий содержит малое количество интуитивно понятной информации о необработанных данных.

Один из участников обнаружил, что разница между двумя функциями, а именно f527—f528, создает новую мощную функцию. Модели, включающие эту разницу в качестве функции, превосходили модели без нее. Но как можно думать о создании этой переменной, когда все начинается с сотен переменных?

Функции f527 и f528 имеют важное значение и тесно переплетены. При рассмотрении преобразования этих двух переменных становится возможным найти «золотую функцию» f527—f528.

Этот подход приобретает все большее значение по мере того, как растет количество наборов данных  сотнями и тысячами необработанных функций.

Directing Future Data Collection

Невозможно контролировать данные, загруженные из сети. Однако многие предприятия и организации, использующие data science, обладают возможностью расширения типов данных для сбора. Сбор новых типов данных может оказаться дорогим или неудобным, поэтому это делается в случае известной целесообразности. Основанные на модели идеи помогут разобраться в значении имеющихся функций, а также в том, какие новые значения могут оказаться более полезными.

Informing Human Decision-Making

Некоторые решения модели принимают автоматически. В Amazon нет людей (или эльфов), решающих, что показать пользователю при входе на сайт. Однако многие важные решения принимают люди. Для таких решений идеи могут иметь большее значение, чем предсказания.

Читайте в блоге: Как переквалифицироваться из программиста в Data Engineer? Что учить и где?

Building Trust

Многие люди считают, что не стоит доверять принятие важных решений модели без проверки основных фактов. Это разумная предосторожность, учитывая частоту ошибок данных. Однако на практике демонстрация идей, соответствующих их общему пониманию проблемы, поможет построить доверие, даже среди людей с небольшим знанием и пониманием науки о данных.

перевод: Наталья Астафьева

текст: Why Model Explainability is The Next Data Science Superpower

Поделиться: