Почему вас должна волновать Твиттер-война между Нейтом Сильвером и Нассимом Талебом

Как два эксперта по данным могут настолько не совпадать во мнениях

Необычное противостояние разгорелось в прошлом месяце. Два эксперта количественного анализа схлестнулись на величайшей публичной арене — в Твиттере. Не страшно, если вы не следили за этой дискуссией — я сделаю краткий обзор для непосвящённых. Код и все данные, которые были использованы в этой статье, можно найти в проекте MatrixDS.

Нейт Сильвер — соучредитель FiveThirtyEight. Этот популярный блог про данные стал известен благодаря точному прогнозированию результатов выборов в США в 2008 году. Сильвер генерирует прогнозы, используя хитроумную технику агрегирования опросов, которая учитывает необъективность таких методов, как, например, обзвон людей только по домашним телефонам.

DS
Специализация Data Science
Идет набор в группу 12 500₽ в месяц

Будучи опытным статистиком, Сильвер направил свою страсть к саберметрике (использование статистики для анализа игроков — прим. пер.) и покерной аналитике на арену политики. Кстати, имя FiveThirtyEight является отсылкой к числу избирателей США (всего их 538). Блог также охватывает другие области, такие как спорт. Нейт продал свой блог компании ESPN и занял должность главного редактора. С тех пор как владельцем FiveThirtyEight стала ABC News, ESPN использовали блог в качестве платформы, которая снабжает аудиторию прогнозами результатов спортивных событий. На сайте регулярно публикуют различные политические и спортивные статьи с подробными прогнозами и визуализацией данных.

Сильвер (слева) во время разговора с Пэтом Кирнаном

Мастерское прогнозирование Нейта стало приниматься как канон в популярных СМИ. Сильвер — постоянный гость многих национальных тв-шоу, куда он приходит обсудить свои прогнозы во время выборов. И когда Нассим Талеб, автор нескольких книг-бестселлеров и эксперт по количественным рискам, публично объявил, что FiveThirtyEight не знает, как правильно прогнозировать выборы, это стало настоящим шоком.

Чрезвычайный успех Талебу принесло проницательное понимание вероятности в реальном мире. Его книги — философские и с множеством технических подробностей, с упором на неопределенность и риск. В частности, он считает, что подавляющее большинство количественных моделей, используемых на практике, недостаточно учитывают реальный риск. Вместо этого они создают иллюзию краткосрочной ценности (например, точность в некоторых хорошо понимаемых ситуациях) и подвергают плохо осведомлённых пользователей огромному риску, когда те используют модели в ситуациях, под которые модели не заточены.

Нассим Талеб

Талеб приобрел известность, потому что он открыто воплощает свою философию в жизнь, не скрывая своего богатства. Малкольм Гладуэлл написал в New Yorker статью о том, как Талеб превратил свою философию риска в невероятно успешную инвестиционную стратегию. Он заработал значительные суммы во время таких непредсказуемых рыночных событий, как Чёрный понедельник, дефолт в России и финансовый кризис 2008 года. Сейчас Талеб тратит много времени на писательство и занятия становой тягой (я даже немного завидую). Он не стесняется публично заявлять, что с чем-то (или с кем-то) не согласен. И Нейт Сильвер — как раз тот случай.

Твиты Талеба Сильверу, ноябрь 2018
Ну а Сильвер не собирается мириться с обвинениями

Сильвер и Талеб, с 3 миллионами и 300 тысячами подписчиков соответственно, начиная с 2016 года создают огромный ажиотаж в соцсетях. Однако, бегло прочитав комментарии в треде, вы поймёте, что мало кто понимает их спор. Даже сам Сильвер, кажется, застигнут врасплох нападками Талеба.

Однако, я считаю, что это прекрасная возможность для специалиста в области данных (или для начинающего профессионала) глубже вникнуть в то, что происходит. Решите для себя, имеет ли Талеб реальную точку зрения, или это просто ещё один сумасшедший богатей, у которого слишком много свободного времени.

Курс по Machine Learning
Идет набор в группу 3 800₽ в месяц

Не все действительные числа от 0 до 1 являются вероятностями

Основным источником противоречий и путаницы вокруг прогнозов FiveThirtyEight является то, что они «вероятностные». Это означает, что они не предсказывают победителя или проигравшего, а сообщают о вероятности того или иного исхода. Ещё более усложняет ситуацию тот факт, что эти прогнозы представляются в виде точечных оценок (иногда с подразумеваемой погрешностью модели) задолго до наступления события. Например, вот их прогноз президентских выборов 2016 года за шесть месяцев до открытия избирательных участков:

Прогноз президентских выборов 2016 года от FiveThirtyEight

Процесс прогнозирования заключается в создании количественной копии системы с экспертными знаниями (выборы, спортивные соревнования и т. д.) и использовании метода Монте-Карло. Если модель подробно описывает реальный мир, средние значения моделирования могут с высокой степенью точности использоваться для вероятностных утверждений. Итак, что на самом деле говорит FiveThirtyEight:

x% времени наш метод Монте-Карло привел к этому результату

Проблема в том, что модели не являются точной копией реального мира и, на самом деле, всегда так или иначе ошибаются. Этот способ построения модели допускает некоторую субъективность. Например, Сильвер неоднократно заявлял, что другие конкурентные модели неправильно учитывают корреляцию. При описании подходов к моделированию он также дает понять, что они настраивают результаты (например, искусственно увеличивая дисперсию на основе времени до события или что-то подобное). Это создает бесконечный рекурсивный спор о том, чья модель лучше или больше похожа на реальный мир. Чтобы разобраться в этом, вы можете посмотреть, кто лучше проявил себя в долгосрочной перспективе. И вот тут всё становится странным.

Поскольку FiveThirtyEight только предсказывают вероятности, они никогда не занимают абсолютную позицию в отношении результата: «не рискуют собственной шкурой», как сказал бы Талеб. Однако, читатели не всегда следуют этому примеру. В глазах общественности FiveThirtyEight оценивается по тому, сколько событий с прогнозируемыми вероятностями выше и ниже 50% произошло или не произошло соответственно (в двоичной системе). Или читатели просто выбирают наибольшую сообщенную вероятность в качестве предполагаемого прогноза. Например, их осыпали почестями, после того, как было «правильно выбрано 49 из 50 штатов в президентской гонке 2008 года» Нейт Сильвер попал в список 100 самых влиятельных людей по версии Times. Но ему не следовало принимать это звание, если он не назвал победителя даже в одном из штатов!

Общественность можно простить за использование правила 50%. Например, в контролируемом машинном обучении классификационная модель должна иметь характеристику, называемую «границей принятия решения». Это часто решается априори и является фундаментальной частью понимания качества модели после её обучения. Выше этой границы машина верит в одно, а ниже — в противоположное (в двоичном случае).

Пример границы принятия решения в задаче классификации

Для стандартных моделей, таких как логистическая регрессия, граница решения по умолчанию принимается равной 50% (или 0,5 по шкале от 0 до 1) или альтернативе с самым высоким значением. Классические нейронные сети, предназначенные для классификации, часто используют softmax-функции, которые интерпретируются именно таким образом. Вот пример свёрточной нейронной сети, выполняющей классификацию изображений с помощью машинного зрения. Даже эта базовая модель искусственного интеллекта может принимать решения.

Если у FiveThirtyEight нет заявленной границы принятия решения, трудно понять, насколько хороша их модель на самом деле. Все усугубляется, когда их предсказания принимают на веру, словно результат выдал хрустальный шар, показывающий будущее. Однако, когда их обвиняют в том, что они ошиблись, они говорят лишь одно: «Вы просто не понимаете математику и теорию вероятности».

Часто это сопровождается разоблачением, будто они сообщили только о x%, а это означает, что (1 – x)% тоже может произойти. Это идеальный сценарий: они никогда не ошибаются! Нам всем должно повезти. Конечно, этот вероятностный аргумент может быть справедливым, но может и вызвать некоторое беспокойство, если он кажется недостоверным. Даже Washington Post высказал мнение, которое высказывалось также во время выборов 2016 года.

Что непонятно, так это то, что существует фактор, скрытый от читателя FiveThirtyEight. Предсказания имеют два типа неопределённости: алеаторная и эпистемологическая. Алеаторная неопределённость связана с фундаментальной системой (вероятность выпадения шестерки на стандартном кубике). Эпистемологическая неопределенность связана с неопределённостью системы (сколько сторон у кубика? И какова вероятность выбросить шестерку?). Вы должны угадать результат. Похоже на выборы.

Заказные модели, такие как FiveThirtyEight, сообщают пользователям только алеаторную неопределённость, поскольку это касается их статистических результатов (в данном случае — метод Монте-Карло). Проблема в том, что эпистемологическую неопределённость очень трудно (а иногда и невозможно) оценить. Например, почему модель FiveThirtyEight не учитывала шанс, что Коми снова откроет расследование об электронной почте Клинтон? В итоге это вызвало массовый всплеск вариаций — потому что это событие было невозможно спрогнозировать.

Вместо этого эпистемологически неопределённые события априори игнорируются, и тогда FiveThirtyEight предполагает, что сильные колебания в прогнозе непредвиденных событий являются нормальной частью прогнозирования. Что наводит на мысль: если модель игнорирует некоторые из наиболее важных неопределённостей, действительно ли мы получаем достоверную вероятность?

Чтобы понять это, я объединил некоторые из прогнозов FiveThirtyEight, используя их данные с открытым исходным кодом, для двух очень разных событий — выборы в Сенат США и игры в Национальной футбольной лиге (НФЛ). Вот сравнение с вероятностью окончательного прогноза и фактической долей результатов.

Расчётные вероятности в сравнении со средними долями

Спортивные данные (NFL) имеют отличную линейную зависимость. Эти пропорции построены с использованием 30 000 точек данных. Поэтому если предположить, что система стабильна, мы усреднили любую ошибку выборки. Однако, как вы можете видеть, все еще существует заметное изменение 2–5% от фактической доли к прогнозам. Это сигнал, предупреждающий о нераскрытой эпистемологической неопределенности. Это также означает, что вы не можете принять одну из этих вероятностей прогноза как есть.

Спорт, как и другие азартные игры, имеет чётко определенные механизмы, которые поддаются статистическому анализу. Крайне нелинейные события, такие как состязательные выборы, могут их не иметь. С гораздо меньшим количеством точек данных вы можете увидеть, что вариации прогнозов Сената огромны. Измерение производительности моделей на этих типах событий становится вдвойне трудным. Не ясно, является ли предсказание неправильным из-за качества модели (эпистемология) или просто случайно (алеаторика).

Одна из самых проблематичных вещей в этом подходе к прогнозированию заключается в том, что он открывает ящик Пандоры для повествовательных ошибок. Почему Клинтон проиграла? Из-за Коми? Из-за почтовых серверов? Люди могут обосновать возможные ложные выводы, наблюдая за событиями, происходящими вокруг изменения прогноза. «Просто посмотрите, как меняется прогноз после всех этих новостей!»

Думаю, именно это и злит Талеба. Блог больше похож на скользкое рекламное предложение, дополненное количественными модными словечками, чем на объективный анализ. Хотя может это и правильно. Если прогноз не подчиняется некоторым фундаментальным характеристикам, он не должен продаваться как вероятность. Что еще более важно, прогноз должен оцениваться с момента, когда его показали общественности, а не с момента за мгновение до события. Прогнозист должен нести ответственность как за алеаторную, так и за эпистемологическую неопределенность.

С этой точки зрения ясно, что FiveThirtyEight транслирует много шумихи, предшествующей событию, и мало связности. Это позволяет подтолкнуть пользователей к чтению длинных тематических статей. Но этого недостаточно, чтобы хорошо разбираться в теме. Талеб и Сильвер представляют работу FiveThirtyEight так:

Взгляды Талеба (синие линии) и Сильвера (красные точки) на то, по каким данным должны оцениваться прогнозы FiveThirtyEight

Поскольку существует столько неопределенности в отношении нелинейных событий, таких как выборы, можно с полным основанием считать несерьёзным предоставление прогнозов на ранней стадии. Единственная причина делать это — завоевать (и монетизировать?) интерес публики, которая жаждет знать будущее. Я не буду вдаваться в технические рассуждения, Талеб уже написал и опубликовал статью по этому поводу.

Мы можем с уверенностью сказать, что прогнозы FiveThirtyEight не всегда являются надёжными. Тем не менее, чтобы казаться достоверными, они находятся между 0 и 1. Это основной аргумент Талеба: предсказания FiveThirtyEight не ведут себя как вероятности, которые включают всю неопределённость, и не должны выдаваться за них.

Я не хочу утверждать, что FiveThirtyEight плохи в своей области. Они, вероятно, лучший агрегатор опросов. Если мы посмотрим на последний сообщенный вероятностный прогноз и используем границу принятия решения обществом, они будут более успешны, чем любой другой источник, пытающийся выполнить ту же задачу. Тем не менее, позиционирование себя как на 100% верного источника прогнозов независимо от конечного результата и игнорирование эпистемологической неопределённости не следует упускать из виду. Репутация FiveThirtyEight очень напоминает репутацию большей части сообщества данных.

Будьте ясны в своих границах принятия решений, вероятностных утверждениях, предположениях о неопределенности, и вы будете менее склонны вводить в заблуждение заинтересованных лиц.

Оригинал: Why you should care about the Nate Silver vs. Nassim Taleb Twitter war

Перевод: Астафьева Наталья

Поделиться:
Опубликовано в рубрике Наука о данных (Data Science), Переводные материалыTagged

SkillFactory.Рассылка