Практика Data Science: самые серьезные ошибки при А/Б-тестировании

Технология А/Б-тестирования давно помогает интернет-маркетологам, разработчикам сервисов и приложений развивать свои продукты. Идея проста: предложите двум группам пользователей две версии интерфейса, услуги и т.п., оцените результаты, откажитесь от менее удачного варианта.

partfolio_ds
Специализация Аналитик Данных
Идет набор в группу 6 900₽ в месяц

Хотя никто не сомневается в работоспособности и эффективности такой системы, многие аналитики допускают ошибки при оценке полученных результатов. Результаты могут быть разными — какие-то исследования обходятся дороже, чем могли бы, какие-то вовсе оказываются бесполезными. В этой статье мы пройдемся по самым серьезным ошибкам, которые влияют на А/Б-исследования.

Это путешествие в Data Science будут особенно полезны людям вне мира статистики, например, аналитикам данных или бизнес-аналитикам.

Ошибка №1. Неверные метрики

Как известно, половина ответа содержится в правильно заданном вопросе. В случае А/Б-тестов успешное исследование наполовину зависит от правильно выбранной метрики.

Очень часто получается так, что компания изучает не те данные, которые ей нужны, а те, что есть в наличии. Причиной тому может быть и ошибка аналитика, и ограничения используемой системы. Нельзя сказать, что такое исследование будет бесполезным, но и в том, что оно ответит на поставленный вопрос, тоже уверенности нет.

Например, многие интернет-магазины ставят во главу угла конверсию посетителей в покупателей. На первый взгляд, это логично — чем больше пришедших к нам клиентов покупают товар, тем больше выручка. Но, как нередко забывают бизнес-аналитики, на прибыль влияет еще и средняя сумма заказа. Если направлять все усилия на конверсию, толпы покупателей с небольшими покупками отрицательно влияют на этот показатель, что в итоге — весьма контринтуитивно — вредит компании.

Как исправить ошибку?

Необходимо учитывать все факторы и проводить параллельные А/Б-тесты по каждому из них. Это может быть дольше и дороже, но такие усилия рано или поздно окупаются. Хотя бы одним тем, что в процессе вы можете отказаться от излишних метрик.

Курс «BI: автоматизируй аналитику»
Идет набор в группу 4 200₽ в месяц

Ошибка №2. Двусторонние исследования

Если вы не учились статистике, вполне возможно, что вы впервые слышите про разделение тестов на двусторонние и односторонние (two-tail — one-tail). Эту проблему не назовешь слишком распространенной, однако если компания попадает в эту ловушку, она может годами использовать неверные данные, даже не догадываясь об этом.

Итак, в чем различие между двусторонними и односторонними критериями? Значения первых может меняться в обе стороны от контрольной отметки, т.е. показатель может и расти, и увеличиваться. Вторые же меняются только в одном направлении.

Как нетрудно понять, А/Б-тестирование должно быть односторонним. Когда Data Scientist сравнивает между собой два интерфейса, ему интересно, какой из них привлекает больше посетителей. То есть интересующий вас параметр должен расти только в одном направлении.

Проблема неправильного формата в данном случае грозит некорректными результатами, поскольку двустороннее исследование по природе своей сильно завышает величину неопределенности (как правило, вдвое). Одно также требует значительно большей выборки (на 20-60% больше, чем односторонний тест) и, следовательно, занимает больше времени.

Как исправить ошибку?

Прежде всего вам нужно удостовериться, какой тип исследований используется в вашей аналитической системе. Большинство решений Data Science построено с расчетом на односторонние тесты. Если ваш случай оказался редким исключением, уточните у разработчиков, можно ли изменить настройки.

При невозможности это сделать вам придется вручную корректировать исходную величину неопределенности. Например, если заявленный уровень доверительной вероятности составляет 90%, реальный показатель будет 95%:

90%+(100%-90%)/2=90%+5%=95%

Курс «Python для анализа данных»
Идет набор в группу 2 700₽ в месяц

Ошибка №3. Чрезмерный объем выборки для A/B/n-тестов

Здесь законы статистики вновь вступают в конфликт с интуицией, что ложится лишним грузом на бюджет исследователей. A/B/n-исследования — это тесты с более чем двумя вариантами (считая тестовую группу). Как бы вы оценили число пользователей, которое необходимо для такой работы? Казалось бы, логично, что каждый дополнительный вариант кратно увеличивает аудиторию. Если для A/B-теста нужно X пользователей, то A/B/C потребует 2X, A/B/C/D — 3X и т.д.

Формат этой статьи не позволяет нам привести полное доказательство, поэтому вам придется поверить нам на слово — это ошибочное мнение. Дело в том, что простое умножение выводит из задачи взаимосвязь между парами A/B, A/C, A/D и т.д. В результате если Data Scientist сравнивает между собой четыре варианта и тестовую группу, его аудитория оказывается больше необходимой на 23%. Это на 23% больше денег и времени, на протяжении которого ⅘ пользователей получают неэффективную версию продукта.

Как исправить ошибку?

Работайте со специализированными решениями для A/B/n-тестов, которые учитывают дополнительные факторы при расчете аудитории. Статистики, бизнес-аналитики и специалисты по Data Science могут применять для этих целей методы Даннетта (Dunnett’s test) и Хольм-Бонферрони (Holm-Bonferroni method).

Ошибка №4. Чрезмерная вера в полученные результаты

Казалось бы, сегодня ни один продукт и сервис не выходит на рынок без многочисленных тестов и проверок, которые помогают отловить десятки и сотни ошибок. Однако почему-то многие компании даже не пытаются проверять данные, которые им дает А/Б-исследование, а сразу принимают эту информацию к действию.

А что, если в программе, которую вы используете, есть фундаментальные ошибки? Что, если она неправильно формирует выборки или промахивается при отслеживании метрик? Что, если полученная статистическая модель вовсе не отвечает критериям, которые вы полагаете самоочевидными?

Цена таким решениям может равняться стоимости всего бизнеса, причем бизнес-аналитики до последнего будут держаться за свои выводы — ведь они получили их по результатам исследования! Подкрепленные тестами данные могут перевесить даже самые очевидные выводы — даже если динамика продаж после обновления сайта будет упорно ползти вниз, менеджеры никогда не поверят, что в их исследовании была ошибка.

Такая проблема встречается гораздо чаще, чем можно подумать — ошибки кода и некомпетентность разработчиков влияют на эффективность многих существующих на рынке продуктов. В других случаях программа работает, как должна, а вот бизнес-аналитики забывают сделать необходимые статистические поправки.

Как исправить ошибку?

Перед тем, как запустить А/Б-тестирование, тщательно проверяйте качество своего продукта. Банальная задержка при загрузке страницы может невероятно повлиять на качество пользовательского опыта, и как следствие — на результаты вашего исследования. Отловить такие технические недостатки — главная задача проектной команды.

Полученные данные нужно прогонять через проверки адекватности (goodness-of-fit). Такие дополнительные тесты помогут вам выявить несоответствия свойств полученной модели и изучаемого объекта. Эти несоответствия в свою очередь станут красным флагом, поводом проверить, все ли в порядке с вашими методами исследования.

Наконец, не забывайте о регулярных А/А-тестах. Это лучший способ определить величину ошибки, с помощью которой вы будете корректировать дальнейшие результаты. Применение данной поправки поможет вам приблизить статистические данные к реальной жизни и не расплачиваться корпоративными деньгами за любовь бизнес-аналитиков и экспертов по Data Science к цифра

Текст: Помогаев Дмитрий

Поделиться:
Опубликовано в рубрике Наука о данных (Data Science)Tagged ,

SkillFactory.Рассылка