Question 1

Что такое статистическая значимость в A/B тесте и что на самом деле означает p-значение?

Accepted Answer

Статистическая значимость показывает, насколько вероятно, что ваш результат является просто случайным совпадением. P-значение — это вероятность увидеть разницу хотя бы такой величины, если бы вариация на самом деле не имела эффекта (нулевая гипотеза). P-значение 0.05 означает 5% вероятность того, что результат является случайным; при уровне доверия 95% вы называете его значимым, когда p-значение опускается ниже 0.05. Это не вероятность того, что ваша вариация лучше — это распространенное заблуждение.

Question 2

Как мне прочитать результат этого калькулятора — что считается победителем?

Accepted Answer

В режиме значимости вариант выигрывает, когда тест достигает выбранного вами уровня доверия (по умолчанию 95%) и доверительный интервал для разницы исключает ноль. Инструмент показывает коэффициенты конверсии, прирост, p-значение, процент доверия и простой вердикт. Результат, который не является значимым, означает либо отсутствие реальной разницы, либо необходимость в дополнительных данных — это не значит, что вариант проиграл.

Question 3

В чем разница между абсолютным увеличением (процентные пункты) и относительным увеличением (процентный рост)?

Accepted Answer

Если ваш контрольный показатель составляет 10%, а вариация — 13%, абсолютное увеличение составляет +3 процентных пункта (пп), а относительное увеличение — +30% — (13−10)/10. Маркетинговые инструменты обычно акцентируют внимание на большем относительном числе; статистики работают в абсолютных терминах. Смешение этих двух понятий является самой распространенной ошибкой в A/B-тестировании, поэтому этот калькулятор показывает оба показателя.

Question 4

Должен ли я использовать односторонний или двусторонний тест?

Accepted Answer

Используйте двусторонний тест (по умолчанию), когда вам важно, отличается ли вариация — лучше или хуже. Используйте односторонний тест только в том случае, если вы никогда не будете действовать на основании отрицательного результата и заранее определили направление, прежде чем увидеть данные. Односторонний тест уменьшает p-значение вдвое, поэтому достигает значимости быстрее, что именно и делает его легким для злоупотребления. В случае сомнений оставайтесь с двусторонним тестом.

Question 5

Какой уровень доверия мне выбрать — 90%, 95% или 99%?

Accepted Answer

95% является стандартом в отрасли, принимая 5% уровень ложноположительных результатов. Используйте 90% для изменений с низким риском, которые легко отменить, когда важна скорость, и 99% для решений с высокими ставками или трудных для отмены. Более высокий уровень доверия требует больше данных для достижения.

Question 6

Что такое статистическая мощность и почему 80% является стандартом?

Accepted Answer

Мощность — это вероятность того, что ваш тест обнаружит реальный эффект заданного размера, когда он существует, — один минус уровень ложных отрицательных результатов. Принято считать, что мощность составляет 80%, что означает, что если эффект реальный, вы его обнаружите в 80% случаев и пропустите в 20%. Более высокая мощность, такая как 90%, более безопасна, но требует большего объема выборки.

Question 7

Что такое минимально обнаружимый эффект (MDE) и как его выбрать?

Accepted Answer

MDE — это наименьшее улучшение, которое вы хотите, чтобы тест смог обнаружить. Более мелкие MDE требуют значительно большего трафика — размер выборки растет обратно пропорционально квадрату MDE — поэтому выберите наименьшее увеличение, которое действительно изменит ваше решение, а не нереалистично маленькое. Общей отправной точкой является относительный MDE в 20%.

Question 8

Сколько посетителей (размер выборки) мне нужно?

Accepted Answer

Это зависит от вашей базовой конверсии, вашего MDE, уровня доверия и мощности. Режим расчета размера выборки вычисляет точное количество посетителей на каждую вариацию, используя стандартную формулу мощности для двух пропорций — например, увеличение базовой конверсии на 10% относительно (до 11%) при 95% уровне доверия и 80% мощности требует около 14,300 посетителей на каждую вариацию.

Question 9

Как долго мне следует проводить тест, и как рассчитывается продолжительность?

Accepted Answer

Продолжительность = необходимый общий размер выборки, деленный на ваше количество подходящих посетителей в день. Введите ваш средний дневной трафик в режиме выборки, и инструмент вернет количество дней. Запускайте на целые недели, чтобы усреднить эффекты по дням недели, и не останавливайтесь в тот момент, когда это выглядит значительным.

Question 10

Могу ли я остановить свой тест досрочно, как только он достигнет 95%? (проблема подглядывания)

Accepted Answer

Нет. Повторная проверка и остановка в первый раз, когда вы видите значимость, значительно увеличивает вашу частоту ложноположительных результатов — результат 95%, полученный путем подглядывания, может быть неверным гораздо чаще, чем в 5% случаев. Определите размер вашей выборки заранее и придерживайтесь его, или используйте последовательный или байесовский метод, разработанный для мониторинга.

Question 11

Какова разница между частотным и байесовским подходами?

Accepted Answer

Частотный подход (модель p-значения и значимости) отвечает на вопрос, насколько удивительны эти данные, если бы не было реальной разницы. Байесовский подход отвечает на более интуитивный вопрос — какова вероятность того, что вариация на самом деле лучше, учитывая данные. Байесовский подход предоставляет прямую вероятность превосходства и ожидаемые потери; частотный подход дает p-значение и доверительный интервал. Оба подхода являются действительными, и этот инструмент предлагает оба.

Question 12

В байесовском режиме, что означает шанс победить контроль?

Accepted Answer

Это апостериорная вероятность того, что истинная конверсия варианта выше, чем у контроля, с учетом данных и неинформативного приоритета Beta(1,1) — например, 98% означает, что существует 98% вероятность того, что вариант действительно лучше. Общий порог для принятия решения составляет 95%.

Question 13

Что такое ожидаемые потери (потенциальные потери) и ROPE?

Accepted Answer

Ожидаемые потери — это средняя сумма коэффициента конверсии, которую вы бы упустили, если выберете вариант, который окажется хуже — мера риска. Вы запускаете, когда ожидаемые потери ниже небольшого порога. ROPE, Регион Практической Эквивалентности, — это диапазон вокруг отсутствия разницы (по умолчанию 1%), внутри которого оба варианта рассматриваются как фактически одинаковые, что позволяет принимать решение о Хуже / Эквивалентно / Лучше.

Question 14

Что такое доверительный интервал и как он отличается от правдоподобного интервала?

Accepted Answer

95% доверительный интервал (частотный) — это диапазон, который, при многократном повторении эксперимента, будет содержать истинную разницу 95% времени. 95% достоверный интервал (байесовский) — это диапазон, в который истинное значение попадает с вероятностью 95% с учетом ваших данных. Калькулятор показывает доверительный интервал для разницы в режиме значимости и достоверные интервалы в байесовском режиме.

Question 15

Что такое несоответствие выборки (SRM) и что мне делать?

Accepted Answer

SRM — это когда ваше распределение трафика не соответствует вашим намерениям — например, вы хотели 50/50, но получили 53/47 при высоком объеме. Инструмент выполняет проверку хи-квадрат; неудачный результат (p ниже 0.01) сигнализирует о нарушенной рандомизации, редиректе или смещении ботов, или о проблемах с отслеживанием. Если SRM не проходит, не интерпретируйте тест — исправьте причину и повторите запуск.

Question 16

Почему калькулятор предупреждает меня, когда у меня слишком мало конверсий или посетителей?

Accepted Answer

z-тест основывается на нормальном приближении, которое перестает работать при очень небольшом количестве конверсий, примерно менее 5 до 10 успехов или неудач на ячейку. При разреженных данных p-значение ненадежно, поэтому инструмент помечает это и советует собрать больше данных перед тем, как доверять вердикту.

Question 17

Могу ли я использовать это для дохода, средней стоимости заказа или метрик, не связанных с конверсией?

Accepted Answer

Да. В режиме Advanced переключите тип метрики на непрерывный и введите среднее значение, стандартное отклонение и размер выборки для каждой вариации. Затем инструмент выполняет t-тест Уэлча, который обрабатывает неравные дисперсии, вместо теста пропорций z. Большинство калькуляторов A/B обрабатывают только бинарные преобразования.

Question 18

Поддерживает ли это более двух вариантов (A/B/n)?

Accepted Answer

Да. Добавьте вариации в Расширенном режиме, и инструмент сравнивает каждую из них с контролем, применяя коррекцию множественных сравнений (Бонферрони или Сидак), потому что тестирование нескольких вариантов одновременно увеличивает вероятность ложного победителя, если вы не сделаете корректировку.

A/B Тест Калькулятор

Калькулятор A/B тестов — sem.chat

📊 Ваш результат

Насколько далеко в хвосте ваш результат?

95% доверительный интервал для разницы

Статистическая деталь

Почему меньшие эффекты стоят больше трафика

Постериорные распределения

Решение: Хуже / Эквивалентно / Лучше

От тестовых данных до четкого решения за три шага

Выберите свой режим

Введите свои числа

Читать вердикт

Числа, которые использует каждый A/B тест

Красивый рост ничего не значит без статистики

Избегайте ложных победителей

Не бегите вечно (или не останавливайтесь слишком рано)

Квантифицируйте риск

Согласуйте команду

Как рассчитывается значимость

Почему две разные стандартные ошибки?

Объединенная SE для теста

Необъединенная SE для интервала

Абсолютный против Относительного Увеличения

+3 процентных пункта абсолютно

+30% относительный прирост

Частотный против Байесовского — какой использовать?

Частотный p-значение

Байесовский шанс победить

Размер выборки, мощность и MDE → Продолжительность

Проблема подглядывания

Несоответствие соотношения выборки (SRM)

Распространенные ошибки A/B тестирования

Как работает калькулятор

Числа, которые он сообщает

Источники и дополнительное чтение

Связанные калькуляторы от sem.chat

Часто задаваемые вопросы

Условия A/B тестирования на простом английском

Оптимизация вашей конверсии?