A/B Тест Калькулятор

Проверьте статистическую значимость, спланируйте размер выборки и продолжительность, или проведите байесовский тест — три калькулятора в одном. Free, мгновенно, без регистрации.

Байесовский режим отвечает на вопрос "какова вероятность того, что изменение действительно лучше?" на основе тех же данных о конверсии выше, используя априорное распределение Beta(1,1).

Непрерывные метрики (доход, средняя стоимость заказа) используют t-тест Уэлча вместо z-теста пропорций.

Тест хи-квадрат на несоответствие выборки (SRM) сигнализирует о том, что ваше фактическое распределение отклоняется — признак сломанного эксперимента.

Регион практической эквивалентности (ROPE) — это диапазон вокруг "нет разницы", рассматриваемый как ничья, который определяет решение Худшее / Эквивалентное / Лучше.

Для образовательного использования. Этот калькулятор применяет стандартные статистические методы (z-тест для двух пропорций, анализ мощности и Байесовская модель Бета-Биномиал) к введённым вами данным — это инструмент для принятия решений, а не гарантия.. Результаты предполагают правильно рандомизированные, независимые выборки и один фиксированный анализ; реальные эксперименты могут быть подвержены влиянию подглядывания, эффектов новизны, сезонности, несоответствия в соотношении выборок и ошибок отслеживания. Используйте это для принятия решения, а не для замены правильного дизайна эксперимента.

Этот бесплатный Калькулятор A/B тестов выполняет три задачи, которые нужны каждому эксперименту, в одном месте: говорит вам, является ли завершенный тест настоящим победителем (статистическая значимость), планирует сколько посетителей и дней вам понадобится перед началом, и запускает Байесовский "шанс на победу", когда вы предпочитаете думать в вероятностях, а не в p-значениях.

Выберите режим, введите свои числа, нажмите Рассчитать — все обновляется мгновенно, и ваши данные никогда не покидают ваш браузер. Каждый стандарт (95% доверия, 80% мощности, z = 1.96) является документированным статистическим стандартом, приведенным ниже.

От тестовых данных до четкого решения за три шага

Без аккаунта, без электронной почты, без ограничений — только строгая статистика, доступная для понимания.

1

Выберите свой режим

"Выиграл ли мой тест?" для завершенного теста, "Запланировать мой тест" для определения размера перед запуском или "Байесовский" для шанса на победу. Один инструмент, три задачи.

2

Введите свои числа

Посетители и конверсии для каждой вариации или базовая ставка и целевой эффект. Переключитесь на Расширенный режим для метрик дохода, SRM и многого другого.

3

Читать вердикт

Получите победителя на простом языке, а также p-значение, доверительный интервал, размер выборки или шанс на победу — и графики, которые делают это очевидным.

Числа, которые использует каждый A/B тест

Это обычные пороговые значения, к которым по умолчанию обращается этот калькулятор — каждое из них является задокументированным статистическим стандартом, а не выдумкой.

95%
стандартный уровень доверия — вы принимаете 5% вероятность ложноположительного результата
Wikipedia / NIST
80%
стандартная статистическая мощность — 80% вероятность обнаружить реальный эффект, если он существует
VWO / Evan Miller
z = 1.96
двустороннее критическое значение при 95% доверии, используемое в z-тесте и интервале
Стандартное нормальное распределение
Beta(1,1)
неинформативный приоритет, с которого начинается байесовская модель для каждой ставки конверсии
Evan Miller

Красивый рост ничего не значит без статистики

Большинство "выигрышных" тестов, которые были отправлены, никогда не были значительными. Математика отделяет реальное улучшение от случайного шума.

Избегайте ложных победителей

20% рост на малых числах часто является чистым совпадением. Значимость показывает, реальна ли разница, прежде чем вы внедрите ее для всех.

Не бегите вечно (или не останавливайтесь слишком рано)

Определение размера теста заранее показывает, когда у вас будет достаточно данных — чтобы вы не тратили недели или не завершали тест в тот момент, когда он выглядит хорошо.

Квантифицируйте риск

Доверительный интервал и ожидаемые потери по Байесу показывают вам не только "лучше ли это?", но и "сколько я могу выиграть или потерять, если я ошибаюсь?"

Согласуйте команду

Поделитесь ссылкой, чтобы PM, дизайнер и аналитик видели один и тот же вердикт и доверительный интервал — меньше споров "но это выглядело как победа" после факта.

Как рассчитывается значимость

Это один z-тест. Вот вся информация, с каноническим примером.

Ставка B − Ставка A
+3.0pp
÷
Объединенная стандартная ошибка
0.0143
=
Z-оценка
2.10

Z-оценка соответствует p-значению 0.035 — 3.5% вероятность увидеть такой разрыв просто по удаче — так что вы 96.5% уверены, что превышает 95% барьер. (Контроль 10% против вариации 13%, по 1,000 посетителей каждый.)

Почему две разные стандартные ошибки?

Объединенная SE для теста

Гипотеза теста предполагает, что нулевая гипотеза верна — что оба показателя равны — поэтому она объединяет две выборки в один общий показатель для вычисления стандартной ошибки и z-оценки. Это классический z-тест для двух пропорций (Wikipedia / NIST).

Необъединенная SE для интервала

Доверительный интервал не предполагает, что показатели равны, поэтому он использует собственную дисперсию каждого показателя — необъединенную стандартную ошибку. Большинство калькуляторов скрывают это; наш показывает оба, потому что использование правильного имеет значение.

против

Абсолютный против Относительного Увеличения

Самая распространенная ошибка в A/B-тестировании. Один и тот же результат, два очень разных числа.

Контроль 10% Вариация 13%

+3 процентных пункта абсолютно

Разница между двумя ставками: 13% − 10% = 3пп. Это то, с чем работают статистики, и что отражает доверительный интервал. Его нельзя раздувать.

+30% относительный прирост

Разница в доле от базового уровня: 3пп ÷ 10% = 30%. Заголовки маркетинга любят это большее число — но "+30%" и "+3пп" описывают один и тот же тест.

против

Всегда проверяйте, какой из них цитирует инструмент (или поставщик). Этот калькулятор показывает оба варианта каждый раз.

Частотный против Байесовского — какой использовать?

Они отвечают на немного разные вопросы. Оба варианта действительны; этот инструмент предоставляет вам оба.

Частотный p-значение

Ответы: "Если бы не было реальной разницы, насколько удивительны эти данные?" Низкое p-значение означает, что результат маловероятен случайно. Знакомо, широко сообщается и к чему относится "статистическая значимость" — но легко неправильно интерпретировать и чувствительно к подглядыванию.

Байесовский шанс победить

Отвечает на вопрос, который у вас на самом деле есть: "Какова вероятность того, что вариация лучше, учитывая данные?" Предоставляет прямую вероятность победы и ожидаемые потери, а также более элегантно справляется с мониторингом — за счет выбора приоритета.

против

Правило большого пальца: сообщайте значимость , когда заинтересованные стороны ожидают p-значение; обращайтесь к Байесовскому методу, когда хотите интуитивно понятное решение на основе риска.

Размер выборки, мощность и MDE → Продолжительность

Четыре параметра определяют, как долго вы будете ждать. Меньшие эффекты требуют значительно больше трафика.

Базовый уровень + MDE + мощность и уверенность посетители / вариация ÷ ежедневный трафик дни для проведения

Необходимый размер выборки растет с 1 / MDE²: уменьшение эффекта, который вы хотите обнаружить, примерно увеличивает в четыре раза. трафик, который вам нужен. Обнаружение 10% относительного увеличения при 10% базовом уровне с вероятностью 95%/80% требует около 14,300 посетителей на каждую вариацию. Выберите наименьшее увеличение, которое на самом деле изменит ваше решение — не самое маленькое, которое вы можете представить.

Проблема подглядывания

Почему "мы достигли 95%, отправляем!" часто неверно.

Повторные проверки завышают количество ложноположительных результатов. p-значение теста колеблется по мере поступления данных. Если вы остановитесь в первый раз, когда оно опустится ниже 0.05, вы выбираете шум — "значимый на 95%" результат, найденный путем подглядывания, может быть неверным гораздо чаще, чем в 5% случаев.
Решение: заранее определите размер выборки и придерживайтесь его. Используйте режим размера выборки, чтобы установить фиксированный горизонт, затем оцените один раз. Если вам необходимо постоянно контролировать, используйте последовательный метод или байесовский режим, который более устойчив к повторным взглядам.

Несоответствие соотношения выборки (SRM)

Когда ваше распределение 50/50 не является 50/50, весь тест вызывает подозрения.

Вы планировали равное распределение, но получили 53/47 среди десятков тысяч посетителей. Этот дисбаланс статистически почти невозможен случайно — значит, что-то сломано: редирект, теряющий пользователей, бот-трафик, ошибка отслеживания или неисправный рандомизатор. A тест согласия хи-квадрат флаги это; если p-значение SRM опускается ниже 0.01, не интерпретируйте эксперимент.

Что делает чек. Расширенный режим сравнивает ваше фактическое распределение с запланированным с помощью теста хи-квадрат и сообщает значение p, так что несоответствие не сможет ускользнуть от вас.
Что делать, если это не сработает. Не доверяйте результату и не "исправляйте" его, изменяя веса. Find найдите коренную причину — редиректы, боты, отслеживание, рандомизация — устраните её и повторите тест с чистыми данными.

Распространенные ошибки A/B тестирования

Ошибки, которые превращают эксперименты в дорогие догадки.

1
Остановка на раннем этапе при первом "95%." Проблема подглядывания — определите размер выборки перед началом и оцените один раз.
2
Образцы, которые слишком малы. Несколько сотен посетителей не могут обнаружить небольшой эффект; сначала определите размер теста, иначе вы читаете шум.
3
Игнорирование несоответствия соотношения выборок. Склоненный сплит означает сломанный тест; проверьте это, прежде чем читать результат.
4
Называть ничью проигравшей. "Не значимо" означает неопределенно, а не "B проиграл" — вам может просто понадобиться больше данных.
5
Много вариантов, нет коррекции. Тестируйте пять вариантов, и шансы на случайного "победителя" возрастают — примените коррекцию Бонферрони или Шидака.
6
Запуск менее недели или превышение новизны. Покрывайте целые недели для учета эффектов дня недели и следите за новизной, которая исчезает.

Как работает калькулятор

Нет черного ящика. Каждая формула с указанным источником — проверена на основе числовых примеров.

Значимость
Двухпропорционный z-тест. Коэффициенты конверсии p = conversions / visitors. Тест использует объединенную стандартную ошибку √(p̄(1−p̄)(1/n₁+1/n₂)) для получения z, затем p-значение из стандартного нормального распределения. Доверительный интервал использует unpooled SE — мы показываем оба. (Wikipedia, NIST.)
Размер выборки
Точная формула мощности. От базового уровня p, эффекта δи z-значений для доверия и мощности: n = (z_α·√(2p(1−p)) + z_β·√(p(1−p)+(p+δ)(1−p−δ)))² / δ², округлено вверх. Затем продолжительность = всего ÷ ежедневный трафик. (Evan Miller.)
Байесовский
Бета-Биномиальный. Каждая ставка получает Beta(1,1) приоритет, так что постериорный распределение это Beta(1+conversions, 1+failures). Мы вычисляем точную вероятность того, что постериорное распределение вариации превосходит контрольное, плюс ожидаемые потери. (Байесовские формулы Эвана Миллера.)

Числа, которые он сообщает

P-значение & доверие
Вероятность результата при нулевой гипотезе и 1 − это.
Доверительный интервал
Правдоподобный диапазон для истинной разницы; исключает 0, когда значимо.
Наблюдаемая мощность
Показано в разделе "Расширенные" — с предостережением, что пост-хок мощность обсуждается.
SRM & низкоданные охранники
Отмечает сломанный сплит или слишком разреженные данные, что делает вердикт ненадежным.
Примечание по точности. Это стандартные, широко используемые статистические методы, и результаты этого инструмента были проверены на основе примеров и справочных калькуляторов (Эван Миллер, ABTestGuide). Тем не менее, калькулятор не может увидеть ваш дизайн эксперимента: он предполагает правильно рандомизированные, независимые выборки, анализируемые один раз на фиксированном горизонте. Подсмотр, эффекты новизны, сезонность, несоответствие соотношения выборок и ошибки отслеживания могут все аннулировать в противном случае "значимый" результат. Используйте это для информирования решения, а не для замены надежного дизайна эксперимента. sem.chat не предоставляет статистического консультирования.

Источники и дополнительное чтение

Авторитетные методы и стандарты, лежащие в основе математики на этой странице.

Z-тест для двух пропорций — объединенная SE для теста, не объединенная для интервала: Wikipedia и NIST/SEMATECH e-Handbook §7.2.4.
Размер выборки и значимость — точная формула мощности и правило 16·p(1−p)/δ²: Эван Миллер, "Калькулятор размера выборки" и Потрясающие A/B инструменты.
Байесовское A/B тестирование — постериоры Beta(1,1) и закрытая формула вероятности победы: Эван Миллер, "Формулы для Байесовского A/B тестирования".
Инструменты и настройки для практиков — соглашения о доверии/мощности, SRM и ROPE: ABTestGuide и VWO.

Связанные калькуляторы от sem.chat

Часто задаваемые вопросы

Значимость, размер выборки, Байесовский подход и подводные камни — объяснено простым языком.

Статистическая значимость показывает, насколько вероятно, что ваш результат является случайным совпадением. p-значение — это вероятность увидеть разницу хотя бы такой величины, если бы вариация на самом деле не имела эффекта (нулевая гипотеза). p-значение 0.05 означает 5% вероятность того, что результат является случайным; при уровне доверия 95% вы считаете его значимым, когда p-значение падает ниже 0.05. Это не вероятность того, что ваша вариация лучше — это распространенное заблуждение.
В режиме значимости вариация выигрывает, когда тест достигает выбранного вами уровня доверия (по умолчанию 95%) и доверительный интервал для разницы исключает ноль. Инструмент показывает коэффициенты конверсии, прирост, p-значение, процент доверия и простой вердикт. Результат, который не является значимым, означает либо отсутствие реальной разницы, либо необходимость в дополнительных данных — это не значит, что вариация проиграла.
Если ваш контрольный показатель составляет 10%, а вариация — 13%, абсолютное увеличение составляет +3 процентных пункта (пп), а относительное увеличение — +30% — (13−10)/10. Маркетинговые инструменты обычно акцентируют внимание на большем относительном числе; статистики работают в абсолютных терминах. Путаница между ними является самой распространенной ошибкой в A/B-тестировании, поэтому этот калькулятор показывает оба значения.
Используйте двусторонний тест (по умолчанию), когда вам важно, отличается ли вариация — лучше или хуже. Используйте односторонний тест только в том случае, если вы никогда не будете действовать на основе отрицательного результата и заранее определили направление, прежде чем увидеть данные. Односторонний тест уменьшает p-значение вдвое, поэтому достигает значимости быстрее, что именно и делает его легким для злоупотребления. В случае сомнений оставайтесь на двустороннем тесте.
95% является стандартом отрасли, принимая 5% уровень ложноположительных результатов. Используйте 90% для низкорисковых, легко обратимых изменений, где важна скорость, и 99% для решений с высокими ставками или трудных для отмены. Более высокий уровень доверия требует больше данных для достижения.
Мощность — это вероятность того, что ваш тест обнаружит реальный эффект заданного размера, когда он существует, — один минус уровень ложных отрицательных результатов. Принято считать, что мощность составляет 80%, что означает, что если эффект реальный, вы его поймаете 80% времени и пропустите 20%. Более высокая мощность, такая как 90%, безопаснее, но требует большего объема выборки.
MDE — это наименьшее улучшение, которое вы хотите, чтобы тест смог обнаружить. Более мелкие MDE требуют значительно большего трафика — размер выборки растет обратно пропорционально квадрату MDE — поэтому выберите наименьшее улучшение, которое действительно изменит ваше решение, а не нереально маленькое. Общей отправной точкой является относительный MDE в 20%.
Это зависит от вашей базовой конверсии, вашего MDE, уровня доверия и мощности. Режим расчета размера выборки вычисляет точное количество посетителей на каждую вариацию, используя стандартную формулу мощности для двух пропорций — например, увеличение базовой конверсии на 10% относительно 10% (до 11%) при 95% уровне доверия и 80% мощности требует около 14,300 посетителей на каждую вариацию.
Продолжительность = необходимый общий размер выборки, деленный на количество ваших ежедневных подходящих посетителей. Введите ваш средний ежедневный трафик в режиме расчета размера выборки, и инструмент вернет количество дней. Проводите тест в течение целых недель, чтобы усреднить эффекты по дням недели, и не останавливайтесь в тот момент, когда результаты выглядят значительными.
Нет. Повторная проверка и остановка в первый раз, когда вы видите значимость, значительно увеличивает вашу долю ложноположительных результатов — результат 95%, полученный путем подглядывания, может быть неверным гораздо чаще, чем в 5% случаев. Определите размер выборки заранее и проводите тест до его завершения или используйте последовательный или байесовский метод, предназначенный для мониторинга.
Частотный (режим p-значения и значимости) отвечает на вопрос, насколько удивительны эти данные, если бы не было реальной разницы. Байесовский отвечает на более интуитивный вопрос — какова вероятность того, что вариация на самом деле лучше, учитывая данные. Байесовский режим дает прямую вероятность победы и ожидаемые потери; частотный режим предоставляет p-значение и доверительный интервал. Оба подхода являются действительными, и этот инструмент предлагает оба.
Это апостериорная вероятность того, что истинная конверсия вариации выше, чем у контроля, учитывая данные и неинформативный приоритет Beta(1,1) — например, 98% означает, что есть 98% вероятность того, что вариация действительно лучше. Общий порог для принятия решения составляет 95%.
Ожидаемые потери — это средняя сумма коэффициента конверсии, которую вы бы упустили, если выберете вариант, который окажется хуже — мера риска. Вы запускаете, когда ожидаемые потери ниже небольшого порога. ROPE, область практического эквивалента, представляет собой диапазон вокруг отсутствия разницы (по умолчанию 1%), внутри которого оба варианта рассматриваются как фактически одинаковые, что позволяет принимать решение о Хуже / Эквивалентно / Лучше.
Доверительный интервал 95% (частотный) — это диапазон, который, при многократном повторении эксперимента, будет содержать истинную разницу 95% времени. Правдоподобный интервал 95% (байесовский) — это диапазон, в который истинное значение попадает с вероятностью 95% с учетом ваших данных. Калькулятор показывает доверительный интервал для разницы в режиме значимости и правдоподобные интервалы в байесовском режиме.
SRM — это когда ваш трафик не соответствует вашим намерениям — например, вы хотели 50/50, но получили 53/47 при высоком объеме. Инструмент выполняет проверку хи-квадрат; неудачный результат (p ниже 0.01) сигнализирует о нарушении рандомизации, редиректе или смещении ботов, или проблемах с отслеживанием. Если SRM не проходит, не интерпретируйте тест — исправьте причину и повторите тест.
z-тест основывается на нормальном приближении, которое нарушается при очень малом количестве конверсий, примерно менее 5-10 успехов или неудач на ячейку. При разреженных данных p-значение ненадежно, поэтому инструмент отмечает это и советует собрать больше данных, прежде чем доверять результату.
Да. В режиме Advanced переключите тип метрики на непрерывный и введите среднее значение, стандартное отклонение и размер выборки для каждой вариации. Инструмент затем выполняет t-тест Уэлча, который обрабатывает неравные дисперсии, вместо пропорционального z-теста. Большинство A/B калькуляторов обрабатывают только бинарные конверсии.
Да. Добавьте вариации в расширенном режиме, и инструмент сравнивает каждую с контролем, применяя коррекцию множественных сравнений (Бонферрони или Сидак), потому что тестирование нескольких вариантов одновременно увеличивает вероятность ложного победителя, если вы не сделаете корректировку.

Условия A/B тестирования на простом английском

Концепции, лежащие в основе калькулятора — что они означают и почему это важно.

Коэффициент конверсии
Доля посетителей, которые конвертируются: конверсии делятся на посетителей.
Контроль против вариации
Контроль (A) — это существующая версия; вариация (B) — это изменение, которое вы тестируете по сравнению с ней.
Абсолютный прирост
Разница между двумя коэффициентами конверсии в процентных пунктах, например, 13% минус 10% равно +3пп.
Относительный прирост
Улучшение в процентах от базового уровня, например, +3пп при базовом уровне 10% составляет +30%.
Нулевая гипотеза
Исходное предположение о том, что вариация не имеет реального эффекта; тест пытается опровергнуть это.
P-значение
Вероятность увидеть разницу хотя бы такого размера, если нулевая гипотеза верна.
Уровень значимости (альфа)
Уровень ложноположительных результатов, который вы принимаете; 0.05 соответствует 95% уверенности.
Уровень доверия
Один минус альфа; насколько уверенными вы хотите быть, прежде чем назвать результат реальным, обычно 95%.
Статистическая мощность (1 - бета)
Вероятность обнаружения реального эффекта заданного размера; 80% является стандартом.
Ошибка первого и второго рода
Ошибка первого рода — это ложноположительный результат (назвать отсутствие разницы реальным); ошибка второго рода — это ложноотрицательный результат (упустить реальную разницу).
Z-тест для двух пропорций
Тест, который стандартизирует расстояние между двумя коэффициентами конверсии в z-оценку для вычисления p-значения.
Объединенная и не объединенная стандартная ошибка
Гипотетический тест использует объединенную стандартную ошибку (предполагая равные ставки при нулевой гипотезе); доверительный интервал использует не объединенную стандартную ошибку из собственной дисперсии каждой ставки.
Доверительный интервал
Частотный диапазон, вероятно, содержащий истинную разницу, например, доверительный интервал 95%.
Минимально обнаружимый эффект (MDE)
Наименьший прирост, который запланированный тест способен обнаружить.
Размер выборки и продолжительность теста
Количество посетителей на каждую вариацию, необходимое для теста, и сколько дней это займет при вашем трафике.
Байесовский апостериор / вероятность победы
Вероятность того, что истинный показатель вариации превышает контрольный, учитывая данные.
Достоверный интервал, ожидаемые потери и ROPE
Байесовский диапазон для значения; средний риск неверного выбора; и диапазон практической эквивалентности, рассматриваемый как отсутствие разницы.
Несоответствие соотношения выборки (SRM)
Несоответствие распределения трафика по сравнению с запланированным соотношением, указывающее на сломанный эксперимент.
Проблема подглядывания
Повторная проверка результатов и остановка на первом значимом моменте, что приводит к увеличению ложноположительных результатов.

Оптимизация вашей конверсии?

Самая быстрая "выигрышная вариация" часто заключается в том, чтобы просто быстрее отвечать посетителям. sem.chat добавляет на ваш сайт AI чат и голосового агента, который отвечает на вопросы 24/7, захватывает потенциальных клиентов и записывает звонки — увеличение конверсии, которое вы можете измерить с помощью калькулятора выше. Попробуйте бесплатно.

Попробуйте sem.chat Free
Скопировано в буфер обмена!