Проверьте статистическую значимость, спланируйте размер выборки и продолжительность, или проведите байесовский тест — три калькулятора в одном. Free, мгновенно, без регистрации.
Результаты вашего теста
Настройки
Спланировать ваш тест
Байесовский режим отвечает на вопрос "какова вероятность того, что изменение действительно лучше?" на основе тех же данных о конверсии выше, используя априорное распределение Beta(1,1).
Что вы измеряете?
Непрерывные метрики (доход, средняя стоимость заказа) используют t-тест Уэлча вместо z-теста пропорций.
Размеры выборок берутся из полей посетителей Контроль / Вариация выше.
Несколько вариаций и SRM
Тест хи-квадрат на несоответствие выборки (SRM) сигнализирует о том, что ваше фактическое распределение отклоняется — признак сломанного эксперимента.
Расширенное планирование
Байесовские настройки
Регион практической эквивалентности (ROPE) — это диапазон вокруг "нет разницы", рассматриваемый как ничья, который определяет решение Худшее / Эквивалентное / Лучше.
Результат A/B теста
Затененная область — это p-значение; маркер — это ваша z-оценка. Чем дальше в хвосте, тем менее вероятно, что результат случайный.
Если этот интервал исключает 0, разница значима на вашем уровне доверия.
Необходимый размер выборки увеличивается по мере уменьшения эффекта, который вы хотите обнаружить (≈ пропорционально 1/MDE²). Ваш выбранный MDE отмечен.
Где, вероятно, находится истинная конверсия каждой вариации — чем меньше они перекрываются, тем яснее победитель.
Вероятность того, что вариация значительно хуже, практически эквивалентна (в пределах ROPE) или значительно лучше.
| Шаг | Значение |
|---|
| Предположение / ввод | Value |
|---|
Этот бесплатный Калькулятор A/B тестов выполняет три задачи, которые нужны каждому эксперименту, в одном месте: говорит вам, является ли завершенный тест настоящим победителем (статистическая значимость), планирует сколько посетителей и дней вам понадобится перед началом, и запускает Байесовский "шанс на победу", когда вы предпочитаете думать в вероятностях, а не в p-значениях.
Выберите режим, введите свои числа, нажмите Рассчитать — все обновляется мгновенно, и ваши данные никогда не покидают ваш браузер. Каждый стандарт (95% доверия, 80% мощности, z = 1.96) является документированным статистическим стандартом, приведенным ниже.
Как это работает
Без аккаунта, без электронной почты, без ограничений — только строгая статистика, доступная для понимания.
"Выиграл ли мой тест?" для завершенного теста, "Запланировать мой тест" для определения размера перед запуском или "Байесовский" для шанса на победу. Один инструмент, три задачи.
Посетители и конверсии для каждой вариации или базовая ставка и целевой эффект. Переключитесь на Расширенный режим для метрик дохода, SRM и многого другого.
Получите победителя на простом языке, а также p-значение, доверительный интервал, размер выборки или шанс на победу — и графики, которые делают это очевидным.
Стандарты, лежащие в основе математики
Это обычные пороговые значения, к которым по умолчанию обращается этот калькулятор — каждое из них является задокументированным статистическим стандартом, а не выдумкой.
Почему это важно
Большинство "выигрышных" тестов, которые были отправлены, никогда не были значительными. Математика отделяет реальное улучшение от случайного шума.
20% рост на малых числах часто является чистым совпадением. Значимость показывает, реальна ли разница, прежде чем вы внедрите ее для всех.
Определение размера теста заранее показывает, когда у вас будет достаточно данных — чтобы вы не тратили недели или не завершали тест в тот момент, когда он выглядит хорошо.
Доверительный интервал и ожидаемые потери по Байесу показывают вам не только "лучше ли это?", но и "сколько я могу выиграть или потерять, если я ошибаюсь?"
Поделитесь ссылкой, чтобы PM, дизайнер и аналитик видели один и тот же вердикт и доверительный интервал — меньше споров "но это выглядело как победа" после факта.
Суть
Это один z-тест. Вот вся информация, с каноническим примером.
Z-оценка соответствует p-значению 0.035 — 3.5% вероятность увидеть такой разрыв просто по удаче — так что вы 96.5% уверены, что превышает 95% барьер. (Контроль 10% против вариации 13%, по 1,000 посетителей каждый.)
Гипотеза теста предполагает, что нулевая гипотеза верна — что оба показателя равны — поэтому она объединяет две выборки в один общий показатель для вычисления стандартной ошибки и z-оценки. Это классический z-тест для двух пропорций (Wikipedia / NIST).
Доверительный интервал не предполагает, что показатели равны, поэтому он использует собственную дисперсию каждого показателя — необъединенную стандартную ошибку. Большинство калькуляторов скрывают это; наш показывает оба, потому что использование правильного имеет значение.
Не дайте себя обмануть
Самая распространенная ошибка в A/B-тестировании. Один и тот же результат, два очень разных числа.
Разница между двумя ставками: 13% − 10% = 3пп. Это то, с чем работают статистики, и что отражает доверительный интервал. Его нельзя раздувать.
Разница в доле от базового уровня: 3пп ÷ 10% = 30%. Заголовки маркетинга любят это большее число — но "+30%" и "+3пп" описывают один и тот же тест.
Всегда проверяйте, какой из них цитирует инструмент (или поставщик). Этот калькулятор показывает оба варианта каждый раз.
Два взгляда
Они отвечают на немного разные вопросы. Оба варианта действительны; этот инструмент предоставляет вам оба.
Ответы: "Если бы не было реальной разницы, насколько удивительны эти данные?" Низкое p-значение означает, что результат маловероятен случайно. Знакомо, широко сообщается и к чему относится "статистическая значимость" — но легко неправильно интерпретировать и чувствительно к подглядыванию.
Отвечает на вопрос, который у вас на самом деле есть: "Какова вероятность того, что вариация лучше, учитывая данные?" Предоставляет прямую вероятность победы и ожидаемые потери, а также более элегантно справляется с мониторингом — за счет выбора приоритета.
Правило большого пальца: сообщайте значимость , когда заинтересованные стороны ожидают p-значение; обращайтесь к Байесовскому методу, когда хотите интуитивно понятное решение на основе риска.
Сначала планируйте
Четыре параметра определяют, как долго вы будете ждать. Меньшие эффекты требуют значительно больше трафика.
Необходимый размер выборки растет с 1 / MDE²: уменьшение эффекта, который вы хотите обнаружить, примерно увеличивает в четыре раза. трафик, который вам нужен. Обнаружение 10% относительного увеличения при 10% базовом уровне с вероятностью 95%/80% требует около 14,300 посетителей на каждую вариацию. Выберите наименьшее увеличение, которое на самом деле изменит ваше решение — не самое маленькое, которое вы можете представить.
#1 Ошибка
Почему "мы достигли 95%, отправляем!" часто неверно.
Тихий убийца
Когда ваше распределение 50/50 не является 50/50, весь тест вызывает подозрения.
Вы планировали равное распределение, но получили 53/47 среди десятков тысяч посетителей. Этот дисбаланс статистически почти невозможен случайно — значит, что-то сломано: редирект, теряющий пользователей, бот-трафик, ошибка отслеживания или неисправный рандомизатор. A тест согласия хи-квадрат флаги это; если p-значение SRM опускается ниже 0.01, не интерпретируйте эксперимент.
Избегайте этого
Ошибки, которые превращают эксперименты в дорогие догадки.
Методология
Нет черного ящика. Каждая формула с указанным источником — проверена на основе числовых примеров.
p = conversions / visitors. Тест использует объединенную стандартную ошибку √(p̄(1−p̄)(1/n₁+1/n₂)) для получения z, затем p-значение из стандартного нормального распределения. Доверительный интервал использует unpooled SE — мы показываем оба. (Wikipedia, NIST.)p, эффекта δи z-значений для доверия и мощности: n = (z_α·√(2p(1−p)) + z_β·√(p(1−p)+(p+δ)(1−p−δ)))² / δ², округлено вверх. Затем продолжительность = всего ÷ ежедневный трафик. (Evan Miller.)Beta(1,1) приоритет, так что постериорный распределение это Beta(1+conversions, 1+failures). Мы вычисляем точную вероятность того, что постериорное распределение вариации превосходит контрольное, плюс ожидаемые потери. (Байесовские формулы Эвана Миллера.)Ссылки
Авторитетные методы и стандарты, лежащие в основе математики на этой странице.
FAQ
Значимость, размер выборки, Байесовский подход и подводные камни — объяснено простым языком.
Глоссарий
Концепции, лежащие в основе калькулятора — что они означают и почему это важно.
Самая быстрая "выигрышная вариация" часто заключается в том, чтобы просто быстрее отвечать посетителям. sem.chat добавляет на ваш сайт AI чат и голосового агента, который отвечает на вопросы 24/7, захватывает потенциальных клиентов и записывает звонки — увеличение конверсии, которое вы можете измерить с помощью калькулятора выше. Попробуйте бесплатно.
Попробуйте sem.chat Free