Перевірте статистичну значущість, сплануйте розмір вибірки та тривалість, або проведіть байєсівський тест — три калькулятори в одному. Free, миттєво, без реєстрації.
Результати вашого тесту
Налаштування
Спланувати ваш тест
Байєсівський режим відповідає на питання "яка ймовірність, що варіація насправді краща?" на основі тих же чисел конверсії вище, використовуючи Beta(1,1) апріорі.
Що ви вимірюєте?
Безперервні метрики (дохід, середня вартість замовлення) використовують t-тест Уелча замість z-тесту пропорцій.
Розміри вибірки беруться з полів відвідувачів контрольної / варіаційної групи вище.
Багато варіацій та SRM
Тест хі-квадрату на невідповідність співвідношення (SRM) вказує на те, що ваше фактичне розподілення відрізняється — ознака зламаного експерименту.
Розширене планування
Байєсівські налаштування
Регіон практичної еквівалентності (ROPE) — це смуга навколо "немає різниці", яка розглядається як нічия, що підтримує рішення Гірше / Еквівалентно / Краще.
Результат A/B тесту
Затемнена область — це p-значення; маркер — це ваша z-оцінка. Чим далі у хвості, тим менш імовірно, що результат випадковий.
Якщо цей інтервал виключає 0, різниця є значущою на вашому рівні довіри.
Необхідний розмір вибірки зростає, оскільки ефект, який ви хочете виявити, зменшується (≈ пропорційно 1/MDE²). Ваш вибраний MDE позначено.
Де, ймовірно, знаходиться справжня конверсійна ставка кожного варіанту — чим менше два перекриваються, тим ясніший переможець.
Ймовірність того, що варіація є суттєво гіршою, практично еквівалентною (в межах ROPE) або суттєво кращою.
| Крок | Значення |
|---|
| Припущення / вхідні дані | Value |
|---|
Цей безкоштовний A/B тестовий калькулятор виконує три завдання, які потрібні кожному експерименту, в одному місці: повідомляє, чи завершений тест є справжнім переможцем (статистична значущість), планує скільки відвідувачів і днів вам знадобиться перед початком, і проводить Байєсівський "шанс перемогти", коли ви віддаєте перевагу думати в ймовірностях, а не в p-значеннях.
Виберіть режим, введіть свої числа, натисніть Розрахувати — все оновлюється миттєво, і ваші дані ніколи не залишають ваш браузер. Кожен стандарт (95% довіра, 80% потужність, z = 1.96) є задокументованим статистичним стандартом, наведено нижче.
Як це працює
Без облікового запису, без електронної пошти, без обмежень — лише строгі статистичні дані, які легко читати.
"Чи виграв мій тест?" для завершеного тесту, "Спланувати мій тест" для визначення розміру перед запуском, або "Байєсівський" для оцінки ймовірності перемоги. Один інструмент, три завдання.
Відвідувачі та конверсії для кожної варіації, або базова ставка та цільовий ефект. Перейдіть до Розширеного для показників доходу, SRM та іншого.
Отримайте переможця на зрозумілій мові плюс p-значення, довірчий інтервал, розмір вибірки або ймовірність перемоги — і графіки, які роблять це очевидним.
Стандарти, що стоять за математикою
Це звичайні пороги, до яких цей калькулятор за замовчуванням налаштований — кожен з них є документованим статистичним стандартом, а не вигадкою.
Чому це важливо
Більшість "переможних" тестів, які надсилаються, ніколи не були значущими. Математика відокремлює реальне покращення від випадкового шуму.
Приріст на 20% при малих числах часто є чистим випадком. Значущість показує, чи є різниця реальною, перш ніж ви впровадите її для всіх.
Визначення розміру тесту на початку дозволяє зрозуміти, коли у вас буде достатньо даних — щоб ви не витрачали тижні або не завершували тест, як тільки він виглядає добре.
Довірчий інтервал і байєсівський очікуваний збиток показують вам не лише "чи краще це?", а й "наскільки я можу виграти або втратити, якщо помилюся?"
Поділіться посиланням, щоб PM, дизайн та дані бачили один і той же вердикт і CI — менше дебатів "але ж здавалося, що це виграло" після факту.
Основи
Це один z-тест. Ось усе, з канонічним прикладом, вбудованим у нього.
Z-оцінка відповідає p-значенню 0.035 — 3.5% шанс побачити таку велику різницю випадково — отже, ви 96.5% впевнені, що перевищує 95% бар'єр. (Контроль 10% проти варіації 13%, по 1,000 відвідувачів кожен.)
Гіпотетичний тест припускає, що нульова гіпотеза вірна — що обидві ставки рівні — тому він об'єднує обидва зразки в одну спільну ставку для обчислення стандартної похибки та z-оцінки. Це класичний z-тест для двох пропорцій (Wikipedia / NIST).
Довірчий інтервал не припускає, що ставки рівні, тому він використовує власну дисперсію кожної ставки — необ'єднану стандартну похибку. Більшість калькуляторів приховують це; наш показує обидва, тому що використання правильного важливо.
Не попадайтеся на вудку
Найпоширеніша помилка в A/B-тестуванні. Один і той же результат, два дуже різні числа.
Сирийний розрив між двома ставками: 13% − 10% = 3пп. Це те, чим займаються статистики, і що відображає довірчий інтервал. Його не можна роздувати.
Розрив у відсотках від базового рівня: 3пп ÷ 10% = 30%. Заголовки маркетингу люблять це більше число — але "+30%" і "+3пп" описують один і той же тест.
Завжди перевіряйте, який з них цитує інструмент (або постачальник). Цей калькулятор показує обидва, щоразу.
Два підходи
Вони відповідають на дещо різні запитання. Обидва є дійсними; цей інструмент надає вам обидва.
Відповідає: "Якщо б не було реальної різниці, наскільки дивними є ці дані?" Низьке p-значення означає, що результат навряд чи був би випадковим. Знайоме, широко повідомлене, і те, на що посилається "статистична значущість" — але легко неправильно інтерпретувати і чутливе до підглядання.
Відповідає на питання, яке ви насправді маєте: "Яка ймовірність, що варіація краща, враховуючи дані?" Надає прямий шанс на перемогу та очікувані втрати, і більш граціозно справляється з моніторингом — за рахунок вибору попереднього розподілу.
Правило великого пальця: повідомляйте значущість коли зацікавлені сторони очікують p-значення; звертайтеся до Байєсівського коли хочете інтуїтивно зрозуміти ризикове рішення.
Плануйте спочатку
Чотири параметри визначають, як довго ви будете чекати. Менші ефекти коштують значно більше трафіку.
Необхідний розмір вибірки зростає з 1 / MDE²: зменшення ефекту, який ви хочете виявити, приблизно в чотири рази. трафік, який вам потрібен. Виявлення 10% відносного підвищення на 10% базовому рівні при 95%/80% займає близько 14,300 відвідувачів на варіацію. Виберіть найменше підвищення, яке дійсно змінить ваше рішення — не найменше, яке ви можете уявити.
Перша помилка
Чому "ми досягли 95%, відправляємо!" часто є помилковим.
Тихий вбивця
Коли ваш розподіл 50/50 не є 50/50, весь тест викликає підозру.
Ви планували рівний розподіл, але отримали 53/47 серед десятків тисяч відвідувачів. Ця нерівність статистично майже неможлива випадково — отже, щось не так: редирект, що втрачає користувачів, трафік ботів, помилка відстеження або дефектний рандомізатор. A тест на відповідність хі-квадрату вказує на це; якщо p-значення SRM падає нижче 0.01, не інтерпретуйте експеримент.
Уникайте цих
Помилки, які перетворюють експерименти на дорогі здогадки.
Методологія
Жодного чорного ящика. Кожна формула з вказаним джерелом — перевірена на основі розрахованих числових випадків.
p = conversions / visitors. Тест використовує об'єднану стандартну помилку √(p̄(1−p̄)(1/n₁+1/n₂)) для отримання z, тоді p-значення з стандартного нормального. Довірчий інтервал використовує unpooled SE — ми показуємо обидва. (Wikipedia, NIST.)p, ефекту δта z-значень для довіри і потужності: n = (z_α·√(2p(1−p)) + z_β·√(p(1−p)+(p+δ)(1−p−δ)))² / δ², округлене вгору. Тоді тривалість = загальна ÷ щоденний трафік. (Еван Міллер.)Beta(1,1) попереднє, тому постеріорне є Beta(1+conversions, 1+failures). Ми обчислюємо точну ймовірність того, що постеріорне варіації перевищує контрольне, плюс очікувані втрати. (Байєсівські формули Евана Міллера.)Посилання
Авторитетні методи та стандарти, що стоять за математикою на цій сторінці.
FAQ
Значущість, розмір вибірки, Байєсівський підхід та підводні камені — пояснено простими словами.
Глосарій
Концепції, що стоять за калькулятором — що вони означають і чому це важливо.
Найшвидша "переможна варіація" часто полягає просто в швидшому відповіданні відвідувачам. sem.chat додає AI чат-агента та голосового агента на ваш сайт, який відповідає на запитання 24/7, захоплює потенційних клієнтів і бронює дзвінки — підвищення конверсії, яке ви можете виміряти за допомогою калькулятора вище. Спробуйте безкоштовно.
Спробуйте sem.chat Free