A/B Тест Калькулятор

Перевірте статистичну значущість, сплануйте розмір вибірки та тривалість, або проведіть байєсівський тест — три калькулятори в одному. Free, миттєво, без реєстрації.

Байєсівський режим відповідає на питання "яка ймовірність, що варіація насправді краща?" на основі тих же чисел конверсії вище, використовуючи Beta(1,1) апріорі.

Безперервні метрики (дохід, середня вартість замовлення) використовують t-тест Уелча замість z-тесту пропорцій.

Тест хі-квадрату на невідповідність співвідношення (SRM) вказує на те, що ваше фактичне розподілення відрізняється — ознака зламаного експерименту.

Регіон практичної еквівалентності (ROPE) — це смуга навколо "немає різниці", яка розглядається як нічия, що підтримує рішення Гірше / Еквівалентно / Краще.

Для освітнього використання. Цей калькулятор застосовує стандартні статистичні методи (тест z для двох пропорцій, аналіз потужності та Байєсівська модель Бета-Біноміального розподілу) до введених вами чисел — це допоміжний засіб для прийняття рішень, а не гарантія.. Результати припускають правильно рандомізовані, незалежні вибірки та один фіксований аналіз; реальні експерименти можуть бути під впливом підглядання, новизняних ефектів, сезонності, невідповідності співвідношення вибірок та помилок відстеження. Використовуйте це для прийняття рішення, а не для заміни надійного дизайну експерименту.

Цей безкоштовний A/B тестовий калькулятор виконує три завдання, які потрібні кожному експерименту, в одному місці: повідомляє, чи завершений тест є справжнім переможцем (статистична значущість), планує скільки відвідувачів і днів вам знадобиться перед початком, і проводить Байєсівський "шанс перемогти", коли ви віддаєте перевагу думати в ймовірностях, а не в p-значеннях.

Виберіть режим, введіть свої числа, натисніть Розрахувати — все оновлюється миттєво, і ваші дані ніколи не залишають ваш браузер. Кожен стандарт (95% довіра, 80% потужність, z = 1.96) є задокументованим статистичним стандартом, наведено нижче.

Від тестових даних до чіткого рішення за три кроки

Без облікового запису, без електронної пошти, без обмежень — лише строгі статистичні дані, які легко читати.

1

Виберіть свій режим

"Чи виграв мій тест?" для завершеного тесту, "Спланувати мій тест" для визначення розміру перед запуском, або "Байєсівський" для оцінки ймовірності перемоги. Один інструмент, три завдання.

2

Введіть свої числа

Відвідувачі та конверсії для кожної варіації, або базова ставка та цільовий ефект. Перейдіть до Розширеного для показників доходу, SRM та іншого.

3

Прочитайте вердикт

Отримайте переможця на зрозумілій мові плюс p-значення, довірчий інтервал, розмір вибірки або ймовірність перемоги — і графіки, які роблять це очевидним.

Числа, які використовує кожен A/B тест

Це звичайні пороги, до яких цей калькулятор за замовчуванням налаштований — кожен з них є документованим статистичним стандартом, а не вигадкою.

95%
стандартний рівень довіри — ви приймаєте 5% ймовірність хибнопозитивного результату
Wikipedia / NIST
80%
стандартна статистична потужність — 80% ймовірність виявити реальний ефект, якщо він існує
VWO / Evan Miller
z = 1.96
двостороннє критичне значення при 95% довірі, використовується в z-тесті та інтервалі
Стандартний нормальний
Beta(1,1)
неінформативний попередній розподіл, з якого починає байєсівська модель для кожної ставки конверсії
Evan Miller

Гарний приріст нічого не означає без статистики

Більшість "переможних" тестів, які надсилаються, ніколи не були значущими. Математика відокремлює реальне покращення від випадкового шуму.

Уникайте хибних переможців

Приріст на 20% при малих числах часто є чистим випадком. Значущість показує, чи є різниця реальною, перш ніж ви впровадите її для всіх.

Не бігайте вічно (або не зупиняйтеся занадто рано)

Визначення розміру тесту на початку дозволяє зрозуміти, коли у вас буде достатньо даних — щоб ви не витрачали тижні або не завершували тест, як тільки він виглядає добре.

Кількісно оцініть ризик

Довірчий інтервал і байєсівський очікуваний збиток показують вам не лише "чи краще це?", а й "наскільки я можу виграти або втратити, якщо помилюся?"

Узгодьте команду

Поділіться посиланням, щоб PM, дизайн та дані бачили один і той же вердикт і CI — менше дебатів "але ж здавалося, що це виграло" після факту.

Як розраховується значущість

Це один z-тест. Ось усе, з канонічним прикладом, вбудованим у нього.

Рівень B − Рівень A
+3.0pp
÷
Об'єднана стандартна помилка
0.0143
=
Z-оцінка
2.10

Z-оцінка відповідає p-значенню 0.035 — 3.5% шанс побачити таку велику різницю випадково — отже, ви 96.5% впевнені, що перевищує 95% бар'єр. (Контроль 10% проти варіації 13%, по 1,000 відвідувачів кожен.)

Чому два різні стандартні похибки?

Об'єднана СЕ для тесту

Гіпотетичний тест припускає, що нульова гіпотеза вірна — що обидві ставки рівні — тому він об'єднує обидва зразки в одну спільну ставку для обчислення стандартної похибки та z-оцінки. Це класичний z-тест для двох пропорцій (Wikipedia / NIST).

Необ'єднана СЕ для інтервалу

Довірчий інтервал не припускає, що ставки рівні, тому він використовує власну дисперсію кожної ставки — необ'єднану стандартну похибку. Більшість калькуляторів приховують це; наш показує обидва, тому що використання правильного важливо.

проти

Абсолютне проти Відносного Зростання

Найпоширеніша помилка в A/B-тестуванні. Один і той же результат, два дуже різні числа.

Контроль 10% Варіація 13%

+3 процентних пункти абсолютно

Сирийний розрив між двома ставками: 13% − 10% = 3пп. Це те, чим займаються статистики, і що відображає довірчий інтервал. Його не можна роздувати.

+30% відносний приріст

Розрив у відсотках від базового рівня: 3пп ÷ 10% = 30%. Заголовки маркетингу люблять це більше число — але "+30%" і "+3пп" описують один і той же тест.

проти

Завжди перевіряйте, який з них цитує інструмент (або постачальник). Цей калькулятор показує обидва, щоразу.

Частотний проти Байєсівського — який використовувати?

Вони відповідають на дещо різні запитання. Обидва є дійсними; цей інструмент надає вам обидва.

Частотний p-значення

Відповідає: "Якщо б не було реальної різниці, наскільки дивними є ці дані?" Низьке p-значення означає, що результат навряд чи був би випадковим. Знайоме, широко повідомлене, і те, на що посилається "статистична значущість" — але легко неправильно інтерпретувати і чутливе до підглядання.

Байєсівський шанс перевершити

Відповідає на питання, яке ви насправді маєте: "Яка ймовірність, що варіація краща, враховуючи дані?" Надає прямий шанс на перемогу та очікувані втрати, і більш граціозно справляється з моніторингом — за рахунок вибору попереднього розподілу.

проти

Правило великого пальця: повідомляйте значущість коли зацікавлені сторони очікують p-значення; звертайтеся до Байєсівського коли хочете інтуїтивно зрозуміти ризикове рішення.

Розмір вибірки, потужність та MDE → Тривалість

Чотири параметри визначають, як довго ви будете чекати. Менші ефекти коштують значно більше трафіку.

Базовий рівень + MDE + потужність та впевненість відвідувачів / варіація ÷ щоденний трафік дні для проведення

Необхідний розмір вибірки зростає з 1 / MDE²: зменшення ефекту, який ви хочете виявити, приблизно в чотири рази. трафік, який вам потрібен. Виявлення 10% відносного підвищення на 10% базовому рівні при 95%/80% займає близько 14,300 відвідувачів на варіацію. Виберіть найменше підвищення, яке дійсно змінить ваше рішення — не найменше, яке ви можете уявити.

Проблема підглядання

Чому "ми досягли 95%, відправляємо!" часто є помилковим.

Повторні перевірки збільшують кількість хибнопозитивних результатів. p-значення тесту коливається в міру надходження даних. Якщо ви зупинитеся в перший раз, коли воно впаде нижче 0.05, ви вибираєте шум — "95% значущий" результат, отриманий шляхом підглядання, може бути неправильним значно частіше, ніж 5% часу.
Виправлення: визначте розмір вибірки заздалегідь і дотримуйтеся його. Використовуйте режим розміру вибірки, щоб встановити фіксований горизонт, а потім оцініть один раз. Якщо вам потрібно моніторити безперервно, використовуйте послідовний метод або байєсівський режим, який є більш стійким до повторних переглядів.

Несумісність співвідношення вибірки (SRM)

Коли ваш розподіл 50/50 не є 50/50, весь тест викликає підозру.

Ви планували рівний розподіл, але отримали 53/47 серед десятків тисяч відвідувачів. Ця нерівність статистично майже неможлива випадково — отже, щось не так: редирект, що втрачає користувачів, трафік ботів, помилка відстеження або дефектний рандомізатор. A тест на відповідність хі-квадрату вказує на це; якщо p-значення SRM падає нижче 0.01, не інтерпретуйте експеримент.

Що робить перевірка. Розширений режим порівнює ваш фактичний розподіл з запланованим за допомогою тесту хі-квадрату та повідомляє p-значення, щоб невідповідність не могла пройти повз вас.
Що робити, якщо це не вдається. Не довіряйте результату і не "виправляйте" його, переваговуючи. Finзнайдіть корінну причину — редиректи, боти, відстеження, рандомізація — виправте це і повторно запустіть тест без помилок.

поширених помилок A/B тестування

Помилки, які перетворюють експерименти на дорогі здогадки.

1
Зупинка на ранньому етапі при першому "95%." Проблема підглядання — зафіксуйте розмір вибірки перед початком і оцініть один раз.
2
Вибірки, які занадто малі. Кілька сотень відвідувачів не можуть виявити невеликий підйомник; спочатку визначте розмір тесту, або ви читаєте шум.
3
Ігнорування невідповідності співвідношення зразків. Скошене розподілення означає зламаний тест; перевірте це перед тим, як читати результат.
4
Називати нічию програшем. "Не значущий" означає невизначений, а не "B програв" — вам може просто знадобитися більше даних.
5
Багато варіантів, жодної корекції. Протестуйте п'ять варіацій, і шанси на випадковий "переможець" зростають — застосуйте корекцію Бонферроні або Шідака.
6
Запуск менше тижня або над новизною. Покрийте цілі тижні для ефектів дня тижня і стежте за новизною, яка зникає.

Як працює калькулятор

Жодного чорного ящика. Кожна формула з вказаним джерелом — перевірена на основі розрахованих числових випадків.

Значущість
Тест з двома пропорціями z. Коефіцієнти конверсії p = conversions / visitors. Тест використовує об'єднану стандартну помилку √(p̄(1−p̄)(1/n₁+1/n₂)) для отримання z, тоді p-значення з стандартного нормального. Довірчий інтервал використовує unpooled SE — ми показуємо обидва. (Wikipedia, NIST.)
Розмір вибірки
Точна формула потужності. Від базового рівня p, ефекту δта z-значень для довіри і потужності: n = (z_α·√(2p(1−p)) + z_β·√(p(1−p)+(p+δ)(1−p−δ)))² / δ², округлене вгору. Тоді тривалість = загальна ÷ щоденний трафік. (Еван Міллер.)
Байєсівський
Бета-Біноміальний. Кожна ставка отримує Beta(1,1) попереднє, тому постеріорне є Beta(1+conversions, 1+failures). Ми обчислюємо точну ймовірність того, що постеріорне варіації перевищує контрольне, плюс очікувані втрати. (Байєсівські формули Евана Міллера.)

Числа, які він повідомляє

P-значення & довіра
Ймовірність результату за нульової гіпотези, і 1 − це.
Довірчий інтервал
Правдоподібний діапазон для справжньої різниці; виключає 0, коли значущий.
Спостережувана потужність
Показано в Розширеному — з застереженням, що пост-хок потужність обговорюється.
SRM & низькоданих охоронці
Позначає зламаний розподіл або занадто розріджені дані, що роблять вердикт ненадійним.
Примітка щодо точності. Це стандартні, широко використовувані статистичні методи, і результати цього інструменту були перевірені на основі прикладів та довідкових калькуляторів (Еван Міллер, ABTestGuide). Проте калькулятор не може бачити дизайн вашого експерименту: він припускає правильно рандомізовані, незалежні вибірки, які аналізуються один раз на фіксованому горизонті. Підглядання, новизняні ефекти, сезонність, невідповідність співвідношення вибірок та помилки відстеження можуть знецінити в іншому випадку "значущий" результат. Використовуйте його для прийняття рішення, а не для заміни надійного дизайну експерименту. sem.chat не надає статистичного консалтингу.

Джерела та подальше читання

Авторитетні методи та стандарти, що стоять за математикою на цій сторінці.

Тест z для двох пропорцій — об'єднана SE для тесту, не об'єднана для інтервалу: Wikipedia та NIST/SEMATECH e-Handbook §7.2.4.
Розмір вибірки та значущість — точна формула потужності та правило 16·p(1−p)/δ²: Еван Міллер, "Калькулятор розміру вибірки" та Чудові A/B інструменти.
Байєсівське A/B тестування — постеріори Beta(1,1) та закрита форма ймовірності перевершити: Еван Міллер, "Формули для Байєсівського A/B тестування".
Інструменти практиків та налаштування за замовчуванням — конвенції довіри/потужності, SRM та ROPE: ABTestGuide та VWO.

Супутні калькулятори від sem.chat

Часто задавані питання

Значущість, розмір вибірки, Байєсівський підхід та підводні камені — пояснено простими словами.

Статистична значущість показує, наскільки ймовірно, що ваш результат є просто випадковим збігом. p-значення — це ймовірність побачити різницю принаймні таку велику, якщо варіація насправді не мала жодного ефекту (нульова гіпотеза). p-значення 0.05 означає 5% ймовірність того, що результат є випадковістю; на рівні довіри 95% ви вважаєте його значущим, коли p-значення знижується нижче 0.05. Це не ймовірність того, що ваша варіація краща — це поширене неправильне тлумачення.
У режимі значущості варіація виграє, коли тест досягає обраного вами рівня довіри (95% за замовчуванням), і довірчий інтервал для різниці не включає нуль. Інструмент показує коефіцієнти конверсії, приріст, p-значення, відсоток довіри та простий вердикт. Результат, який не є значущим, означає або те, що немає реальної різниці, або вам потрібно більше даних — не те, що варіація програла.
Якщо ваш контрольний показник становить 10%, а варіація — 13%, абсолютне підвищення становить +3 процентних пункти (пп), а відносне підвищення — +30% — (13−10)/10. Маркетингові інструменти зазвичай акцентують увагу на більшому відносному числі; статистики працюють в абсолютних термінах. Плутанина між цими двома є найпоширенішою помилкою в A/B-тестуванні, тому цей калькулятор показує обидва.
Використовуйте двосторонній тест (за замовчуванням), коли вам важливо, чи відрізняється варіація — краще чи гірше. Використовуйте односторонній тест лише тоді, коли ви ніколи не будете діяти на основі негативного результату і ви визначили напрямок до того, як побачили дані. Односторонній тест зменшує p-значення вдвічі, тому досягає значущості швидше, що саме по собі робить його легким для зловживання. Коли сумніваєтеся, залишайтеся з двостороннім тестом.
95% є стандартом галузі, приймаючи 5% рівень хибнопозитивних результатів. Використовуйте 90% для низькоризикових, легко оборотних змін, де важлива швидкість, і 99% для рішень з високими ставками або тих, що важко скасувати. Вищий рівень довіри потребує більше даних для досягнення.
Потужність — це ймовірність того, що ваш тест виявить реальний ефект заданого розміру, коли він існує — один мінус ймовірність хибно-негативного результату. Звичайно, це 80%, що означає, що якщо ефект реальний, ви виявите його 80% часу і пропустите 20%. Вища потужність, така як 90%, є безпечнішою, але потребує більшого обсягу вибірки.
MDE — це найменше покращення, яке ви хочете, щоб тест зміг виявити. Менші MDE вимагають значно більшого трафіку — обсяг вибірки зростає з оберненою пропорцією до квадрату MDE — тому вибирайте найменше підвищення, яке насправді змінить ваше рішення, а не нереалістично мале. Загальною точкою відліку є 20% відносний MDE.
Це залежить від вашого базового коефіцієнта конверсії, вашого MDE, рівня впевненості та потужності. Режим розрахунку розміру вибірки обчислює точну кількість відвідувачів на варіацію, використовуючи стандартну формулу потужності для двох пропорцій — наприклад, підвищення базового рівня на 10% відносно 10% (до 11%) при 95% впевненості та 80% потужності потребує близько 14,300 відвідувачів на варіацію.
Тривалість = необхідний загальний розмір вибірки, поділений на вашу щоденну кількість допустимих відвідувачів. Введіть свій середній щоденний трафік у режимі розрахунку розміру вибірки, і інструмент поверне кількість днів. Проводьте тест протягом цілих тижнів, щоб усереднити ефекти дня тижня, і не зупиняйтеся в момент, коли це виглядає значущим.
Ні. Постійна перевірка та зупинка в перший раз, коли ви бачите значущість, різко збільшує ваш рівень хибнопозитивних результатів — результат 95%, отриманий шляхом підглядання, може бути неправильним набагато більше ніж 5% часу. Визначте свій розмір вибірки заздалегідь і дотримуйтеся його, або використовуйте послідовний або байєсівський метод, розроблений для моніторингу.
Частотний (режим p-значення та значущості) відповідає на питання, наскільки дивними є ці дані, якщо немає жодної реальної різниці. Байєсівський відповідає на більш інтуїтивне питання — яка ймовірність того, що варіація насправді краща, враховуючи дані. Байєсівський режим надає прямий шанс на перемогу та очікувані втрати; частотний надає p-значення та довірчий інтервал. Обидва є дійсними, і цей інструмент пропонує обидва.
Це постеріорна ймовірність того, що справжня конверсія варіації вища, ніж у контролю, враховуючи дані та неінформативний пріор Beta(1,1) — наприклад, 98% означає, що є 98% ймовірність, що варіація дійсно краща. Загальний поріг прийняття рішення становить 95%.
Очікувані втрати — це середня кількість коефіцієнта конверсії, якою ви пожертвуєте, якщо оберете варіант, і він виявиться гіршим — міра ризику. Ви запускаєте, коли очікувані втрати нижчі за маленький поріг. ROPE, регіон практичної еквівалентності, — це смуга навколо відсутності різниці (за замовчуванням 1%), в межах якої обидва варіанти вважаються фактично однаковими, що дозволяє приймати рішення Гірше / Еквівалентно / Краще.
Довірчий інтервал 95% (частотний) — це діапазон, який, при багатьох повтореннях експерименту, міститиме істинну різницю 95% часу. Достовірний інтервал 95% (байєсівський) — це діапазон, в якому істинне значення знаходиться з ймовірністю 95% на основі ваших даних. Калькулятор показує довірчий інтервал для різниці в режимі значущості та достовірні інтервали в байєсівському режимі.
SRM — це коли ваш розподіл трафіку не відповідає вашим намірам — наприклад, ви хотіли 50/50, але отримали 53/47 при високому обсязі. Інструмент виконує перевірку хі-квадрат; невдалий результат (p нижче 0.01) сигналізує про зламану рандомізацію, перенаправлення або упередженість ботів, або проблеми з відстеженням. Якщо SRM не вдається, не інтерпретуйте тест — виправте причину і повторіть.
Z-тест спирається на нормальне наближення, яке не працює при дуже малих кількостях конверсій, приблизно менше 5 до 10 успіхів або невдач на клітинку. При розріджених даних p-значення ненадійне, тому інструмент позначає це і радить зібрати більше даних перед тим, як довіряти вердикту.
Так. У розширеному режимі змініть тип метрики на безперервний і введіть середнє, стандартне відхилення та розмір вибірки на кожну варіацію. Інструмент потім виконує t-тест Уелча, який обробляє нерівні дисперсії, замість пропорційного z-тесту. Більшість A/B калькуляторів обробляють лише бінарні конверсії.
Так. Додайте варіації в Розширеному режимі, і інструмент порівнює кожну з контролем, застосовуючи корекцію для множинних порівнянь (Бонферроні або Сідака), оскільки тестування кількох варіантів одночасно підвищує ймовірність помилкового переможця, якщо ви не коригуєте.

Терміни A/B тестування, простими словами

Концепції, що стоять за калькулятором — що вони означають і чому це важливо.

Коефіцієнт конверсії
Пропорція відвідувачів, які конвертуються: конверсії поділені на відвідувачів.
Контроль vs варіація
Контроль (A) — це існуюча версія; варіація (B) — це зміна, яку ви тестуєте проти неї.
Абсолютне підвищення
Різниця між двома коефіцієнтами конверсії в процентних пунктах, наприклад, 13% мінус 10% дорівнює +3пп.
Відносне підвищення
Поліпшення у відсотках від базового рівня, наприклад, +3пп при базовому рівні 10% дорівнює +30%.
Нульова гіпотеза
За замовчуванням припущення, що варіація не має реального ефекту; тест намагається спростувати це.
P-значення
Ймовірність побачити різницю принаймні таку велику, якщо нульова гіпотеза є правильною.
Рівень значущості (альфа)
Швидкість хибнопозитивних результатів, яку ви приймаєте; 0.05 відповідає 95% впевненості.
Рівень впевненості
Один мінус альфа; наскільки ви хочете бути впевненими, перш ніж вважати результат реальним, зазвичай 95%.
Статистична потужність (1 - бета)
Ймовірність виявлення реального ефекту певного розміру; 80% є стандартом.
Помилка типу I та помилка типу II
Помилка типу I - це хибнопозитивний результат (вважати відсутність різниці реальною); помилка типу II - це хибнонегативний результат (пропустити реальну різницю).
Тест z для двох пропорцій
Тест, який стандартизує відстань між двома коефіцієнтами конверсії в z-оцінку для обчислення p-значення.
Об'єднана та не об'єднана стандартна помилка
Гіпотетичний тест використовує об'єднану стандартну помилку (припускаючи рівні ставки за нульової гіпотези); довірчий інтервал використовує не об'єднану стандартну помилку з власної дисперсії кожної ставки.
Довірчий інтервал
Частотний діапазон, ймовірно, що міститиме справжню різницю, наприклад, 95% довірчий інтервал.
Мінімальний виявлений ефект (MDE)
Найменше підвищення, яке запланований тест здатний виявити.
Розмір вибірки та тривалість тесту
Кількість відвідувачів на варіацію, необхідна для тесту, і скільки днів це займе при вашому трафіку.
Байєсівський постеріор / ймовірність перевершення
Ймовірність того, що справжня ставка варіації перевищує контрольну, враховуючи дані.
Достовірний інтервал, очікувані втрати та ROPE
Байєсівський діапазон для значення; середній ризик неправильного вибору; і діапазон практичної еквівалентності, що розглядається як відсутність різниці.
Несумісність співвідношення вибірки (SRM)
Нерівномірний розподіл трафіку в порівнянні з запланованим співвідношенням, що сигналізує про зламаний експеримент.
Проблема підглядання
Повторна перевірка результатів і зупинка на першому значущому моменті, що збільшує кількість хибнопозитивних результатів.

Оптимізація вашої конверсії?

Найшвидша "переможна варіація" часто полягає просто в швидшому відповіданні відвідувачам. sem.chat додає AI чат-агента та голосового агента на ваш сайт, який відповідає на запитання 24/7, захоплює потенційних клієнтів і бронює дзвінки — підвищення конверсії, яке ви можете виміряти за допомогою калькулятора вище. Спробуйте безкоштовно.

Спробуйте sem.chat Free
Скопійовано в буфер обміну!