Question 1

Що таке статистична значущість у A/B тестуванні, і що насправді означає p-значення?

Accepted Answer

Статистична значущість показує, наскільки ймовірно, що ваш результат є просто випадковим збігом. p-значення — це ймовірність побачити різницю принаймні такої величини, якщо варіація насправді не мала жодного ефекту (нульова гіпотеза). p-значення 0.05 означає 5% ймовірність, що результат є випадковим; на рівні довіри 95% ви вважаєте його значущим, коли p-значення падає нижче 0.05. Це не ймовірність того, що ваша варіація краща — це поширене неправильне тлумачення.

Question 2

Як мені прочитати результат цього калькулятора — що вважається переможцем?

Accepted Answer

У режимі значущості варіація виграє, коли тест досягає обраного вами рівня довіри (95% за замовчуванням) і довірчий інтервал для різниці не включає нуль. Інструмент показує коефіцієнти конверсії, підвищення, p-значення, відсоток довіри та простий вердикт. Результат, який не є значущим, означає або те, що немає реальної різниці, або що вам потрібно більше даних — це не означає, що варіація програла.

Question 3

Яка різниця між абсолютним підвищенням (відсоткові пункти) та відносним підвищенням (відсоткове зростання)?

Accepted Answer

Якщо ваш контрольний показник становить 10%, а варіація — 13%, абсолютне підвищення становить +3 процентних пункти (пп), а відносне підвищення — +30% — (13−10)/10. Маркетингові інструменти зазвичай акцентують увагу на більшому відносному числі; статистики працюють в абсолютних термінах. Плутанина між цими двома є найпоширенішою помилкою в A/B-тестуванні, тому цей калькулятор показує обидва.

Question 4

Чи слід мені використовувати односторонній чи двосторонній тест?

Accepted Answer

Використовуйте двосторонній тест (за замовчуванням), коли вам важливо, чи відрізняється варіація — краще чи гірше. Використовуйте односторонній тест лише тоді, коли ви ніколи не будете діяти на основі негативного результату і ви визначили напрямок до того, як побачили дані. Односторонній тест зменшує p-значення вдвічі, тому досягає значущості швидше, що саме по собі робить його легким для зловживання. Коли виникають сумніви, залишайтеся на двосторонньому тесті.

Question 5

Який рівень довіри мені слід вибрати — 90%, 95% чи 99%?

Accepted Answer

95% є стандартом галузі, приймаючи 5% помилкових позитивних результатів. Використовуйте 90% для змін з низьким ризиком, які легко скасувати, де важлива швидкість, і 99% для рішень з високими ставками або тих, що важко скасувати. Вищий рівень впевненості потребує більше даних для досягнення.

Question 6

Що таке статистична потужність і чому 80% є стандартом?

Accepted Answer

Потужність — це ймовірність того, що ваш тест виявить реальний ефект заданого розміру, коли він існує — один мінус ймовірність хибно-негативного результату. Зазвичай приймається 80%, що означає, що якщо ефект реальний, ви виявите його 80% часу і пропустите 20%. Вища потужність, така як 90%, є безпечнішою, але потребує більшого обсягу вибірки.

Question 7

Що таке Мінімально Виявлений Ефект (MDE) і як його вибрати?

Accepted Answer

MDE — це найменше покращення, яке ви хочете, щоб тест зміг виявити. Менші MDE вимагають значно більшого трафіку — розмір вибірки зростає з оберненою пропорцією до квадрата MDE — тому виберіть найменше підвищення, яке насправді змінить ваше рішення, а не нереалістично мале. Загальним стандартним початковим значенням є 20% відносний MDE.

Question 8

Скільки відвідувачів (розмір вибірки) мені потрібно?

Accepted Answer

Це залежить від вашої базової конверсії, вашого MDE, рівня довіри та потужності. Режим розрахунку розміру вибірки обчислює точну кількість відвідувачів на варіацію, використовуючи стандартну формулу потужності для двох пропорцій — наприклад, підвищення базової конверсії на 10% відносно на 10% (до 11%) при 95% довірі та 80% потужності потребує близько 14,300 відвідувачів на варіацію.

Question 9

Як довго я повинен проводити свій тест, і як розраховується тривалість?

Accepted Answer

Тривалість = необхідний загальний розмір вибірки поділений на вашу щоденну кількість відвідувачів. Введіть вашу середню щоденну відвідуваність у режимі вибірки, і інструмент поверне кількість днів. Запускайте на цілий тиждень, щоб усереднити ефекти днів тижня, і не зупиняйтеся в момент, коли це виглядає значущим.

Question 10

Чи можу я зупинити свій тест рано, як тільки він досягне 95%? (проблема підглядання)

Accepted Answer

Ні. Постійна перевірка та зупинка в перший раз, коли ви бачите значущість, різко збільшує вашу частоту хибнопозитивних результатів — результат 95%, отриманий шляхом підглядання, може бути неправильним набагато більше ніж 5% часу. Визначте розмір вибірки заздалегідь і дотримуйтеся його, або використовуйте послідовний або байєсівський метод, призначений для моніторингу.

Question 11

Яка різниця між частотним та байєсівським підходами?

Accepted Answer

Частотний (модель p-значення та значущості) відповідає на питання, наскільки дивними є ці дані, якщо б не було жодної реальної різниці. Байєсівський підхід відповідає на більш інтуїтивне питання — яка ймовірність того, що варіація насправді краща, враховуючи дані. Байєсівський підхід надає прямий шанс на перемогу та очікувані втрати; частотний підхід надає p-значення та довірчий інтервал. Обидва підходи є дійсними, і цей інструмент пропонує обидва.

Question 12

У байєсівському режимі що означає ймовірність перемоги над контролем?

Accepted Answer

Це апостеріорна ймовірність того, що справжня конверсія варіації вища, ніж у контролю, враховуючи дані та неінформативний пріор Beta(1,1) — наприклад, 98% означає, що є 98% ймовірність, що варіація дійсно краща. Загальний поріг прийняття рішення становить 95%.

Question 13

Що таке очікуваний збиток (потенційний збиток) та ROPE?

Accepted Answer

Очікувані втрати — це середня сума коефіцієнта конверсії, якою ви пожертвуєте, якщо оберете варіант, і він виявиться гіршим — міра ризику. Ви запускаєте, коли очікувані втрати нижчі за малий поріг. ROPE, регіон практичної еквівалентності, — це діапазон навколо відсутності різниці (за замовчуванням 1%), в межах якого обидва варіанти вважаються фактично однаковими, що дозволяє приймати рішення Гірше / Еквівалентно / Краще.

Question 14

Що таке довірчий інтервал і чим він відрізняється від правдоподібного інтервалу?

Accepted Answer

95% довірчий інтервал (частотний) — це діапазон, який, при багаторазовому повторенні експерименту, міститиме істинну різницю 95% часу. 95% правдоподібний інтервал (байєсівський) — це діапазон, в якому істинне значення знаходиться з ймовірністю 95%, враховуючи ваші дані. Калькулятор показує довірчий інтервал для різниці в режимі значущості та правдоподібні інтервали в байєсівському режимі.

Question 15

Що таке Sample Ratio Mismatch (SRM) і що мені робити?

Accepted Answer

SRM — це коли ваш розподіл трафіку не відповідає вашим намірам — наприклад, ви хотіли 50/50, але отримали 53/47 при високому обсязі. Інструмент виконує перевірку хі-квадрат; негативний результат (p нижче 0.01) сигналізує про порушену рандомізацію, перенаправлення або упередженість ботів, або проблеми з відстеженням. Якщо SRM не вдається, не інтерпретуйте тест — виправте причину і повторіть.

Question 16

Чому калькулятор попереджає мене, коли у мене занадто мало конверсій або відвідувачів?

Accepted Answer

z-тест спирається на нормальне наближення, яке не працює при дуже малих кількостях конверсій, приблизно менше 5 до 10 успіхів або невдач на клітинку. При розріджених даних p-значення є ненадійним, тому інструмент позначає це і радить зібрати більше даних перед тим, як довіряти вердикту.

Question 17

Чи можу я використовувати це для доходу, середньої вартості замовлення або метрик, що не пов'язані з конверсією?

Accepted Answer

Так. У розширеному режимі змініть тип метрики на безперервний і введіть середнє, стандартне відхилення та розмір вибірки для кожної варіації. Інструмент потім виконує t-тест Уелча, який обробляє нерівні дисперсії, замість тесту пропорцій z. Більшість калькуляторів A/B обробляють лише бінарні перетворення.

Question 18

Чи підтримує він більше ніж два варіанти (A/B/n)?

Accepted Answer

Так. Додайте варіації в розширеному режимі, і інструмент порівнює кожну з контрольними даними, застосовуючи корекцію множинних порівнянь (Бонферроні або Сідака), оскільки тестування кількох варіантів одночасно підвищує ймовірність помилкового переможця, якщо ви не коригуєте.

A/B Тест Калькулятор

Калькулятор A/B тестів — sem.chat

📊 Ваш результат

Наскільки далеко у хвості ваш результат?

95% довірчий інтервал для різниці

Статистичні деталі

Чому менші ефекти коштують більше трафіку

Постеріорні розподіли

Decision: Гірше / Еквівалентно / Краще

Від тестових даних до чіткого рішення за три кроки

Виберіть свій режим

Введіть свої числа

Прочитайте вердикт

Числа, які використовує кожен A/B тест

Гарний приріст нічого не означає без статистики

Уникайте хибних переможців

Не бігайте вічно (або не зупиняйтеся занадто рано)

Кількісно оцініть ризик

Узгодьте команду

Як розраховується значущість

Чому два різні стандартні похибки?

Об'єднана СЕ для тесту

Необ'єднана СЕ для інтервалу

Абсолютне проти Відносного Зростання

+3 процентних пункти абсолютно

+30% відносний приріст

Частотний проти Байєсівського — який використовувати?

Частотний p-значення

Байєсівський шанс перевершити

Розмір вибірки, потужність та MDE → Тривалість

Проблема підглядання

Несумісність співвідношення вибірки (SRM)

поширених помилок A/B тестування

Як працює калькулятор

Числа, які він повідомляє

Джерела та подальше читання

Супутні калькулятори від sem.chat

Часто задавані питання

Терміни A/B тестування, простими словами

Оптимізація вашої конверсії?