Question 1

Was ist statistische Signifikanz in einem A/B-Test und was bedeutet ein p-Wert tatsächlich?

Accepted Answer

Die statistische Signifikanz sagt Ihnen, wie wahrscheinlich es ist, dass Ihr Ergebnis nur durch Zufall zustande gekommen ist. Der p-Wert ist die Wahrscheinlichkeit, einen Unterschied zu sehen, der mindestens so groß ist, wenn die Variation tatsächlich keinen Effekt hatte (die Nullhypothese). Ein p-Wert von 0,05 bedeutet eine 5%ige Chance, dass das Ergebnis ein Zufall ist; bei einem Konfidenzniveau von 95% bezeichnen Sie es als signifikant, wenn der p-Wert unter 0,05 fällt. Es ist nicht die Wahrscheinlichkeit, dass Ihre Variation besser ist — das ist eine häufige Fehlinterpretation.

Question 2

Wie lese ich das Ergebnis dieses Rechners — was zählt als Gewinner?

Accepted Answer

Im Signifikanzmodus gewinnt die Variation, wenn der Test Ihr gewähltes Konfidenzniveau (standardmäßig 95%) erreicht und das Konfidenzintervall für die Differenz null ausschließt. Das Tool zeigt die Konversionsraten, den Anstieg, den p-Wert, den Konfidenzprozentsatz und ein einfaches Urteil an. Ein Ergebnis, das nicht signifikant ist, bedeutet entweder, dass es keinen echten Unterschied gibt oder dass Sie mehr Daten benötigen – nicht, dass die Variation verloren hat.

Question 3

Was ist der Unterschied zwischen absolutem Anstieg (Prozentpunkte) und relativem Anstieg (Prozentsteigerung)?

Accepted Answer

Wenn Ihre Kontrolle mit 10% konvertiert und die Variation mit 13%, beträgt der absolute Anstieg +3 Prozentpunkte (pp) und der relative Anstieg +30% — (13−10)/10. Marketing-Tools heben normalerweise die größere relative Zahl hervor; Statistiker arbeiten in absoluten Zahlen. Die Verwirrung zwischen den beiden ist das häufigste Missverständnis beim A/B-Testing, daher zeigt dieser Rechner beides.

Question 4

Sollte ich einen einseitigen oder einen zweiseitigen Test verwenden?

Accepted Answer

Verwenden Sie einen zweiseitigen Test (den Standard), wenn es Ihnen wichtig ist, ob die Variation unterschiedlich ist – besser oder schlechter. Verwenden Sie einen einseitigen Test nur, wenn Sie niemals auf ein negatives Ergebnis reagieren würden und Sie die Richtung festgelegt haben, bevor Sie die Daten gesehen haben. Ein einseitiger Test halbiert den p-Wert, sodass er schneller signifikant wird, was genau der Grund ist, warum er leicht missbraucht werden kann. Im Zweifelsfall bleiben Sie zweiseitig.

Question 5

Welches Konfidenzniveau sollte ich wählen – 90%, 95% oder 99%?

Accepted Answer

95 % ist der Branchenstandard, der eine Fehlerrate von 5 % akzeptiert. Verwenden Sie 90 % für risikoarme, leicht umkehrbare Änderungen, bei denen Geschwindigkeit wichtig ist, und 99 % für Entscheidungen mit hohen Einsätzen oder schwer rückgängig zu machenden Entscheidungen. Ein höheres Vertrauensniveau erfordert mehr Daten, um erreicht zu werden.

Question 6

Was ist statistische Power und warum ist 80% der Standard?

Accepted Answer

Die Power ist die Wahrscheinlichkeit, dass Ihr Test einen echten Effekt einer bestimmten Größe erkennt, wenn dieser vorhanden ist – eins minus die Falsch-Negativ-Rate. Die Konvention liegt bei 80 %, was bedeutet, dass Sie den Effekt, wenn er echt ist, in 80 % der Fälle erfassen und in 20 % der Fälle übersehen. Eine höhere Power von 90 % ist sicherer, erfordert jedoch eine größere Stichprobe.

Question 7

Was ist der minimale nachweisbare Effekt (MDE) und wie wähle ich einen aus?

Accepted Answer

MDE ist die kleinste Verbesserung, die der Test erkennen können soll. Kleinere MDEs erfordern dramatisch mehr Verkehr — die Stichprobengröße wächst mit dem Kehrwert des MDE zum Quadrat — also wähle die kleinste Steigerung, die tatsächlich deine Entscheidung ändern würde, nicht eine unrealistisch kleine. Ein gängiger Standardstartpunkt ist ein relativer MDE von 20 %.

Question 8

Wie viele Besucher (Stichprobengröße) benötige ich?

Accepted Answer

Es hängt von Ihrer Basis-Konversionsrate, Ihrem MDE, dem Konfidenzniveau und der Power ab. Der Modus zur Berechnung der Stichprobengröße ermittelt die genauen Besucher pro Variation unter Verwendung der standardmäßigen Zwei-Proportionen-Power-Formel — zum Beispiel benötigt eine Steigerung von 10% der Basis um relativ 10% (auf 11%) bei 95% Konfidenz und 80% Power etwa 14.300 Besucher pro Variation.

Question 9

Wie lange sollte ich meinen Test durchführen, und wie wird die Dauer berechnet?

Accepted Answer

Dauer = erforderliche Gesamtstichprobengröße geteilt durch Ihre täglichen berechtigten Besucher. Geben Sie Ihren durchschnittlichen täglichen Verkehr im Stichprobengrößenmodus ein, und das Tool gibt die Anzahl der Tage zurück. Führen Sie es über ganze Wochen aus, um die Effekte des Wochentags auszugleichen, und stoppen Sie nicht, sobald es signifikant aussieht.

Question 10

Kann ich meinen Test frühzeitig beenden, sobald er 95 % erreicht? (das Spickproblem)

Accepted Answer

Nein. Wiederholtes Überprüfen und das Stoppen beim ersten Anzeichen von Signifikanz erhöht dramatisch Ihre Rate an falsch-positiven Ergebnissen – ein 95%-Ergebnis, das durch einen Blick gefunden wurde, kann viel häufiger als 5% der Zeit falsch sein. Bestimmen Sie Ihre Stichprobengröße im Voraus und halten Sie sich daran, oder verwenden Sie eine sequentielle oder bayesianische Methode, die für das Monitoring entwickelt wurde.

Question 11

Was ist der Unterschied zwischen den frequentistischen und den bayesianischen Ansätzen?

Accepted Answer

Der Frequentist (der p-Wert und der Signifikanzmodus) beantwortet die Frage, wie überraschend diese Daten sind, wenn es keinen echten Unterschied gäbe. Der Bayesianer beantwortet die intuitivere Frage – wie hoch ist die Wahrscheinlichkeit, dass die Variation tatsächlich besser ist, basierend auf den Daten. Der Bayesianer gibt eine direkte Chance zu gewinnen und einen erwarteten Verlust an; der Frequentist gibt einen p-Wert und ein Konfidenzintervall an. Beide Ansätze sind gültig, und dieses Tool bietet beide.

Question 12

Im bayesianischen Modus, was bedeutet die Chance, die Kontrolle zu schlagen?

Accepted Answer

Es ist die posterior Wahrscheinlichkeit, dass die wahre Konversionsrate der Variation höher ist als die der Kontrolle, gegeben die Daten und einen uninformierten Beta(1,1) Prior – zum Beispiel bedeutet 98%, dass es eine 98%ige Chance gibt, dass die Variation tatsächlich besser ist. Ein gängiger Entscheidungsschwellenwert liegt bei 95%.

Question 13

Was ist erwarteter Verlust (potenzieller Verlust) und ROPE?

Accepted Answer

Der erwartete Verlust ist der durchschnittliche Betrag der Konversionsrate, den Sie aufgeben würden, wenn Sie die Variante wählen und sich herausstellt, dass sie schlechter ist – ein Risikomaß. Sie versenden, wenn der erwartete Verlust unter einem kleinen Schwellenwert liegt. ROPE, die Region praktischer Äquivalenz, ist ein Bereich um die Null-Differenz (Standard 1%), innerhalb dessen die beiden als effektiv gleich behandelt werden, was eine Entscheidung über Schlecht / Gleich / Besser ermöglicht.

Question 14

Was ist ein Konfidenzintervall im Vergleich zu einem glaubwürdigen Intervall?

Accepted Answer

Ein 95%-Konfidenzintervall (frequentistisch) ist ein Bereich, der bei vielen Wiederholungen des Experiments 95% der Zeit die wahre Differenz enthalten würde. Ein 95%-glaubwürdiges Intervall (Bayesianisch) ist ein Bereich, in dem der wahre Wert mit einer Wahrscheinlichkeit von 95% gegeben Ihre Daten liegt. Der Rechner zeigt das Konfidenzintervall für die Differenz im Signifikanzmodus und die glaubwürdigen Intervalle im Bayesianischen Modus an.

Question 15

Was ist Sample Ratio Mismatch (SRM) und was sollte ich tun?

Accepted Answer

SRM ist, wenn Ihre Verkehrsteilung nicht mit dem übereinstimmt, was Sie beabsichtigt haben — zum Beispiel wollten Sie 50/50, aber erhielten 53/47 bei hohem Volumen. Das Tool führt einen Chi-Quadrat-Test durch; ein fehlerhaftes Ergebnis (p unter 0,01) signalisiert eine fehlerhafte Randomisierung, Umleitung oder Bot-Bias oder Tracking-Probleme. Wenn SRM fehlschlägt, interpretieren Sie den Test nicht — beheben Sie die Ursache und führen Sie ihn erneut durch.

Question 16

Warum warnt mich der Rechner, wenn ich zu wenige Umwandlungen oder Besucher habe?

Accepted Answer

Der z-Test basiert auf einer normalen Annäherung, die bei sehr wenigen Konversionen, grob gesagt weniger als 5 bis 10 Erfolgen oder Misserfolgen pro Zelle, versagt. Bei spärlichen Daten ist der p-Wert unzuverlässig, daher kennzeichnet das Tool dies und rät, mehr Daten zu sammeln, bevor man dem Urteil vertraut.

Question 17

Kann ich dies für Einnahmen, den durchschnittlichen Bestellwert oder Nicht-Konversionsmetriken verwenden?

Accepted Answer

Ja. Im erweiterten Modus wechseln Sie den Metriktyp auf kontinuierlich und geben Sie den Mittelwert, die Standardabweichung und die Stichprobengröße pro Variation ein. Das Tool führt dann den Welch's t-Test durch, der mit ungleichen Varianzen umgeht, anstelle des Proportions-z-Tests. Die meisten A/B-Rechner behandeln nur binäre Umwandlungen.

Question 18

Unterstützt es mehr als zwei Variationen (A/B/n)?

Accepted Answer

Ja. Fügen Sie Variationen im erweiterten Modus hinzu, und das Tool vergleicht jede mit der Kontrolle, während eine Korrektur für Mehrfachvergleiche (Bonferroni oder Sidak) angewendet wird, da das Testen mehrerer Varianten gleichzeitig die Wahrscheinlichkeit eines falschen Gewinners erhöht, wenn Sie keine Anpassung vornehmen.

A/B-Test Rechner

A/B-Test-Rechner — sem.chat

📊 Ihr Ergebnis

Wie weit ist Ihr Ergebnis in der Verteilung?

95%-Konfidenzintervall für den Unterschied

Statistische Details

Warum kleinere Effekte mehr Traffic kosten

Posteriorverteilungen

Entscheidung: Schlechter / Gleichwertig / Besser

Von Testdaten zu einem klaren Ergebnis in drei Schritten

Wählen Sie Ihren Modus

Geben Sie Ihre Zahlen ein

Lesen Sie das Urteil

Die Zahlen, die jeder A/B-Test verwendet

Ein schöner Anstieg bedeutet nichts ohne die Statistiken

Vermeiden Sie falsche Gewinner

Laufe nicht ewig (oder höre nicht zu früh auf)

Quantifiziere das Risiko

Das Team ausrichten

Wie die Signifikanz berechnet wird

Warum zwei verschiedene Standardfehler?

Pooled SE für den Test

Unpooled SE für das Intervall

Absolute vs relative Steigerung

+3 Prozentpunkte absolut

+30% relative lift

Häufigkeitsstatistik vs Bayesianisch — Welche verwenden?

Häufigkeitsstatistik der p-Wert

Bayesianisch Chance zu gewinnen

Stichprobengröße, Power & MDE → Dauer

Das Peeking-Problem

Stichprobenverhältnis-Mismatch (SRM)

Häufigen A/B-Testfehler

Wie der Rechner funktioniert

Die Zahlen, die es berichtet

Quellen & Weiterführende Literatur

Verwandte Rechner von sem.chat

Häufig gestellte Fragen

A/B-Testbegriffe in einfacher Sprache

Optimieren Sie Ihre Konversionsrate?