Überprüfen Sie die statistische Signifikanz, planen Sie Ihre Stichprobengröße und Dauer oder führen Sie einen Bayes'schen Test durch – drei Rechner in einem. Free, sofort, keine Anmeldung.
Ihre Testergebnisse
Einstellungen
Plane Ihren Test
Bayesianischer Modus beantwortet "Wie hoch ist die Wahrscheinlichkeit, dass die Variation tatsächlich besser ist?" basierend auf den oben genannten Konversionszahlen, unter Verwendung eines Beta(1,1) Priors.
Was messen Sie?
Kontinuierliche Metriken (Umsatz, durchschnittlicher Bestellwert) verwenden den Welch's t-Test anstelle des Proportions-z-Tests.
Stichprobengrößen stammen aus den oben genannten Besucherfeldern für Kontrolle / Variation.
Mehrere Variationen & SRM
Ein Beispiel für einen Verhältnisfehler (SRM) Chi-Quadrat-Test zeigt an, wenn Ihre tatsächliche Aufteilung nicht stimmt — ein Zeichen für ein fehlerhaftes Experiment.
Erweiterte Planung
Bayes'sche Einstellungen
Die Region praktischer Äquivalenz (ROPE) ist der Bereich um "keinen Unterschied", der als Unentschieden behandelt wird und die Entscheidung Schlimmer / Gleich / Besser unterstützt.
A/B-Test-Ergebnis
Der schattierte Bereich ist der p-Wert; der Marker ist Ihr z-Score. Je weiter in der Verteilung, desto unwahrscheinlicher ist das Ergebnis Zufall.
Wenn dieses Intervall 0 ausschließt, ist der Unterschied auf Ihrem Konfidenzniveau signifikant.
Die erforderliche Stichprobengröße wächst, während der Effekt, den Sie nachweisen möchten, kleiner wird (≈ proportional zu 1/MDE²). Ihr gewähltes MDE ist markiert.
Wo die wahre Konversionsrate jeder Variante wahrscheinlich liegt — je weniger sich die beiden überschneiden, desto klarer der Gewinner.
Wahrscheinlichkeit, dass die Variation signifikant schlechter, praktisch gleichwertig (innerhalb des ROPE) oder signifikant besser ist.
| Schritt | Wert |
|---|
| Annahme / Eingabe | Wert |
|---|
Dieser kostenlose A/B-Test-Rechner führt die drei Aufgaben aus, die jedes Experiment benötigt, an einem Ort: sagt Ihnen, ob ein abgeschlossener Test ein echter Gewinner (statistische Signifikanz) ist, plant wie viele Besucher und Tage Sie benötigen, bevor Sie beginnen, und führt einen Bayesian "Chance zu gewinnen", wenn Sie lieber in Wahrscheinlichkeiten als in p-Werten denken.
Wählen Sie einen Modus, geben Sie Ihre Zahlen ein, klicken Sie auf Berechnen — alles aktualisiert sich sofort und Ihre Daten verlassen niemals Ihren Browser. Jeder Standard (95% Konfidenz, 80% Power, z = 1,96) ist ein dokumentierter statistischer Standard, der unten zitiert wird.
So funktioniert es
Kein Konto, keine E-Mail, keine Limits — nur rigorose Statistiken, die lesbar gemacht werden.
"Hat mein Test gewonnen?" für einen abgeschlossenen Test, "Plane meinen Test" um einen vor dem Start zu dimensionieren, oder "Bayesian" für eine Chance zu gewinnen. Ein Tool, drei Aufgaben.
Besucher und Konversionen für jede Variante oder eine Basisrate und den Ziel-Effekt. Wechseln Sie zu Erweitert für Umsatzkennzahlen, SRM und mehr.
Erhalten Sie einen klaren Gewinneraufruf in einfacher Sprache sowie den p-Wert, das Konfidenzintervall, die Stichprobengröße oder die Chance zu gewinnen — und die Diagramme, die es offensichtlich machen.
Die Standards hinter der Mathematik
Dies sind die konventionellen Schwellenwerte, auf die dieser Rechner standardmäßig zurückgreift – jeder ist ein dokumentierter statistischer Standard, keine Erfindung.
Warum es wichtig ist
Die meisten "gewinnenden" Tests, die veröffentlicht werden, waren nie signifikant. Die Mathematik trennt eine echte Verbesserung von zufälligem Rauschen.
Ein Anstieg von 20% bei kleinen Zahlen ist oft purer Zufall. Die Signifikanz sagt Ihnen, ob der Unterschied real ist, bevor Sie ihn für alle ausrollen.
Die Größe des Tests im Voraus festzulegen, sagt dir, wann du genug Daten hast – damit du weder Wochen verschwendest noch sofort aufhörst, nur weil es gut aussieht.
Das Konfidenzintervall und der bayesianische erwartete Verlust sagen dir nicht nur „ist es besser?“, sondern auch „wie viel könnte ich gewinnen oder verlieren, wenn ich falsch liege?“
Teile einen Link, damit PM, Design und Daten dasselbe Urteil und CI sehen – weniger „aber es sah so aus, als hätte es gewonnen“-Debatten im Nachhinein.
Der Kern
Es ist ein z-Test. Hier ist das Ganze, mit dem kanonischen Beispiel eingebaut.
Der z-Score entspricht einem p-Wert von 0,035 — eine 3,5% Chance, eine so große Lücke zufällig zu sehen — also bist du 96,5% zuversichtlich, was die 95%-Hürde überwindet. (Kontrolle 10% vs Variation 13%, jeweils 1.000 Besucher.)
Der Hypothesentest geht davon aus, dass die Nullhypothese wahr ist – dass beide Raten gleich sind – also pools er die beiden Stichproben in eine gemeinsame Rate, um den Standardfehler und den z-Wert zu berechnen. Dies ist der klassische z-Test für zwei Anteile (Wikipedia / NIST).
Das Konfidenzintervall geht nicht davon aus, dass die Raten gleich sind, daher verwendet es die eigene Varianz jeder Rate – den unpooled Standardfehler. Die meisten Rechner verstecken dies; unserer zeigt beides, weil es wichtig ist, den richtigen zu verwenden.
Lass dich nicht täuschen
Der häufigste Fehler bei der Auswertung von A/B-Tests. Das gleiche Ergebnis, zwei sehr unterschiedlich aussehende Zahlen.
Die rohe Differenz zwischen den beiden Raten: 13% − 10% = 3pp. Das ist es, womit Statistiker arbeiten und was das Konfidenzintervall berichtet. Es kann nicht aufgebläht werden.
Die Differenz als Anteil der Basislinie: 3pp ÷ 10% = 30%. Marketingüberschriften lieben diese größere Zahl — aber "+30%" und "+3pp" beschreiben denselben Test.
Überprüfen Sie immer, welche Zahl ein Tool (oder ein Anbieter) angibt. Dieser Rechner zeigt beide, jedes Mal.
Zwei Linsen
Sie beantworten subtil unterschiedliche Fragen. Beide sind gültig; dieses Tool gibt Ihnen beide.
Antworten: "Wenn es keinen echten Unterschied gäbe, wie überraschend sind diese Daten?" Ein niedriger p-Wert bedeutet, dass das Ergebnis unwahrscheinlich durch Zufall zustande gekommen wäre. Vertraut, weit verbreitet und was mit "statistischer Signifikanz" gemeint ist — aber leicht fehlzuinterpretieren und empfindlich gegenüber Einblicken.
Beantworte die Frage, die du tatsächlich hast: Wie hoch ist die Wahrscheinlichkeit, dass die Variation besser ist, basierend auf den Daten? Bietet eine direkte Gewinnchance und einen erwarteten Verlust und geht eleganter mit der Überwachung um — auf Kosten der Wahl eines Priors.
Faustregel: Bericht Bedeutung wenn Stakeholder einen p-Wert erwarten; greifen Sie nach Bayesian wenn Sie eine intuitive risikobasierte Entscheidung treffen möchten.
Plan Zuerst
Vier Eingaben bestimmen, wie lange Sie warten müssen. Kleinere Effekte kosten dramatisch mehr Traffic.
Die erforderliche Stichprobengröße wächst mit 1 / MDE²: die Wirkung halbieren, die Sie ungefähr erkennen möchten Quadruple der Verkehr, den Sie benötigen. Ein 10% relativer Anstieg bei einer 10% Basislinie mit 95%/80% erfordert etwa 14.300 Besucher pro Variation. Wählen Sie den kleinsten Anstieg, der tatsächlich Ihre Entscheidung ändern würde — nicht den kleinsten, den Sie sich vorstellen können.
Der #1 Fehler
Warum "wir haben 95% erreicht, also versenden wir es!" oft falsch ist.
Ein stiller Killer
Wenn Ihre 50/50-Aufteilung nicht 50/50 ist, ist der gesamte Test verdächtig.
Sie hatten eine gleichmäßige Verteilung beabsichtigt, aber Sie erhielten 53/47 über Zehntausende von Besuchern. Dieses Ungleichgewicht ist statistisch fast unmöglich durch Zufall — also ist etwas kaputt: ein Redirect, der Benutzer abwirft, Bot-Traffic, ein Tracking-Fehler oder ein fehlerhafter Zufallsmechanismus. Ein Chi-Quadrat-Goodness-of-Fit-Test zeigt es an; wenn der SRM-p-Wert unter 0,01 fällt, interpretieren Sie das Experiment nicht.
Vermeiden Sie Diese
Die Fehler, die Experimente in teure Vermutungen verwandeln.
Methodologie
Keine Black Box. Jede Formel, mit der zitierten Quelle — überprüft anhand bearbeiteter numerischer Fälle.
p = conversions / visitors. Der Test verwendet einen gepoolten Standardfehler √(p̄(1−p̄)(1/n₁+1/n₂)) um zu erhalten z, dann der p-Wert aus der Standardnormalverteilung. Das Konfidenzintervall verwendet die unpooled SE — wir zeigen beides. (Wikipedia, NIST.)p, Effekt δund den z-Werten für Konfidenz und Power: n = (z_α·√(2p(1−p)) + z_β·√(p(1−p)+(p+δ)(1−p−δ)))² / δ², aufgerundet. Dann Dauer = total ÷ täglicher Verkehr. (Evan Miller.)Beta(1,1) Prior, sodass das Posterior Beta(1+conversions, 1+failures)ist. Wir berechnen die exakte Wahrscheinlichkeit, dass das Posterior der Variation das der Kontrolle übertrifft, plus den erwarteten Verlust. (Evan Millers Bayesian-Formeln.)Referenzen
Die maßgeblichen Methoden und Standards hinter den Berechnungen auf dieser Seite.
FAQ
Signifikanz, Stichprobengröße, Bayesian und die Fallstricke — in einfachem Englisch beantwortet.
Glossar
Die Konzepte hinter dem Rechner — was sie bedeuten und warum sie wichtig sind.
Die schnellste "Gewinnvariante" besteht oft einfach darin, die Besucher schneller zu beantworten. sem.chat fügt Ihrer Website einen AI Chat- und Sprachagenten hinzu, der Fragen rund um die Uhr beantwortet, Leads erfasst und Anrufe bucht – ein messbarer Conversion-Boost, den Sie mit dem obenstehenden Rechner ermitteln können. Probieren Sie es kostenlos aus.
Versuchen Sie sem.chat Free