A/B-Test Rechner

Überprüfen Sie die statistische Signifikanz, planen Sie Ihre Stichprobengröße und Dauer oder führen Sie einen Bayes'schen Test durch – drei Rechner in einem. Free, sofort, keine Anmeldung.

Bayesianischer Modus beantwortet "Wie hoch ist die Wahrscheinlichkeit, dass die Variation tatsächlich besser ist?" basierend auf den oben genannten Konversionszahlen, unter Verwendung eines Beta(1,1) Priors.

Kontinuierliche Metriken (Umsatz, durchschnittlicher Bestellwert) verwenden den Welch's t-Test anstelle des Proportions-z-Tests.

Ein Beispiel für einen Verhältnisfehler (SRM) Chi-Quadrat-Test zeigt an, wenn Ihre tatsächliche Aufteilung nicht stimmt — ein Zeichen für ein fehlerhaftes Experiment.

Die Region praktischer Äquivalenz (ROPE) ist der Bereich um "keinen Unterschied", der als Unentschieden behandelt wird und die Entscheidung Schlimmer / Gleich / Besser unterstützt.

Für Bildungszwecke. Dieser Rechner wendet standardisierte statistische Methoden (Zwei-Anteil z-Test, Power-Analyse und ein Beta-Binomial-Bayes-Modell) auf die von Ihnen eingegebenen Zahlen an — es ist ein Entscheidungshelfer, keine Garantie.. Die Ergebnisse setzen ordnungsgemäß randomisierte, unabhängige Stichproben und eine einzige feste Analyse voraus; reale Experimente können durch Peeking, Neuheitseffekte, Saisonalität, Missverhältnis der Stichprobenverhältnisse und Nachverfolgungsfehler beeinflusst werden. Verwenden Sie es, um eine Entscheidung zu informieren, nicht um ein solides Experimentdesign zu ersetzen.

Dieser kostenlose A/B-Test-Rechner führt die drei Aufgaben aus, die jedes Experiment benötigt, an einem Ort: sagt Ihnen, ob ein abgeschlossener Test ein echter Gewinner (statistische Signifikanz) ist, plant wie viele Besucher und Tage Sie benötigen, bevor Sie beginnen, und führt einen Bayesian "Chance zu gewinnen", wenn Sie lieber in Wahrscheinlichkeiten als in p-Werten denken.

Wählen Sie einen Modus, geben Sie Ihre Zahlen ein, klicken Sie auf Berechnen — alles aktualisiert sich sofort und Ihre Daten verlassen niemals Ihren Browser. Jeder Standard (95% Konfidenz, 80% Power, z = 1,96) ist ein dokumentierter statistischer Standard, der unten zitiert wird.

Von Testdaten zu einem klaren Ergebnis in drei Schritten

Kein Konto, keine E-Mail, keine Limits — nur rigorose Statistiken, die lesbar gemacht werden.

1

Wählen Sie Ihren Modus

"Hat mein Test gewonnen?" für einen abgeschlossenen Test, "Plane meinen Test" um einen vor dem Start zu dimensionieren, oder "Bayesian" für eine Chance zu gewinnen. Ein Tool, drei Aufgaben.

2

Geben Sie Ihre Zahlen ein

Besucher und Konversionen für jede Variante oder eine Basisrate und den Ziel-Effekt. Wechseln Sie zu Erweitert für Umsatzkennzahlen, SRM und mehr.

3

Lesen Sie das Urteil

Erhalten Sie einen klaren Gewinneraufruf in einfacher Sprache sowie den p-Wert, das Konfidenzintervall, die Stichprobengröße oder die Chance zu gewinnen — und die Diagramme, die es offensichtlich machen.

Die Zahlen, die jeder A/B-Test verwendet

Dies sind die konventionellen Schwellenwerte, auf die dieser Rechner standardmäßig zurückgreift – jeder ist ein dokumentierter statistischer Standard, keine Erfindung.

95%
das standardmäßige Konfidenzniveau – Sie akzeptieren eine 5%ige Chance auf ein falsch positives Ergebnis
Wikipedia / NIST
80%
die standardmäßige statistische Power – eine 80%ige Chance, einen echten Effekt zu erkennen, wenn er existiert
VWO / Evan Miller
z = 1.96
der zweiseitige kritische Wert bei 95% Konfidenz, verwendet im z-Test und im Intervall
Standardnormalverteilung
Beta(1,1)
der uninformative Prior, von dem das Bayes'sche Modell für jede Konversionsrate ausgeht
Evan Miller

Ein schöner Anstieg bedeutet nichts ohne die Statistiken

Die meisten "gewinnenden" Tests, die veröffentlicht werden, waren nie signifikant. Die Mathematik trennt eine echte Verbesserung von zufälligem Rauschen.

Vermeiden Sie falsche Gewinner

Ein Anstieg von 20% bei kleinen Zahlen ist oft purer Zufall. Die Signifikanz sagt Ihnen, ob der Unterschied real ist, bevor Sie ihn für alle ausrollen.

Laufe nicht ewig (oder höre nicht zu früh auf)

Die Größe des Tests im Voraus festzulegen, sagt dir, wann du genug Daten hast – damit du weder Wochen verschwendest noch sofort aufhörst, nur weil es gut aussieht.

Quantifiziere das Risiko

Das Konfidenzintervall und der bayesianische erwartete Verlust sagen dir nicht nur „ist es besser?“, sondern auch „wie viel könnte ich gewinnen oder verlieren, wenn ich falsch liege?“

Das Team ausrichten

Teile einen Link, damit PM, Design und Daten dasselbe Urteil und CI sehen – weniger „aber es sah so aus, als hätte es gewonnen“-Debatten im Nachhinein.

Wie die Signifikanz berechnet wird

Es ist ein z-Test. Hier ist das Ganze, mit dem kanonischen Beispiel eingebaut.

Rate B − Rate A
+3,0 pp
÷
Pooled std error
0.0143
=
Z-Score
2.10

Der z-Score entspricht einem p-Wert von 0,035 — eine 3,5% Chance, eine so große Lücke zufällig zu sehen — also bist du 96,5% zuversichtlich, was die 95%-Hürde überwindet. (Kontrolle 10% vs Variation 13%, jeweils 1.000 Besucher.)

Warum zwei verschiedene Standardfehler?

Pooled SE für den Test

Der Hypothesentest geht davon aus, dass die Nullhypothese wahr ist – dass beide Raten gleich sind – also pools er die beiden Stichproben in eine gemeinsame Rate, um den Standardfehler und den z-Wert zu berechnen. Dies ist der klassische z-Test für zwei Anteile (Wikipedia / NIST).

Unpooled SE für das Intervall

Das Konfidenzintervall geht nicht davon aus, dass die Raten gleich sind, daher verwendet es die eigene Varianz jeder Rate – den unpooled Standardfehler. Die meisten Rechner verstecken dies; unserer zeigt beides, weil es wichtig ist, den richtigen zu verwenden.

vs

Absolute vs relative Steigerung

Der häufigste Fehler bei der Auswertung von A/B-Tests. Das gleiche Ergebnis, zwei sehr unterschiedlich aussehende Zahlen.

Kontrolle 10% Variation 13%

+3 Prozentpunkte absolut

Die rohe Differenz zwischen den beiden Raten: 13% − 10% = 3pp. Das ist es, womit Statistiker arbeiten und was das Konfidenzintervall berichtet. Es kann nicht aufgebläht werden.

+30% relative lift

Die Differenz als Anteil der Basislinie: 3pp ÷ 10% = 30%. Marketingüberschriften lieben diese größere Zahl — aber "+30%" und "+3pp" beschreiben denselben Test.

vs

Überprüfen Sie immer, welche Zahl ein Tool (oder ein Anbieter) angibt. Dieser Rechner zeigt beide, jedes Mal.

Häufigkeitsstatistik vs Bayesianisch — Welche verwenden?

Sie beantworten subtil unterschiedliche Fragen. Beide sind gültig; dieses Tool gibt Ihnen beide.

Häufigkeitsstatistik der p-Wert

Antworten: "Wenn es keinen echten Unterschied gäbe, wie überraschend sind diese Daten?" Ein niedriger p-Wert bedeutet, dass das Ergebnis unwahrscheinlich durch Zufall zustande gekommen wäre. Vertraut, weit verbreitet und was mit "statistischer Signifikanz" gemeint ist — aber leicht fehlzuinterpretieren und empfindlich gegenüber Einblicken.

Bayesianisch Chance zu gewinnen

Beantworte die Frage, die du tatsächlich hast: Wie hoch ist die Wahrscheinlichkeit, dass die Variation besser ist, basierend auf den Daten? Bietet eine direkte Gewinnchance und einen erwarteten Verlust und geht eleganter mit der Überwachung um — auf Kosten der Wahl eines Priors.

vs

Faustregel: Bericht Bedeutung wenn Stakeholder einen p-Wert erwarten; greifen Sie nach Bayesian wenn Sie eine intuitive risikobasierte Entscheidung treffen möchten.

Stichprobengröße, Power & MDE → Dauer

Vier Eingaben bestimmen, wie lange Sie warten müssen. Kleinere Effekte kosten dramatisch mehr Traffic.

Baseline + MDE + Kraft & Vertrauen Besucher / Variation ÷ täglicher Verkehr Tage zum Laufen

Die erforderliche Stichprobengröße wächst mit 1 / MDE²: die Wirkung halbieren, die Sie ungefähr erkennen möchten Quadruple der Verkehr, den Sie benötigen. Ein 10% relativer Anstieg bei einer 10% Basislinie mit 95%/80% erfordert etwa 14.300 Besucher pro Variation. Wählen Sie den kleinsten Anstieg, der tatsächlich Ihre Entscheidung ändern würde — nicht den kleinsten, den Sie sich vorstellen können.

Das Peeking-Problem

Warum "wir haben 95% erreicht, also versenden wir es!" oft falsch ist.

Wiederholtes Überprüfen führt zu falschen Positiven. Der p-Wert eines Tests schwankt, während Daten eintreffen. Wenn Sie beim ersten Mal stoppen, wenn er unter 0,05 fällt, wählen Sie Rauschen aus — ein "95% signifikantes" Ergebnis, das durch Peeking gefunden wurde, kann viel häufiger als 5% der Zeit falsch sein.
Die Lösung: Bestimmen Sie Ihre Stichprobengröße im Voraus und führen Sie den Test bis zu diesem Punkt durch. Verwenden Sie den Stichprobengrößenmodus, um einen festen Horizont festzulegen, und bewerten Sie dann einmal. Wenn Sie kontinuierlich überwachen müssen, verwenden Sie eine sequentielle Methode oder den Bayes'schen Modus, der robuster gegenüber wiederholten Blicken ist.

Stichprobenverhältnis-Mismatch (SRM)

Wenn Ihre 50/50-Aufteilung nicht 50/50 ist, ist der gesamte Test verdächtig.

Sie hatten eine gleichmäßige Verteilung beabsichtigt, aber Sie erhielten 53/47 über Zehntausende von Besuchern. Dieses Ungleichgewicht ist statistisch fast unmöglich durch Zufall — also ist etwas kaputt: ein Redirect, der Benutzer abwirft, Bot-Traffic, ein Tracking-Fehler oder ein fehlerhafter Zufallsmechanismus. Ein Chi-Quadrat-Goodness-of-Fit-Test zeigt es an; wenn der SRM-p-Wert unter 0,01 fällt, interpretieren Sie das Experiment nicht.

Was die Überprüfung macht. Der erweiterte Modus vergleicht Ihre tatsächliche Verteilung mit der beabsichtigten mittels eines Chi-Quadrat-Tests und berichtet den p-Wert, sodass eine Diskrepanz Ihnen nicht entgeht.
Was zu tun ist, wenn es fehlschlägt. Vertrauen Sie dem Ergebnis nicht und "reparieren" Sie es nicht durch Neugewichtung. FinFinden Sie die Ursache — Redirects, Bots, Tracking, Randomisierung — beheben Sie sie und führen Sie den Test sauber erneut durch.

Häufigen A/B-Testfehler

Die Fehler, die Experimente in teure Vermutungen verwandeln.

1
Frühzeitig beim ersten "95%" stoppen. Das Peek-Problem — legen Sie eine Stichprobengröße fest, bevor Sie beginnen, und bewerten Sie einmal.
2
Stichproben, die zu klein sind. Ein paar hundert Besucher können einen kleinen Anstieg nicht erkennen; dimensioniere den Test zuerst oder du liest Rauschen.
3
Ignoriere das Sample Ratio Mismatch. Ein verzerrter Split bedeutet einen fehlerhaften Test; überprüfe es, bevor du das Ergebnis liest.
4
Ein Unentschieden als Verlierer zu bezeichnen. "Nicht signifikant" bedeutet unentschieden, nicht "B hat verloren" — du benötigst möglicherweise einfach mehr Daten.
5
Viele Varianten, keine Korrektur. Teste fünf Varianten und die Wahrscheinlichkeit eines Zufalls-"Gewinners" steigt — wende eine Bonferroni- oder Šidák-Korrektur an.
6
Läuft weniger als eine Woche oder über Neuheit. Decke ganze Wochen ab, um Wochentagseffekte zu berücksichtigen, und achte auf einen Neuheitsschub, der nachlässt.

Wie der Rechner funktioniert

Keine Black Box. Jede Formel, mit der zitierten Quelle — überprüft anhand bearbeiteter numerischer Fälle.

Signifikanz
Zwei-Proportionen z-Test. Konversionsraten p = conversions / visitors. Der Test verwendet einen gepoolten Standardfehler √(p̄(1−p̄)(1/n₁+1/n₂)) um zu erhalten z, dann der p-Wert aus der Standardnormalverteilung. Das Konfidenzintervall verwendet die unpooled SE — wir zeigen beides. (Wikipedia, NIST.)
Stichprobengröße
Exakte Power-Formel. Von Basislinie p, Effekt δund den z-Werten für Konfidenz und Power: n = (z_α·√(2p(1−p)) + z_β·√(p(1−p)+(p+δ)(1−p−δ)))² / δ², aufgerundet. Dann Dauer = total ÷ täglicher Verkehr. (Evan Miller.)
Bayesian
Beta-Binomial. Jede Rate erhält ein Beta(1,1) Prior, sodass das Posterior Beta(1+conversions, 1+failures)ist. Wir berechnen die exakte Wahrscheinlichkeit, dass das Posterior der Variation das der Kontrolle übertrifft, plus den erwarteten Verlust. (Evan Millers Bayesian-Formeln.)

Die Zahlen, die es berichtet

P-Wert & Konfidenz
Die Wahrscheinlichkeit des Ergebnisses unter der Nullhypothese und 1 − das.
Konfidenzintervall
Der plausible Bereich für den wahren Unterschied; schließt 0 aus, wenn signifikant.
Beobachtete Power
In Erweitert angezeigt — mit dem Hinweis, dass die post-hoc Power umstritten ist.
SRM & Low-Data-Wächter
Kennzeichnet eine fehlerhafte Aufteilung oder zu spärliche Daten, die das Urteil unzuverlässig machen.
Eine Anmerkung zur Genauigkeit. Dies sind standardisierte, weit verbreitete statistische Methoden, und die Ausgaben dieses Tools wurden mit durchgearbeiteten Beispielen und Referenzrechnern (Evan Miller, ABTestGuide) überprüft. Dennoch kann ein Rechner Ihr Experimentdesign nicht sehen: Er geht von ordnungsgemäß randomisierten, unabhängigen Stichproben aus, die einmal zu einem festen Zeitpunkt analysiert werden. Spähen, Neuheitseffekte, Saisonalität, Missverhältnis der Stichprobenverhältnisse und Nachverfolgungsfehler können alle ein ansonsten "signifikantes" Ergebnis ungültig machen. Verwenden Sie es, um eine Entscheidung zu informieren, nicht um ein solides Experimentdesign zu ersetzen. sem.chat bietet keine statistische Beratung.

Quellen & Weiterführende Literatur

Die maßgeblichen Methoden und Standards hinter den Berechnungen auf dieser Seite.

Zwei-Proportionen z-Test — gepoolte SE für den Test, ungepoolt für das Intervall: Wikipedia und das NIST/SEMATECH e-Handbuch §7.2.4.
Stichprobengröße & Signifikanz — die genaue Leistungsformel und die 16·p(1−p)/δ² Faustregel: Evan Miller, "Sample Size Calculator" und Awesome A/B Tools.
Bayesian A/B Testing — Beta(1,1) Posteriors und die geschlossene Wahrscheinlichkeit zu übertreffen: Evan Miller, "Formulas for Bayesian A/B Testing".
Praktikertools & Voreinstellungen — Konventionen zu Vertrauen/Leistung, SRM und ROPE: ABTestGuide und VWO.

Verwandte Rechner von sem.chat

Häufig gestellte Fragen

Signifikanz, Stichprobengröße, Bayesian und die Fallstricke — in einfachem Englisch beantwortet.

Die statistische Signifikanz sagt Ihnen, wie wahrscheinlich es ist, dass Ihr Ergebnis nur Zufall ist. Der p-Wert ist die Wahrscheinlichkeit, einen Unterschied zu sehen, der mindestens so groß ist, wenn die Variation tatsächlich keinen Effekt hatte (die Nullhypothese). Ein p-Wert von 0,05 bedeutet eine 5%ige Chance, dass das Ergebnis ein Zufall ist; bei einem Konfidenzniveau von 95% betrachten Sie es als signifikant, wenn der p-Wert unter 0,05 fällt. Es ist nicht die Wahrscheinlichkeit, dass Ihre Variation besser ist — das ist eine häufige Fehlinterpretation.
Im Signifikanzmodus gewinnt die Variation, wenn der Test Ihr gewähltes Konfidenzniveau (standardmäßig 95%) erreicht und das Konfidenzintervall für den Unterschied null ausschließt. Das Tool zeigt die Konversionsraten, den Anstieg, den p-Wert, den Vertrauensprozentsatz und ein einfaches Urteil an. Ein Ergebnis, das nicht signifikant ist, bedeutet entweder, dass es keinen echten Unterschied gibt oder dass Sie mehr Daten benötigen — nicht, dass die Variation verloren hat.
Wenn Ihre Kontrolle mit 10% konvertiert und die Variation bei 13% liegt, beträgt der absolute Anstieg +3 Prozentpunkte (pp) und der relative Anstieg +30% — (13−10)/10. Marketing-Tools heben normalerweise die größere relative Zahl hervor; Statistiker arbeiten in absoluten Begriffen. Die Verwirrung zwischen den beiden ist die häufigste Fehlinterpretation von A/B-Tests, daher zeigt dieser Rechner beides.
Verwenden Sie einen zweiseitigen Test (die Standardeinstellung), wenn es Ihnen wichtig ist, ob die Variation unterschiedlich ist — besser oder schlechter. Verwenden Sie einen einseitigen Test nur, wenn Sie niemals auf ein negatives Ergebnis reagieren würden und Sie die Richtung festgelegt haben, bevor Sie die Daten gesehen haben. Ein einseitiger Test halbiert den p-Wert, sodass er schneller signifikant wird, was genau der Grund ist, warum er leicht missbraucht werden kann. Im Zweifelsfall bleiben Sie zweiseitig.
95% ist der Branchenstandard und akzeptiert eine Fehlerrate von 5%. Verwenden Sie 90% für risikoarme, leicht umkehrbare Änderungen, bei denen Geschwindigkeit wichtig ist, und 99% für Entscheidungen mit hohen Einsätzen oder schwer rückgängig zu machenden Entscheidungen. Ein höheres Konfidenzniveau benötigt mehr Daten, um erreicht zu werden.
Power ist die Wahrscheinlichkeit, dass Ihr Test einen echten Effekt einer bestimmten Größe erkennt, wenn dieser vorhanden ist – eins minus die falsch-negative Rate. Die Konvention liegt bei 80%, was bedeutet, dass Sie den Effekt in 80% der Fälle erfassen und in 20% der Fälle verpassen werden. Eine höhere Power von 90% ist sicherer, erfordert jedoch eine größere Stichprobe.
MDE ist die kleinste Verbesserung, die Sie möchten, dass der Test erkennen kann. Kleinere MDEs erfordern dramatisch mehr Traffic – die Stichprobengröße wächst mit dem Kehrwert von MDE zum Quadrat – wählen Sie also den kleinsten Anstieg, der tatsächlich Ihre Entscheidung ändern würde, nicht einen unrealistisch kleinen. Ein häufiger Standardstartpunkt ist ein relativer MDE von 20%.
Es hängt von Ihrer Basis-Konversionsrate, Ihrem MDE, dem Konfidenzniveau und der Power ab. Der Modus zur Berechnung der Stichprobengröße ermittelt die genauen Besucher pro Variation unter Verwendung der Standardformel für zwei Proportionen — zum Beispiel benötigt eine Erhöhung von 10% der Basis um relativ 10% (auf 11%) bei 95% Konfidenz und 80% Power etwa 14.300 Besucher pro Variation.
Dauer = erforderliche Gesamtstichprobengröße geteilt durch Ihre täglichen berechtigten Besucher. Geben Sie Ihren durchschnittlichen täglichen Traffic im Modus zur Berechnung der Stichprobengröße ein, und das Tool gibt die Anzahl der Tage zurück. Führen Sie den Test über ganze Wochen durch, um die Effekte der Wochentage auszugleichen, und stoppen Sie nicht, sobald es signifikant aussieht.
Nein. Wiederholtes Überprüfen und das Stoppen beim ersten Mal, wenn Sie Signifikanz sehen, erhöht Ihre Rate an falsch-positiven Ergebnissen dramatisch — ein 95%-Ergebnis, das durch Peeking gefunden wurde, kann weit mehr als 5% der Zeit falsch sein. Bestimmen Sie Ihre Stichprobengröße im Voraus und führen Sie den Test bis zu diesem Punkt durch, oder verwenden Sie eine sequentielle oder bayesianische Methode, die für das Monitoring entwickelt wurde.
Der frequentistische Modus (der p-Wert und der Signifikanzmodus) beantwortet die Frage, wie überraschend diese Daten wären, wenn es keinen echten Unterschied gäbe. Der Bayesianische Modus beantwortet die intuitivere Frage — wie hoch ist die Wahrscheinlichkeit, dass die Variation tatsächlich besser ist, basierend auf den Daten. Bayesianisch gibt eine direkte Chance zu gewinnen und einen erwarteten Verlust an; frequentistisch gibt einen p-Wert und ein Konfidenzintervall an. Beide sind gültig, und dieses Tool bietet beides.
Es ist die posteriori Wahrscheinlichkeit, dass die wahre Konversionsrate der Variation höher ist als die der Kontrolle, basierend auf den Daten und einem uninformierten Beta(1,1) Prior — zum Beispiel bedeutet 98%, dass es eine 98%ige Chance gibt, dass die Variation tatsächlich besser ist. Ein gängiger Entscheidungsgrenzwert liegt bei 95%.
Der erwartete Verlust ist der durchschnittliche Betrag der Konversionsrate, den Sie aufgeben würden, wenn Sie die Variante wählen und sich herausstellt, dass sie schlechter ist — ein Risikomaß. Sie versenden, wenn der erwartete Verlust unter einem kleinen Schwellenwert liegt. ROPE, die Region praktischer Äquivalenz, ist ein Bereich um keinen Unterschied (Standard 1%), innerhalb dessen die beiden als effektiv gleich behandelt werden, was eine Entscheidung über Schlimmeres / Gleichwertiges / Besseres ermöglicht.
Ein 95%iges Konfidenzintervall (frequentistisch) ist ein Bereich, der bei vielen Wiederholungen des Experiments 95% der Zeit den wahren Unterschied enthalten würde. Ein 95%iges glaubwürdiges Intervall (bayesianisch) ist ein Bereich, in dem der wahre Wert mit 95% Wahrscheinlichkeit basierend auf Ihren Daten liegt. Der Rechner zeigt das Konfidenzintervall für den Unterschied im Signifikanzmodus und die glaubwürdigen Intervalle im bayesianischen Modus an.
SRM ist, wenn Ihre Traffic-Aufteilung nicht mit dem übereinstimmt, was Sie beabsichtigt haben — zum Beispiel wollten Sie 50/50, aber erhielten 53/47 bei hohem Volumen. Das Tool führt einen Chi-Quadrat-Test durch; ein fehlerhaftes Ergebnis (p unter 0,01) signalisiert eine fehlerhafte Randomisierung, Umleitung oder Bot-Bias oder Tracking-Probleme. Wenn SRM fehlschlägt, interpretieren Sie den Test nicht — beheben Sie die Ursache und führen Sie ihn erneut durch.
Der z-Test basiert auf einer normalen Annäherung, die bei sehr wenigen Conversions zusammenbricht, grob gesagt bei weniger als 5 bis 10 Erfolgen oder Misserfolgen pro Zelle. Bei spärlichen Daten ist der p-Wert unzuverlässig, daher kennzeichnet das Tool dies und empfiehlt, mehr zu sammeln, bevor man dem Urteil vertraut.
Ja. Im erweiterten Modus wechseln Sie den Metriktyp auf kontinuierlich und geben den Mittelwert, die Standardabweichung und die Stichprobengröße pro Variation ein. Das Tool führt dann den Welch's t-Test durch, der ungleiche Varianzen behandelt, anstelle des Proportions-z-Tests. Die meisten A/B-Rechner behandeln nur binäre Conversions.
Ja. Fügen Sie Variationen im erweiterten Modus hinzu, und das Tool vergleicht jede mit der Kontrolle, während es eine Korrektur für Mehrfachvergleiche anwendet (Bonferroni oder Sidak), da das Testen mehrerer Varianten gleichzeitig die Wahrscheinlichkeit eines falschen Gewinners erhöht, wenn Sie nicht anpassen.

A/B-Testbegriffe in einfacher Sprache

Die Konzepte hinter dem Rechner — was sie bedeuten und warum sie wichtig sind.

Konversionsrate
Der Anteil der Besucher, die konvertieren: Konversionen geteilt durch Besucher.
Kontrolle vs. Variation
Die Kontrolle (A) ist die bestehende Version; die Variation (B) ist die Änderung, die Sie dagegen testen.
Absoluter Anstieg
Der Unterschied zwischen den beiden Konversionsraten in Prozentpunkten, z.B. 13% minus 10% ergibt +3pp.
Relativer Anstieg
Die Verbesserung als Prozentsatz der Basislinie, z.B. +3pp bei einer Basislinie von 10% entspricht +30%.
Nullhypothese
Die Standardannahme, dass die Variation keinen echten Effekt hat; ein Test versucht, sie zu widerlegen.
P-Wert
Die Wahrscheinlichkeit, einen Unterschied zu sehen, der mindestens so groß ist, wenn die Nullhypothese wahr wäre.
Signifikanzniveau (Alpha)
Die Fehlerrate, die Sie akzeptieren; 0,05 entspricht 95% Vertrauen.
Konfidenzniveau
Eins minus Alpha; wie sicher Sie sein möchten, bevor Sie ein Ergebnis als echt bezeichnen, üblicherweise 95%.
Statistische Power (1 - Beta)
Die Wahrscheinlichkeit, einen echten Effekt einer bestimmten Größe zu erkennen; 80% ist der Standard.
Typ-I- und Typ-II-Fehler
Ein Typ-I-Fehler ist ein falsch positives Ergebnis (eine Nicht-Differenz als echt zu bezeichnen); ein Typ-II-Fehler ist ein falsch negatives Ergebnis (eine echte Differenz zu übersehen).
Z-Test für zwei Anteile
Der Test, der die Distanz zwischen den beiden Konversionsraten in einen z-Wert standardisiert, um den p-Wert zu berechnen.
Pooled vs unpooled Standardfehler
Der Hypothesentest verwendet einen gepoolten Standardfehler (unter der Annahme gleicher Raten unter der Null); das Konfidenzintervall verwendet einen ungepoolten Standardfehler aus der eigenen Varianz jeder Rate.
Konfidenzintervall
Ein frequentistischer Bereich, der wahrscheinlich die wahre Differenz enthält, z.B. ein 95%-Konfidenzintervall.
Minimal nachweisbare Wirkung (MDE)
Die kleinste Steigerung, die ein geplanter Test nachweisen kann.
Stichprobengröße und Testdauer
Die Besucher pro Variation, die ein Test benötigt, und wie viele Tage das bei Ihrem Traffic dauert.
Bayesianischer posteriorer Wert / Chance zu übertreffen
Die Wahrscheinlichkeit, dass die wahre Rate der Variation die der Kontrolle übertrifft, basierend auf den Daten.
Glaubwürdiges Intervall, erwarteter Verlust und ROPE
Ein bayesianischer Bereich für einen Wert; der durchschnittliche Nachteil einer falschen Wahl; und der Bereich praktischer Äquivalenz, der als kein Unterschied behandelt wird.
Stichprobenverhältnis-Mismatch (SRM)
Ein Ungleichgewicht bei der Traffic-Aufteilung im Vergleich zum beabsichtigten Verhältnis, das auf ein fehlerhaftes Experiment hinweist.
Spionageproblem
Wiederholtes Überprüfen der Ergebnisse und Stoppen beim ersten signifikanten Moment, was zu einer Inflation von falsch positiven Ergebnissen führt.

Optimieren Sie Ihre Konversionsrate?

Die schnellste "Gewinnvariante" besteht oft einfach darin, die Besucher schneller zu beantworten. sem.chat fügt Ihrer Website einen AI Chat- und Sprachagenten hinzu, der Fragen rund um die Uhr beantwortet, Leads erfasst und Anrufe bucht – ein messbarer Conversion-Boost, den Sie mit dem obenstehenden Rechner ermitteln können. Probieren Sie es kostenlos aus.

Versuchen Sie sem.chat Free
In die Zwischenablage kopiert!