Calculadora de prueba A/B Calculadora

Verifica la significancia estadística, planifica el tamaño de tu muestra y duración, o realiza una prueba bayesiana: tres calculadoras en una. Free, instantáneo, sin registro.

Las respuestas del modo bayesiano "¿cuál es la probabilidad de que la variación sea realmente mejor?" a partir de los mismos números de conversión anteriores, utilizando un prior Beta(1,1).

Las métricas continuas (ingresos, valor promedio de pedido) utilizan la prueba t de Welch en lugar de la prueba z de proporciones.

Una prueba chi-cuadrado de desajuste de proporciones (SRM) señala cuando tu división real está desfasada, lo que indica un experimento roto.

La Región de Equivalencia Práctica (ROPE) es la banda alrededor de "sin diferencia" tratada como un empate, que potencia la decisión de Peor / Equivalente / Mejor.

Para uso educativo. Esta calculadora aplica métodos estadísticos estándar (prueba z de dos proporciones, análisis de potencia y un modelo bayesiano Beta-Binomial) a los números que ingresas — es una ayuda para la decisión, no una garantía.. Los resultados asumen muestras adecuadamente aleatorizadas e independientes y un análisis fijo único; los experimentos reales pueden verse afectados por el espiar, efectos de novedad, estacionalidad, desajuste en la proporción de muestras y errores de seguimiento. Úsalo para informar una decisión, no para reemplazar un diseño de experimento sólido.

Este gratuito calculador de pruebas A/B realiza las tres tareas que necesita cada experimento, en un solo lugar: decirte si una prueba finalizada es un verdadero ganador (significancia estadística), planificar cuántos visitantes y días necesitarás antes de comenzar, y ejecutar un Bayesiano "oportunidad de ganar" cuando prefieres pensar en probabilidades en lugar de valores p.

Elige un modo, introduce tus números, presiona Calcular — todo se actualiza al instante y tus datos nunca salen de tu navegador. Cada valor predeterminado (95% de confianza, 80% de potencia, z = 1.96) es un estándar estadístico documentado, citado a continuación.

De Datos de Prueba a una Llamada Clara en Tres Pasos

Sin cuenta, sin correo electrónico, sin límites — solo estadísticas rigurosas hechas legibles.

1

Elige Tu Modo

"¿Ganó mi prueba?" para una prueba finalizada, "Planifica mi prueba" para dimensionar una antes del lanzamiento, o "Bayesiano" para una oportunidad de superar. Una herramienta, tres trabajos.

2

Introduce Tus Números

Visitantes y conversiones para cada variación, o una tasa base y efecto objetivo. Cambia a Avanzado para métricas de ingresos, SRM y más.

3

Lee el Veredicto

Obtén una llamada ganadora en lenguaje sencillo más el valor p, intervalo de confianza, tamaño de muestra o oportunidad de superar — y los gráficos que lo hacen obvio.

Los Números que Cada Prueba A/B Utiliza

Estos son los umbrales convencionales a los que este calculador se ajusta por defecto — cada uno es un estándar estadístico documentado, no una invención.

95%
el nivel de confianza estándar — aceptas un 5% de probabilidad de un falso positivo
Wikipedia / NIST
80%
el poder estadístico estándar — un 80% de probabilidad de detectar un efecto real si existe
VWO / Evan Miller
z = 1.96
el valor crítico bilateral al 95% de confianza, utilizado en la prueba z y el intervalo
Normal estándar
Beta(1,1)
el prior no informativo del modo bayesiano del que parte para cada tasa de conversión
Evan Miller

Un aumento bonito no significa nada sin las estadísticas

La mayoría de las pruebas "ganadoras" que se envían nunca fueron significativas. Las matemáticas son lo que separa una mejora real del ruido aleatorio.

Evita falsos ganadores

Un aumento del 20% en números pequeños es a menudo pura casualidad. La significancia te dice si la diferencia es real antes de implementarla para todos.

No corras para siempre (o detengas demasiado pronto)

Dimensionar la prueba desde el principio te dice cuándo tendrás suficientes datos — para que no pierdas semanas ni la declares en el momento en que parece buena.

Cuantifica el riesgo

El intervalo de confianza y la pérdida esperada bayesiana no solo te dicen "¿es mejor?" sino "¿cuánto podría ganar o perder si estoy equivocado?"

Alinea al equipo

Comparte un enlace para que PM, diseño y datos vean el mismo veredicto y CI — menos debates de "pero parecía que ganó" después del hecho.

Cómo se calcula la significancia

Es una prueba z. Aquí está todo, con el ejemplo canónico incluido.

Tasa B − Tasa A
+3.0pp
÷
Error estándar combinado
0.0143
=
Puntuación Z
2.10

La puntuación Z se mapea a un valor p de 0.035 — un 3.5% de probabilidad de ver una brecha tan grande por suerte — así que estás 96.5% seguro, lo que supera el umbral del 95%. (Control 10% vs variación 13%, 1,000 visitantes cada uno.)

¿Por qué dos errores estándar diferentes?

SE Pooled para la prueba

La prueba de hipótesis asume que la nula es verdadera — que ambas tasas son iguales — por lo que pools las dos muestras en una tasa compartida para calcular el error estándar y el puntaje z. Esta es la prueba z de dos proporciones del libro de texto (Wikipedia / NIST).

SE Unpooled para el intervalo

El intervalo de confianza no asume que las tasas son iguales, por lo que utiliza la varianza propia de cada tasa — el error estándar no agrupado. La mayoría de las calculadoras ocultan esto; la nuestra muestra ambos, porque usar el correcto importa.

vs

Aumento Absoluto vs Relativo

La lectura errónea más común en pruebas A/B. El mismo resultado, dos números que parecen muy diferentes.

Control 10% Variación 13%

+3 puntos porcentuales absoluto

La diferencia bruta entre las dos tasas: 13% − 10% = 3pp. Esto es en lo que trabajan los estadísticos y lo que reporta el intervalo de confianza. No puede ser inflado.

+30% relative lift

La diferencia como parte de la línea base: 3pp ÷ 10% = 30%. Los titulares de marketing aman este número más grande — pero "+30%" y "+3pp" describen la misma prueba exacta.

vs

Siempre verifica cuál de los dos está citando una herramienta (o un proveedor). Esta calculadora muestra ambos, cada vez.

Frecuentista vs Bayesiano — ¿Cuál usar?

Responden preguntas sutilmente diferentes. Ambos son válidos; esta herramienta te da ambos.

Frecuentista el valor p

Respuestas: "Si no hubiera ninguna diferencia real, ¿qué tan sorprendente es estos datos?" Un valor p bajo significa que el resultado sería poco probable por casualidad. Familiar, ampliamente reportado, y a lo que se refiere "significancia estadística" — pero fácil de malinterpretar y sensible a la mirada.

Bayesiano probabilidad de superar

Responde a la pregunta que realmente tienes: "¿Cuál es la probabilidad de que la variación sea mejor, dado los datos?" Ofrece una oportunidad directa de superar y una pérdida esperada, y se adapta de manera más elegante al monitoreo — a costa de elegir un previo.

vs

Regla general: informa significancia cuando los interesados esperan un valor p; opta por Bayesiano cuando deseas una decisión intuitiva basada en riesgos.

Tamaño de la Muestra, Potencia y MDE → Duración

Cuatro entradas deciden cuánto tiempo esperarás. Efectos más pequeños cuestan dramáticamente más tráfico.

Línea base + MDE + potencia y confianza visitantes / variación ÷ tráfico diario días para ejecutar

El tamaño de muestra requerido crece con 1 / MDE²: reducir a la mitad el efecto que deseas detectar aproximadamente cuatruplica el tráfico que necesitas. Detectar un aumento relativo del 10% sobre una línea base del 10% al 95%/80% requiere aproximadamente 14,300 visitantes por variación. Elige el aumento más pequeño que realmente cambiaría tu decisión — no el más pequeño que puedas imaginar.

El Problema del Espionaje

Por qué "llegamos al 95%, ¡a enviarlo!" a menudo está equivocado.

Comprobar repetidamente inflará falsos positivos. El valor p de una prueba fluctúa a medida que llegan los datos. Si te detienes la primera vez que baja de 0.05, estás seleccionando ruido — un resultado "significativo al 95%" encontrado al espiar puede ser incorrecto mucho más del 5% del tiempo.
La solución: decide tu tamaño de muestra de antemano y corre hasta él. Usa el modo de tamaño de muestra para establecer un horizonte fijo, luego evalúa una vez. Si debes monitorear continuamente, utiliza un método secuencial o el modo bayesiano, que es más robusto ante miradas repetidas.

Desajuste de Ratio de Muestra (SRM)

Cuando tu división 50/50 no es 50/50, toda la prueba es sospechosa.

Intendías una división equitativa, pero obtuviste 53/47 entre decenas de miles de visitantes. Ese desequilibrio es estadísticamente casi imposible por casualidad, así que algo está roto: un redireccionamiento que está dejando caer usuarios, tráfico de bots, un error de seguimiento o un aleatorizador defectuoso. A prueba de bondad de ajuste chi-cuadrado lo marca; si el valor p del SRM cae por debajo de 0.01, no interpretes el experimento.

Lo que hace el cheque. El modo avanzado compara tu división real con la prevista mediante una prueba de chi-cuadrado y reporta el valor p, por lo que un desajuste no puede pasarse por alto.
Qué hacer si falla. No confíes en el resultado y no lo "corrijas" reponderando. Find la causa raíz — redireccionamientos, bots, seguimiento, aleatorización — repárala y vuelve a ejecutar la prueba de manera limpia.

Errores Comunes en Pruebas A/B

Los errores que convierten los experimentos en conjeturas costosas.

1
Deteniéndose temprano en el primer "95%." El problema de mirar por encima — fija un tamaño de muestra antes de comenzar y evalúa una vez.
2
Muestras que son demasiado pequeñas. Unos pocos cientos de visitantes no pueden detectar un pequeño ascensor; dimensiona la prueba primero o estarás leyendo ruido.
3
Ignorando la Desigualdad de la Relación de Muestra. Una división sesgada significa una prueba rota; revísala antes de leer el resultado.
4
Llamar empate a perdedor. "No significativo" significa inconcluso, no "B perdió" — solo puede que necesites más datos.
5
Muchas variantes, ninguna corrección. Prueba cinco variaciones y las probabilidades de un "ganador" por casualidad aumentan — aplica una corrección de Bonferroni o Šidák.
6
Ejecutando menos de una semana, o sobre novedad. Cubre semanas completas para efectos del día de la semana y observa un aumento de novedad que se desvanece.

Cómo Funciona la Calculadora

Sin caja negra. Cada fórmula, con la fuente citada — verificada contra casos numéricos trabajados.

Significancia
Prueba z de dos proporciones. Tasas de conversión p = conversions / visitors. La prueba utiliza un error estándar combinado √(p̄(1−p̄)(1/n₁+1/n₂)) para obtener z, luego el valor p de la normal estándar. El intervalo de confianza utiliza el unpooled SE — mostramos ambos. (Wikipedia, NIST.)
Tamaño de muestra
Fórmula exacta de potencia. Desde la línea base p, efecto δ, y los valores z para confianza y potencia: n = (z_α·√(2p(1−p)) + z_β·√(p(1−p)+(p+δ)(1−p−δ)))² / δ², redondeado hacia arriba. Luego duración = total ÷ tráfico diario. (Evan Miller.)
Bayesiano
Beta-Binomial. Cada tasa recibe un Beta(1,1) prior, así que el posterior es Beta(1+conversions, 1+failures). Calculamos la probabilidad exacta de que el posterior de la variación supere al del control, más la pérdida esperada. (Fórmulas bayesianas de Evan Miller.)

Los números que informa

Valor p & confianza
La probabilidad del resultado bajo la hipótesis nula, y 1 − eso.
Intervalo de confianza
El rango plausible para la verdadera diferencia; excluye 0 cuando es significativo.
Potencia observada
Mostrada en Avanzado — con una advertencia de que la potencia post-hoc es debatida.
SRM y guardias de bajo dato
Marca un desglose roto o datos demasiado escasos que hacen que el veredicto sea poco fiable.
Una nota sobre la precisión. Estos son métodos estadísticos estándar y ampliamente utilizados, y las salidas de esta herramienta fueron verificadas contra ejemplos trabajados y calculadoras de referencia (Evan Miller, ABTestGuide). Aún así, una calculadora no puede ver el diseño de tu experimento: asume muestras adecuadamente aleatorizadas e independientes analizadas una vez en un horizonte fijo. Mirar, efectos de novedad, estacionalidad, desajuste en la proporción de muestras y errores de seguimiento pueden invalidar un resultado "significativo" de otro modo. Úsalo para informar una decisión, no para reemplazar un diseño de experimento sólido. sem.chat no proporciona consultoría estadística.

Fuentes y Lectura Adicional

Los métodos y estándares autorizados detrás de las matemáticas en esta página.

Prueba z de dos proporciones — SE agrupado para la prueba, no agrupado para el intervalo: Wikipedia y el NIST/SEMATECH e-Handbook §7.2.4.
Tamaño de muestra y significancia — la fórmula exacta de potencia y la regla general de 16·p(1−p)/δ²: Evan Miller, "Calculadora de Tamaño de Muestra" y Herramientas A/B Asombrosas.
Pruebas A/B Bayesiana — posteriors Beta(1,1) y la probabilidad en forma cerrada de superar: Evan Miller, "Fórmulas para Pruebas A/B Bayesiana".
Herramientas y configuraciones predeterminadas para practicantes — convenciones de confianza/potencia, SRM y ROPE: ABTestGuide y VWO.

Calculadoras relacionadas de sem.chat

Preguntas Frecuentes

Significancia, tamaño de muestra, Bayesiano y los trucos — respondidos en inglés sencillo.

La significancia estadística te dice cuán probable es que tu resultado sea solo una casualidad. El valor p es la probabilidad de ver una diferencia al menos tan grande si la variación en realidad no tuvo efecto (la hipótesis nula). Un valor p de 0.05 significa un 5% de probabilidad de que el resultado sea un error; a un nivel de confianza del 95% lo consideras significativo cuando el valor p cae por debajo de 0.05. No es la probabilidad de que tu variación sea mejor — esa es una interpretación comúnmente errónea.
En modo de significancia, la variación gana cuando la prueba alcanza tu nivel de confianza elegido (95% por defecto) y el intervalo de confianza para la diferencia excluye cero. La herramienta muestra las tasas de conversión, el aumento, el valor p, el porcentaje de confianza y un veredicto simple. Un resultado que no es significativo significa que o no hay una diferencia real o necesitas más datos — no que la variación haya perdido.
Si tu control convierte al 10% y la variación al 13%, el aumento absoluto es de +3 puntos porcentuales (pp) y el aumento relativo es de +30% — (13−10)/10. Las herramientas de marketing suelen destacar el número relativo más grande; los estadísticos trabajan en términos absolutos. Confundir los dos es el error más común en las pruebas A/B, así que esta calculadora muestra ambos.
Usa una prueba bilateral (la predeterminada) cuando te importe si la variación es diferente — mejor o peor. Usa una prueba unilateral solo cuando nunca actuarías sobre un resultado negativo y fijaste la dirección antes de ver los datos. Una prueba unilateral reduce a la mitad el valor p, por lo que alcanza la significancia más rápido, que es exactamente por qué es fácil de abusar. Cuando tengas dudas, mantente en la prueba bilateral.
El 95% es el estándar de la industria, aceptando una tasa de falsos positivos del 5%. Usa el 90% para cambios de bajo riesgo, fácilmente reversibles donde la velocidad importa, y el 99% para decisiones de alto riesgo o difíciles de deshacer. Un nivel de confianza más alto necesita más datos para alcanzarlo.
El poder es la probabilidad de que tu prueba detecte un efecto real de un tamaño dado cuando existe — uno menos la tasa de falso negativo. La convención es del 80%, lo que significa que si el efecto es real, lo detectarás el 80% de las veces y lo perderás el 20%. Un poder más alto, como el 90%, es más seguro pero necesita una muestra más grande.
El MDE es la mejora más pequeña que deseas que la prueba pueda detectar. MDEs más pequeños requieren dramáticamente más tráfico — el tamaño de la muestra crece con uno sobre el MDE al cuadrado — así que elige el aumento más pequeño que realmente cambiaría tu decisión, no uno irrealmente pequeño. Un punto de partida común es un MDE relativo del 20%.
Depende de tu tasa de conversión base, tu MDE, el nivel de confianza y la potencia. El modo de tamaño de muestra calcula el número exacto de visitantes por variación utilizando la fórmula estándar de potencia de dos proporciones; por ejemplo, aumentar un 10% de la base a un 10% relativo (a 11%) con un 95% de confianza y un 80% de potencia necesita aproximadamente 14,300 visitantes por variación.
Duración = tamaño total de muestra requerido dividido por tus visitantes elegibles diarios. Ingresa tu tráfico diario promedio en el modo de tamaño de muestra y la herramienta devuelve el número de días. Ejecuta durante semanas completas para promediar los efectos del día de la semana y no te detengas en el momento en que parezca significativo.
No. Comprobar repetidamente y detenerte la primera vez que veas significancia inflará drásticamente tu tasa de falsos positivos; un resultado del 95% encontrado al mirar puede ser incorrecto mucho más del 5% del tiempo. Decide tu tamaño de muestra de antemano y ejecuta hasta alcanzarlo, o utiliza un método secuencial o bayesiano diseñado para el monitoreo.
El frecuentista (el p-valor y el modo de significancia) responde a cuán sorprendente es este dato si no hubiera una diferencia real. El bayesiano responde a la pregunta más intuitiva: ¿cuál es la probabilidad de que la variación sea realmente mejor, dado los datos? El bayesiano ofrece una oportunidad directa de superar y una pérdida esperada; el frecuentista proporciona un p-valor y un intervalo de confianza. Ambos son válidos, y esta herramienta ofrece ambos.
Es la probabilidad posterior de que la verdadera tasa de conversión de la variación sea más alta que la del control, dado los datos y un prior Beta(1,1) no informativo; por ejemplo, un 98% significa que hay un 98% de probabilidad de que la variación sea genuinamente mejor. Un umbral de decisión común es del 95%.
La pérdida esperada es la cantidad promedio de tasa de conversión que renunciarías si eliges la variación y resulta ser peor — una medida de riesgo. Lanzas cuando la pérdida esperada está por debajo de un umbral muy pequeño. ROPE, la Región de Equivalencia Práctica, es una banda alrededor de la no-diferencia (por defecto 1%) dentro de la cual los dos se tratan como efectivamente iguales, impulsando una decisión de Peor / Equivalente / Mejor.
Un intervalo de confianza del 95% (frecuentista) es un rango que, a través de muchas repeticiones del experimento, contendría la verdadera diferencia el 95% del tiempo. Un intervalo creíble del 95% (Bayesiano) es un rango en el que el verdadero valor cae con una probabilidad del 95% dado tus datos. La calculadora muestra el intervalo de confianza para la diferencia en modo de significancia y los intervalos creíbles en modo Bayesiano.
SRM es cuando la división de tu tráfico no coincide con lo que pretendías; por ejemplo, querías 50/50 pero obtuviste 53/47 a alto volumen. La herramienta realiza una verificación de chi-cuadrado; un resultado fallido (p por debajo de 0.01) señala una aleatorización rota, redirección o sesgo de bots, o problemas de seguimiento. Si SRM falla, no interpretes la prueba; corrige la causa y vuelve a ejecutar.
La prueba z se basa en una aproximación normal que se rompe con muy pocas conversiones, aproximadamente menos de 5 a 10 éxitos o fracasos por celda. Con datos escasos, el valor p es poco confiable, por lo que la herramienta lo señala y aconseja recopilar más antes de confiar en el veredicto.
Sí. En modo Avanzado, cambia el tipo de métrica a continua e ingresa la media, la desviación estándar y el tamaño de la muestra por variación. La herramienta luego ejecuta la prueba t de Welch, que maneja varianzas desiguales, en lugar de la prueba z de proporciones. La mayoría de las calculadoras A/B solo manejan conversiones binarias.
Sí. Agrega variaciones en el modo Avanzado y la herramienta compara cada una contra el control mientras aplica una corrección por comparaciones múltiples (Bonferroni o Sidak), porque probar varios variantes a la vez aumenta la posibilidad de un falso ganador si no ajustas.

Términos de Pruebas A/B, en Español Sencillo

Los conceptos detrás de la calculadora — lo que significan y por qué son importantes.

Tasa de conversión
La proporción de visitantes que convierten: conversiones divididas por visitantes.
Control vs variación
El control (A) es la versión existente; la variación (B) es el cambio que estás probando contra ella.
Aumento absoluto
La diferencia entre las dos tasas de conversión en puntos porcentuales, por ejemplo, 13% menos 10% es igual a +3pp.
Aumento relativo
La mejora como un porcentaje de la línea base, por ejemplo, +3pp sobre una línea base del 10% es +30%.
Hipótesis nula
La suposición por defecto de que la variación no tiene un efecto real; una prueba intenta refutarla.
Valor p
La probabilidad de ver una diferencia al menos tan grande si la hipótesis nula fuera verdadera.
Nivel de significancia (alfa)
La tasa de falsos positivos que aceptas; 0.05 corresponde a un 95% de confianza.
Nivel de confianza
Uno menos alfa; cuán seguro quieres estar antes de considerar un resultado real, comúnmente 95%.
Potencia estadística (1 - beta)
La probabilidad de detectar un efecto real de un tamaño dado; el 80% es el estándar.
Error de Tipo I y Error de Tipo II
Un error de Tipo I es un falso positivo (considerar una no-diferencia como real); un error de Tipo II es un falso negativo (no detectar una diferencia real).
Prueba z de dos proporciones
La prueba que estandariza la distancia entre las dos tasas de conversión en un puntaje z para calcular el valor p.
Error estándar combinado vs error estándar no combinado
La prueba de hipótesis utiliza un error estándar combinado (asumiendo tasas iguales bajo la nula); el intervalo de confianza utiliza un error estándar no combinado de la propia varianza de cada tasa.
Intervalo de confianza
Un rango frecuentista que probablemente contenga la verdadera diferencia, por ejemplo, un intervalo de confianza del 95%.
Efecto Mínimo Detectable (MDE)
El aumento más pequeño que una prueba planificada está diseñada para detectar.
Tamaño de muestra y duración de la prueba
Los visitantes por variación que necesita una prueba, y cuántos días eso toma con su tráfico.
Posterior bayesiano / probabilidad de superar
La probabilidad de que la verdadera tasa de la variación supere la del control, dado los datos.
Intervalo creíble, pérdida esperada y ROPE
Un rango bayesiano para un valor; el promedio de desventaja de una elección incorrecta; y la banda de equivalencia práctica tratada como ninguna diferencia.
Desajuste de Ratio de Muestra (SRM)
Un desequilibrio en la división de tráfico versus el ratio previsto que indica un experimento roto.
Problema de espiar
Comprobar repetidamente los resultados y detenerse en el primer momento significativo, lo que inflaciona los falsos positivos.

¿Optimizando su Tasa de Conversión?

La "variación ganadora" más rápida a menudo consiste simplemente en responder a los visitantes más rápido. sem.chat añade un AI agente de chat y voz a tu sitio que responde preguntas 24/7, captura leads y programa llamadas — un aumento en la conversión que puedes medir con la calculadora de arriba. Pruébalo gratis.

Prueba sem.chat Free
Copiado al portapapeles!