Verifica la significancia estadística, planifica el tamaño de tu muestra y duración, o realiza una prueba bayesiana: tres calculadoras en una. Free, instantáneo, sin registro.
Los resultados de tu prueba
Configuraciones
Planifica tu prueba
Las respuestas del modo bayesiano "¿cuál es la probabilidad de que la variación sea realmente mejor?" a partir de los mismos números de conversión anteriores, utilizando un prior Beta(1,1).
¿Qué estás midiendo?
Las métricas continuas (ingresos, valor promedio de pedido) utilizan la prueba t de Welch en lugar de la prueba z de proporciones.
Los tamaños de muestra provienen de los campos de visitantes de Control / Variación anteriores.
Múltiples variaciones y SRM
Una prueba chi-cuadrado de desajuste de proporciones (SRM) señala cuando tu división real está desfasada, lo que indica un experimento roto.
Planificación avanzada
Configuraciones bayesianas
La Región de Equivalencia Práctica (ROPE) es la banda alrededor de "sin diferencia" tratada como un empate, que potencia la decisión de Peor / Equivalente / Mejor.
Resultado de la prueba A/B
El área sombreada es el valor p; el marcador es tu puntuación z. Cuanto más lejos esté en la cola, menos probable es que el resultado sea por casualidad.
Si este intervalo excluye 0, la diferencia es significativa a tu nivel de confianza.
El tamaño de muestra requerido crece a medida que el efecto que deseas detectar se reduce (≈ proporcional a 1/MDE²). Tu MDE elegido está marcado.
Dónde probablemente se encuentra la verdadera tasa de conversión de cada variante — cuanto menos se superpongan las dos, más claro es el ganador.
Probabilidad de que la variación sea significativamente peor, prácticamente equivalente (dentro de ROPE), o significativamente mejor.
| Paso | Valor |
|---|
| Suposición / entrada | Valor |
|---|
Este gratuito calculador de pruebas A/B realiza las tres tareas que necesita cada experimento, en un solo lugar: decirte si una prueba finalizada es un verdadero ganador (significancia estadística), planificar cuántos visitantes y días necesitarás antes de comenzar, y ejecutar un Bayesiano "oportunidad de ganar" cuando prefieres pensar en probabilidades en lugar de valores p.
Elige un modo, introduce tus números, presiona Calcular — todo se actualiza al instante y tus datos nunca salen de tu navegador. Cada valor predeterminado (95% de confianza, 80% de potencia, z = 1.96) es un estándar estadístico documentado, citado a continuación.
Cómo Funciona
Sin cuenta, sin correo electrónico, sin límites — solo estadísticas rigurosas hechas legibles.
"¿Ganó mi prueba?" para una prueba finalizada, "Planifica mi prueba" para dimensionar una antes del lanzamiento, o "Bayesiano" para una oportunidad de superar. Una herramienta, tres trabajos.
Visitantes y conversiones para cada variación, o una tasa base y efecto objetivo. Cambia a Avanzado para métricas de ingresos, SRM y más.
Obtén una llamada ganadora en lenguaje sencillo más el valor p, intervalo de confianza, tamaño de muestra o oportunidad de superar — y los gráficos que lo hacen obvio.
Los Estándares Detrás de las Matemáticas
Estos son los umbrales convencionales a los que este calculador se ajusta por defecto — cada uno es un estándar estadístico documentado, no una invención.
Por qué es importante
La mayoría de las pruebas "ganadoras" que se envían nunca fueron significativas. Las matemáticas son lo que separa una mejora real del ruido aleatorio.
Un aumento del 20% en números pequeños es a menudo pura casualidad. La significancia te dice si la diferencia es real antes de implementarla para todos.
Dimensionar la prueba desde el principio te dice cuándo tendrás suficientes datos — para que no pierdas semanas ni la declares en el momento en que parece buena.
El intervalo de confianza y la pérdida esperada bayesiana no solo te dicen "¿es mejor?" sino "¿cuánto podría ganar o perder si estoy equivocado?"
Comparte un enlace para que PM, diseño y datos vean el mismo veredicto y CI — menos debates de "pero parecía que ganó" después del hecho.
El núcleo
Es una prueba z. Aquí está todo, con el ejemplo canónico incluido.
La puntuación Z se mapea a un valor p de 0.035 — un 3.5% de probabilidad de ver una brecha tan grande por suerte — así que estás 96.5% seguro, lo que supera el umbral del 95%. (Control 10% vs variación 13%, 1,000 visitantes cada uno.)
La prueba de hipótesis asume que la nula es verdadera — que ambas tasas son iguales — por lo que pools las dos muestras en una tasa compartida para calcular el error estándar y el puntaje z. Esta es la prueba z de dos proporciones del libro de texto (Wikipedia / NIST).
El intervalo de confianza no asume que las tasas son iguales, por lo que utiliza la varianza propia de cada tasa — el error estándar no agrupado. La mayoría de las calculadoras ocultan esto; la nuestra muestra ambos, porque usar el correcto importa.
No te dejes engañar
La lectura errónea más común en pruebas A/B. El mismo resultado, dos números que parecen muy diferentes.
La diferencia bruta entre las dos tasas: 13% − 10% = 3pp. Esto es en lo que trabajan los estadísticos y lo que reporta el intervalo de confianza. No puede ser inflado.
La diferencia como parte de la línea base: 3pp ÷ 10% = 30%. Los titulares de marketing aman este número más grande — pero "+30%" y "+3pp" describen la misma prueba exacta.
Siempre verifica cuál de los dos está citando una herramienta (o un proveedor). Esta calculadora muestra ambos, cada vez.
Dos Lentes
Responden preguntas sutilmente diferentes. Ambos son válidos; esta herramienta te da ambos.
Respuestas: "Si no hubiera ninguna diferencia real, ¿qué tan sorprendente es estos datos?" Un valor p bajo significa que el resultado sería poco probable por casualidad. Familiar, ampliamente reportado, y a lo que se refiere "significancia estadística" — pero fácil de malinterpretar y sensible a la mirada.
Responde a la pregunta que realmente tienes: "¿Cuál es la probabilidad de que la variación sea mejor, dado los datos?" Ofrece una oportunidad directa de superar y una pérdida esperada, y se adapta de manera más elegante al monitoreo — a costa de elegir un previo.
Regla general: informa significancia cuando los interesados esperan un valor p; opta por Bayesiano cuando deseas una decisión intuitiva basada en riesgos.
Plan Primero
Cuatro entradas deciden cuánto tiempo esperarás. Efectos más pequeños cuestan dramáticamente más tráfico.
El tamaño de muestra requerido crece con 1 / MDE²: reducir a la mitad el efecto que deseas detectar aproximadamente cuatruplica el tráfico que necesitas. Detectar un aumento relativo del 10% sobre una línea base del 10% al 95%/80% requiere aproximadamente 14,300 visitantes por variación. Elige el aumento más pequeño que realmente cambiaría tu decisión — no el más pequeño que puedas imaginar.
El Error #1
Por qué "llegamos al 95%, ¡a enviarlo!" a menudo está equivocado.
Un Asesino Silencioso
Cuando tu división 50/50 no es 50/50, toda la prueba es sospechosa.
Intendías una división equitativa, pero obtuviste 53/47 entre decenas de miles de visitantes. Ese desequilibrio es estadísticamente casi imposible por casualidad, así que algo está roto: un redireccionamiento que está dejando caer usuarios, tráfico de bots, un error de seguimiento o un aleatorizador defectuoso. A prueba de bondad de ajuste chi-cuadrado lo marca; si el valor p del SRM cae por debajo de 0.01, no interpretes el experimento.
Evita Estos
Los errores que convierten los experimentos en conjeturas costosas.
Metodología
Sin caja negra. Cada fórmula, con la fuente citada — verificada contra casos numéricos trabajados.
p = conversions / visitors. La prueba utiliza un error estándar combinado √(p̄(1−p̄)(1/n₁+1/n₂)) para obtener z, luego el valor p de la normal estándar. El intervalo de confianza utiliza el unpooled SE — mostramos ambos. (Wikipedia, NIST.)p, efecto δ, y los valores z para confianza y potencia: n = (z_α·√(2p(1−p)) + z_β·√(p(1−p)+(p+δ)(1−p−δ)))² / δ², redondeado hacia arriba. Luego duración = total ÷ tráfico diario. (Evan Miller.)Beta(1,1) prior, así que el posterior es Beta(1+conversions, 1+failures). Calculamos la probabilidad exacta de que el posterior de la variación supere al del control, más la pérdida esperada. (Fórmulas bayesianas de Evan Miller.)Referencias
Los métodos y estándares autorizados detrás de las matemáticas en esta página.
FAQ
Significancia, tamaño de muestra, Bayesiano y los trucos — respondidos en inglés sencillo.
Glosario
Los conceptos detrás de la calculadora — lo que significan y por qué son importantes.
La "variación ganadora" más rápida a menudo consiste simplemente en responder a los visitantes más rápido. sem.chat añade un AI agente de chat y voz a tu sitio que responde preguntas 24/7, captura leads y programa llamadas — un aumento en la conversión que puedes medir con la calculadora de arriba. Pruébalo gratis.
Prueba sem.chat Free