Question 1

¿Qué es la significación estadística en una prueba A/B y qué significa realmente un valor p?

Accepted Answer

La significación estadística te dice cuán probable es que tu resultado sea solo un azar. El valor p es la probabilidad de ver una diferencia al menos tan grande si la variación en realidad no tuvo efecto (la hipótesis nula). Un valor p de 0.05 significa un 5% de probabilidad de que el resultado sea un accidente; a un nivel de confianza del 95% lo consideras significativo cuando el valor p cae por debajo de 0.05. No es la probabilidad de que tu variación sea mejor; esa es una interpretación errónea común.

Question 2

¿Cómo leo el resultado de esta calculadora — qué cuenta como un ganador?

Accepted Answer

En modo de significancia, la variación gana cuando la prueba alcanza el nivel de confianza elegido (95% por defecto) y el intervalo de confianza para la diferencia excluye cero. La herramienta muestra las tasas de conversión, el aumento, el valor p, el porcentaje de confianza y un veredicto simple. Un resultado que no es significativo significa que no hay una diferencia real o que necesitas más datos, no que la variación haya perdido.

Question 3

¿Cuál es la diferencia entre el aumento absoluto (puntos porcentuales) y el aumento relativo (porcentaje de aumento)?

Accepted Answer

Si tu control convierte al 10% y la variación al 13%, el aumento absoluto es de +3 puntos porcentuales (pp) y el aumento relativo es del +30% — (13−10)/10. Las herramientas de marketing suelen destacar el número relativo más grande; los estadísticos trabajan en términos absolutos. Confundir los dos es el error más común en la interpretación de pruebas A/B, por lo que esta calculadora muestra ambos.

Question 4

¿Debería usar una prueba unilateral o una prueba bilateral?

Accepted Answer

Utiliza una prueba de dos lados (la predeterminada) cuando te importe si la variación es diferente — mejor o peor. Utiliza una prueba de un lado solo cuando nunca actuarías sobre un resultado negativo y hayas fijado la dirección antes de ver los datos. Una prueba de un lado reduce a la mitad el valor p, por lo que alcanza la significancia más rápido, que es exactamente por qué es fácil de abusar. Cuando tengas dudas, mantente en dos lados.

Question 5

¿Qué nivel de confianza debería elegir: 90%, 95% o 99%?

Accepted Answer

El 95% es el estándar de la industria, aceptando una tasa de falsos positivos del 5%. Utiliza el 90% para cambios de bajo riesgo y fácilmente reversibles donde la velocidad es importante, y el 99% para decisiones de alto riesgo o difíciles de deshacer. Un nivel de confianza más alto necesita más datos para alcanzarse.

Question 6

¿Qué es el poder estadístico y por qué el 80% es el estándar?

Accepted Answer

El poder es la probabilidad de que su prueba detecte un efecto real de un tamaño dado cuando existe — uno menos la tasa de falsos negativos. La convención es del 80%, lo que significa que si el efecto es real, lo detectará el 80% de las veces y lo pasará por alto el 20%. Un poder más alto, como el 90%, es más seguro pero requiere una muestra más grande.

Question 7

¿Qué es el Efecto Mínimamente Detectable (MDE) y cómo elijo uno?

Accepted Answer

MDE es la mejora más pequeña que deseas que la prueba pueda detectar. MDEs más pequeños requieren dramáticamente más tráfico: el tamaño de la muestra crece con uno sobre el cuadrado de MDE — así que elige el aumento más pequeño que realmente cambiaría tu decisión, no uno irrealmente pequeño. Un punto de partida común es un MDE relativo del 20%.

Question 8

¿Cuántos visitantes (tamaño de muestra) necesito?

Accepted Answer

Depende de tu tasa de conversión base, tu MDE, el nivel de confianza y la potencia. El modo de tamaño de muestra calcula los visitantes exactos por variación utilizando la fórmula estándar de potencia de dos proporciones; por ejemplo, aumentar un 10% de la base a un 10% relativo (hasta el 11%) con un 95% de confianza y un 80% de potencia necesita alrededor de 14,300 visitantes por variación.

Question 9

¿Cuánto tiempo debo ejecutar mi prueba y cómo se calcula la duración?

Accepted Answer

Duración = tamaño total de muestra requerido dividido por tus visitantes elegibles diarios. Ingresa tu tráfico diario promedio en modo de tamaño de muestra y la herramienta devuelve el número de días. Ejecuta durante semanas completas para promediar los efectos del día de la semana, y no te detengas en el momento en que parezca significativo.

Question 10

¿Puedo detener mi prueba antes de tiempo tan pronto como alcance el 95%? (el problema de mirar)

Accepted Answer

No. Comprobar repetidamente y detenerse la primera vez que se observa significancia inflará drásticamente su tasa de falsos positivos: un resultado del 95% encontrado al asomarse puede ser incorrecto mucho más del 5% de las veces. Decida su tamaño de muestra de antemano y cúmplalo, o utilice un método secuencial o bayesiano diseñado para el monitoreo.

Question 11

¿Cuál es la diferencia entre los modos frecuentistas y bayesianos?

Accepted Answer

El enfoque frecuentista (el valor p y el modo de significancia) responde cuán sorprendente es estos datos si no hubiera una diferencia real. El enfoque bayesiano responde a la pregunta más intuitiva: ¿cuál es la probabilidad de que la variación sea realmente mejor, dado los datos? El enfoque bayesiano ofrece una probabilidad directa de superar y una pérdida esperada; el enfoque frecuentista proporciona un valor p y un intervalo de confianza. Ambos son válidos, y esta herramienta ofrece ambos.

Question 12

En modo bayesiano, ¿qué significa la probabilidad de vencer al control?

Accepted Answer

Es la probabilidad posterior de que la verdadera tasa de conversión de la variación sea mayor que la del control, dado los datos y un prior Beta(1,1) no informativo; por ejemplo, un 98% significa que hay un 98% de probabilidad de que la variación sea realmente mejor. Un umbral de decisión común es del 95%.

Question 13

¿Qué es la pérdida esperada (pérdida potencial) y ROPE?

Accepted Answer

La pérdida esperada es la cantidad promedio de tasa de conversión que renunciarías si eliges la variación y resulta ser peor — una medida de riesgo. Lanzas cuando la pérdida esperada está por debajo de un umbral muy pequeño. ROPE, la Región de Equivalencia Práctica, es una banda alrededor de la no-diferencia (por defecto 1%) dentro de la cual los dos se tratan como efectivamente iguales, impulsando una decisión de Peor / Equivalente / Mejor.

Question 14

¿Qué es un intervalo de confianza frente a un intervalo creíble?

Accepted Answer

Un intervalo de confianza del 95% (frecuentista) es un rango que, a través de muchas repeticiones del experimento, contendría la verdadera diferencia el 95% del tiempo. Un intervalo creíble del 95% (Bayesiano) es un rango en el que el valor verdadero cae con una probabilidad del 95% dado tus datos. La calculadora muestra el intervalo de confianza para la diferencia en modo de significancia y los intervalos creíbles en modo Bayesiano.

Question 15

¿Qué es la Desigualdad de Proporciones de Muestra (SRM) y qué debo hacer?

Accepted Answer

SRM es cuando la división de tu tráfico no coincide con lo que pretendías; por ejemplo, querías 50/50 pero obtuviste 53/47 a alto volumen. La herramienta realiza una verificación de chi-cuadrado; un resultado fallido (p por debajo de 0.01) indica una aleatorización rota, redirección o sesgo de bots, o problemas de seguimiento. Si SRM falla, no interpretes la prueba; corrige la causa y vuelve a ejecutar.

Question 16

¿Por qué la calculadora me advierte cuando tengo muy pocas conversiones o visitantes?

Accepted Answer

La prueba z se basa en una aproximación normal que se descompone con muy pocas conversiones, aproximadamente menos de 5 a 10 éxitos o fracasos por celda. Con datos escasos, el valor p no es confiable, por lo que la herramienta lo señala y aconseja recopilar más antes de confiar en el veredicto.

Question 17

¿Puedo usar esto para ingresos, valor promedio de pedido o métricas de no conversión?

Accepted Answer

Sí. En el modo Avanzado, cambia el tipo de métrica a continua e ingresa la media, la desviación estándar y el tamaño de la muestra por variación. La herramienta luego ejecuta la prueba t de Welch, que maneja varianzas desiguales, en lugar de la prueba z de proporciones. La mayoría de las calculadoras A/B solo manejan conversiones binarias.

Question 18

¿Soporta más de dos variaciones (A/B/n)?

Accepted Answer

Sí. Agrega variaciones en el modo Avanzado y la herramienta compara cada una contra el control mientras aplica una corrección por comparaciones múltiples (Bonferroni o Sidak), porque probar varios variantes a la vez incrementa la posibilidad de un falso ganador si no ajustas.

Calculadora de prueba A/B Calculadora

Calculadora de Pruebas A/B — sem.chat

📊 Tu resultado

¿Qué tan lejos está tu resultado en la cola?

Intervalo de confianza del 95% para la diferencia

Detalle estadístico

Por qué los efectos más pequeños cuestan más tráfico

Distribuciones posteriores

Decisión: Peor / Equivalente / Mejor

De Datos de Prueba a una Llamada Clara en Tres Pasos

Elige Tu Modo

Introduce Tus Números

Lee el Veredicto

Los Números que Cada Prueba A/B Utiliza

Un aumento bonito no significa nada sin las estadísticas

Evita falsos ganadores

No corras para siempre (o detengas demasiado pronto)

Cuantifica el riesgo

Alinea al equipo

Cómo se calcula la significancia

¿Por qué dos errores estándar diferentes?

SE Pooled para la prueba

SE Unpooled para el intervalo

Aumento Absoluto vs Relativo

+3 puntos porcentuales absoluto

+30% relative lift

Frecuentista vs Bayesiano — ¿Cuál usar?

Frecuentista el valor p

Bayesiano probabilidad de superar

Tamaño de la Muestra, Potencia y MDE → Duración

El Problema del Espionaje

Desajuste de Ratio de Muestra (SRM)

Errores Comunes en Pruebas A/B

Cómo Funciona la Calculadora

Los números que informa

Fuentes y Lectura Adicional

Calculadoras relacionadas de sem.chat

Preguntas Frecuentes

Términos de Pruebas A/B, en Español Sencillo

¿Optimizando su Tasa de Conversión?