Prueba de chi-cuadrado
Soltero: 47 Casado: 71 Divorciado: 35 |
Soltero: 44 Casado: 85 Divorciado: 40 |
Grupos y números
Investiga dos grupos y los coloca en categorías de solteros, casados o divorciados:
Los números son definitivamente diferentes, pero …
- ¿Es eso una casualidad aleatoria?
- ¿O has encontrado algo interesante?
¡La Prueba de Chi-Cuadrado le da un valor “p” para ayudarlo a decidir!
Ejemplo: “¿Qué vacaciones prefieres?”
Playa | Crucero | |
Hombres | 209 | 280 |
Mujeres | 225 | 248 |
¿El género afecta las vacaciones preferidas?
Si el género (hombre o mujer) afecta a las vacaciones preferidas, decimos que son dependientes .
Al hacer algunos cálculos especiales (explicados más adelante), obtenemos un valor “p”:
el valor p es 0.132
Ahora, p <0,05 es la prueba habitual para la dependencia .
En este caso p es mayor que 0,05 , por lo que creemos que las variables son independientes (es decir, no están vinculadas entre sí).
En otras palabras, los hombres y las mujeres probablemente no tienen una preferencia diferente por vacaciones en la playa o cruceros.
Las diferencias aleatorias son las que esperamos al recopilar datos.
Comprensión del valor “p”
“p” es la probabilidad las variables son independientes .
Imagine que el ejemplo anterior fue, de hecho, dos muestras aleatorias de Hombres cada vez:
Hombres: Playa 209, crucero 280 |
Hombres: Playa 225, crucero 248 |
¿Es probable que obtenga resultados tan diferentes al encuestar a los hombres cada vez?
Bueno, el valor “p” de 0.132 dice que realmente podría suceder cada cierto tiempo.
Las encuestas son aleatorias después de todo. Esperamos resultados ligeramente diferentes cada vez, ¿verdad?
Entonces, la mayoría de la gente quiere ver un valor p menor que 0.05 antes de contentarse con decir que los resultados muestran que los grupos tienen una respuesta diferente.
Veamos otro ejemplo:
Ejemplo: “¿Qué mascota prefieres?”
Gato | Perro | |
Hombres | 207 | 282 |
Mujeres | 231 | 242 |
Al hacer los cálculos (mostrados más adelante), obtenemos:
El valor P es 0,043
En este caso p <0,05 , por lo que este resultado se considera “significativo”, lo que significa que creemos que las variables son no independientes.
En otras palabras, porque 0.043 <0.05 creemos que el género está vinculado a la preferencia de mascotas (los hombres y las mujeres tienen diferentes preferencias para los gatos y los perros).
Solo por interés, observe que los números en nuestros dos ejemplos son similares, pero los valores p resultantes son muy diferentes: 0.132 y 0.043 . ¡Esto muestra cuán sensible es la prueba!
¿Por qué p <0.05?
¡Es solo una elección! El uso de p <0.05 es común , pero podríamos haber elegido p <0.01 para estar aún más seguros de que los grupos se comportan de manera diferente, o cualquier valor realmente.
Cálculo del valor P
Entonces, ¿cómo calculamos este valor p? ¡Usamos la prueba Chi-Square!
Prueba de chi-cuadrado
Nota: Chi Suena como “Hola” pero con una K , por lo que suena como “ Ki cuadrado”
Y Chi es la letra griega Χ , por lo que también podemos escribirla Χ 2
Puntos importantes antes de comenzar:
- Esta prueba solo funciona para datos categóricos (datos en categorías), como Género {Hombres, Mujeres} o color {Rojo, Amarillo, Verde, Azul}, etc., pero no numérico [ 19459027] datos como altura o peso.
- Los números deben ser lo suficientemente grandes. Cada entrada debe ser 5 o más. En nuestro ejemplo, tenemos valores como 209, 282, etc., así que estamos listos.
Nuestro primer paso es establecer nuestras hipótesis :
Hipótesis : Una afirmación que podría ser cierta, que luego se puede probar.
Las dos hipótesis son.
- El género y la preferencia por gatos o perros son independientes .
- El género y la preferencia por gatos o perros son no independientes .
Coloque los datos en una tabla:
Gato | Perro | |
Hombres | 207 | 282 |
Mujeres | 231 | 242 |
Agregue filas y columnas:
Gato | Perro | ||
Hombres | 207 | 282 | 489 |
Mujeres | 231 | 242 | 473 |
438 | 524 | 962 |
Calcule el “Valor esperado” para cada entrada:
Multiplique el total de cada fila por el total de cada columna y divida por el total general:
Gato | Perro | ||
Hombres | 489 × 438 962 | 489 × 524 962 | 489 |
Mujeres | 473 × 438 962 | 473 × 524 962 | 473 |
438 | 524 | 962 |
Lo que nos da:
Gato | Perro | ||
Hombres | 222,64 | 266,36 | 489 |
Mujeres | 215,36 | 257,64 | 473 |
438 | 524 | 962 |
Reste lo esperado de lo observado, cuadrácelo, luego divida entre lo esperado:
En otras palabras, use la fórmula (O − E) 2 E donde
- O = Observado (real) valor
- E = Valor esperado
Gato | Perro | ||
Hombres | (207−222,64) 2 222,64 |
(282−266,36) 2 266,36 |
489 |
Mujeres | (231−215,36) 2 215,36 |
(242−257,64) 2 257,64 |
473 |
438 | 524 | 962 |
Lo que nos lleva:
Gato | Perro | ||
Hombres | 1.099 | 0,918 | 489 |
Mujeres | 1.136 | 0,949 | 473 |
438 | 524 | 962 |
Ahora suma esos valores calculados:
1.099 + 0.918 + 1.136 + 0.949 = 4.102
Chi-Square es 4.102
De Chi-Square a p
Grados de libertad
Primero necesitamos un “Grado de libertad”
Grado de libertad = (filas – 1) × (columnas – 1)
Para nuestro ejemplo tenemos 2 filas y 2 columnas:
DF = (2 – 1) (2 – 1) = 1 × 1 = 1
valor p
El resto del cálculo es difícil, así que búsquelo en una tabla o utilice la Calculadora de chi-cuadrado .
El resultado es:
p = 0,04283
¡Listo!
Fórmula Chi-cuadrado
Esta es la fórmula para Chi-Square:
Χ 2 = Σ (O – E) 2 [ 19459055] E
- Σ significa resumir (ver Notación Sigma )
- O = cada Valor observado (real)
- E = cada Valor esperado
Entonces calculamos (O − E) 2 E para cada par de valores observados y esperados y luego los sumamos todos .