Distribución normal
Los datos se pueden “distribuir” (distribuir) de diferentes maneras.
Se puede extender más a la izquierda |
O más a la derecha |
|
O se puede mezclar todo |
Pero hay muchos casos en los que los datos tienden a estar alrededor de un valor central sin sesgo hacia la izquierda o hacia la derecha, y se acerca a una “Distribución normal” como esta:
Una distribución normal
La “curva de campana” es una distribución normal.
Y el histograma amarillo muestra
algunos datos que
lo sigue de cerca
pero no perfectamente (lo cual es habitual).
A menudo se le llama “curva de campana” porque parece una campana |
Muchas cosas siguen de cerca una Distribución Normal:
- alturas de personas
- tamaño de las cosas producidas por máquinas
- errores en las mediciones
- presión arterial
- marcas en una prueba
Decimos que los datos están “distribuidos normalmente”:
La Distribución normal tiene:
- media = mediana = modo
- simetría sobre el centro
- 50% de valores inferiores a la media
y 50% mayor que la media
Quincunx
¡Puedes ver una distribución normal creada por azar!
Se llama Quincunx y es una máquina increíble. ¡Juega con eso! |
Desviaciones estándar
La Desviación estándar es una medida de la extensión
nuestros números son (lea esa página para obtener detalles sobre cómo calcularla).
Cuando calculamos la desviación estándar encontramos que generalmente :
68% de los valores están dentro de 95% de los valores están dentro de
99.7% de los valores están dentro de |
Ejemplo: el 95% de los estudiantes en la escuela tienen entre 1.1m y 1.7m de altura.
Suponiendo que estos datos estén normalmente distribuidos , ¿puede calcular la media y la desviación estándar?
La media está a medio camino entre 1,1 my 1,7 m:
Media = (1.1m + 1.7m) / 2 = 1.4m
95% son 2 desviaciones estándar a cada lado de la media (un total de 4 desviaciones estándar), entonces:
1 desviación estándar | = (1,7 m-1,1 m) / 4 |
= 0,6 m / 4 | |
= 0,15 m |
Y este es el resultado:
Es bueno saber la desviación estándar, porque podemos decir que cualquier valor es:
- es probable que esté dentro de 1 desviación estándar (68 de 100 deberían estarlo)
- muy probable estar dentro de 2 desviaciones estándar (95 de cada 100 deberían estar)
- casi con certeza dentro de 3 desviaciones estándar (997 de 1000 deberían ser)
Puntajes estándar
El número de desviaciones estándar de la media también se denomina “Puntaje estándar”, “sigma” o “puntaje z”. ¡Acostúmbrate a esas palabras!
Ejemplo: en esa misma escuela uno de tus amigos tiene 1,85 m de altura
Puede ver en la curva de campana que 1.85m es 3 desviaciones estándar de la media de 1.4, entonces:
La altura de tu amigo tiene un “puntaje z” de 3,0
También es posible calcular cuántas desviaciones estándar es 1.85 de la media
¿A qué distancia está 1.85 de la media?
Es 1.85 – 1.4 = 0.45m de la media
¿Cuántas desviaciones estándar es esa? La desviación estándar es 0.15m, entonces:
0.45m / 0.15m = 3 desviaciones estándar
Entonces, para convertir un valor en un Puntaje estándar (“puntaje z”):
- primero resta la media,
- luego dividir por la desviación estándar
Y hacer eso se llama “Estandarización”:
Podemos tomar cualquier distribución normal y convertirla a la distribución normal estándar.
Ejemplo: tiempo de viaje
Una encuesta sobre el tiempo de viaje diario tuvo estos resultados (en minutos):
26, 33, 65, 28, 34, 55, 25, 44, 50, 36, 26, 37, 43, 62, 35, 38, 45, 32, 28, 34
La media es 38.8 minutos , y la desviación estándar es 11.4 minutos (puede copiar y pegar los valores en Calculadora de desviación estándar si lo desea )
Convierta los valores en puntajes z (“puntajes estándar”).
Para convertir 26 :
Entonces 26 es −1.12 Desviaciones estándar de la media
Aquí están las tres primeras conversiones
Valor original | Cálculo | Puntuación estándar (puntuación z) |
26 | (26-38.8) / 11.4 = | −1.12 |
33 | (33-38.8) / 11.4 = | −0,51 |
65 | (65-38.8) / 11.4 = | +2,30 |
… | … | … |
Y aquí están gráficamente:
¡Puedes calcular el resto de las puntuaciones z tú mismo!
La fórmula de puntaje z que hemos estado usando es:
z = x – μ σ
- z es el “puntaje z” (puntaje estándar)
- x es el valor a estandarizar
- μ (‘mu “) es la media
- σ (“sigma”) es la desviación estándar
Y así es como se usa:
Ejemplo: tiempo de viaje (continuación)
Aquí están las tres primeras conversiones utilizando la “fórmula de puntuación z”:
z = x – μ σ
- μ = 38,8
- σ = 11,4
x | x – μ σ | z (puntuación z) |
---|---|---|
26 | 26 – 38.8 11.4 | = −1.12 |
33 | 33 – 38.8 11.4 | = −0,51 |
65 | 65 – 38.8 11.4 | = +2,30 |
… | … | … |
Los cálculos exactos que hicimos antes, solo siguiendo la fórmula.
¿Por qué estandarizar …?
Puede ayudarnos a tomar decisiones sobre nuestros datos.
Ejemplo: el profesor Willoughby está marcando una prueba.
Aquí están los resultados del estudiante (de 60 puntos):
20, 15, 26, 32, 18, 28, 35, 14, 26, 22, 17
La mayoría de los estudiantes ni siquiera obtuvieron 30 de 60, y la mayoría fallará .
La prueba debe haber sido realmente difícil, por lo que el profesor decide estandarizar todos los puntajes y solo falla a las personas 1 desviación estándar por debajo de la media.
La Media es 23 , y la desviación estándar es 6.6 , y estos son los puntajes estándar:
-0,45, -1,21 , 0,45, 1,36, -0,76, 0,76, 1,82, -1,36 , 0,45, -0,15, -0,91
Ahora solo 2 estudiantes fallarán (los que tienen una desviación estándar menor que -1)
¡Mucho más justo!
También facilita la vida porque solo necesitamos una tabla (la Tabla de distribución normal estándar ), en lugar de hacer cálculos individualmente para cada valor de media y desviación estándar.
Más detalladamente
Aquí está la distribución normal estándar con porcentajes por cada mitad de una desviación estándar , y porcentajes acumulativos:
Ejemplo: Su puntaje en una prueba reciente fue 0.5 desviaciones estándar por encima del promedio, ¿cuántas personas obtuvieron menos que usted?
- Entre 0 y 0,5 es 19,1%
- Menos de 0 es 50% (mitad izquierda de la curva)
Entonces, el total menor que usted es:
50% + 19,1% = 69,1%
En teoría 69.1% obtuvo menos que usted (pero con datos reales el porcentaje puede ser diferente)
Un ejemplo práctico: su empresa empaca azúcar en bolsas de 1 kg.
Cuando pesas una muestra de bolsas obtienes estos resultados:
- 1007g, 1032g, 1002g, 983g, 1004g, … (cien mediciones)
- Media = 1010 g
- Desviación estándar = 20 g
Algunos valores son inferiores a 1000 g … ¿puedes arreglar eso?
La distribución normal de sus mediciones se ve así:
31% de las bolsas son menos de 1000 g,
que esta engañando al cliente!
Es algo aleatorio, por lo que no podemos detener bolsas que tienen menos de 1000 g, pero podemos intentar reducirlo mucho.
Vamos a ajustar la máquina para que 1000 g sea:
- a −3 desviaciones estándar:
- a −2.5 desviaciones estándar:
Entonces, ajustemos la máquina para que tenga 1000g a −2.5 desviaciones estándar de la media.
Ahora, podemos ajustarlo a:
- aumenta la cantidad de azúcar en cada bolsa (que cambia la media), o
- hacerlo más preciso (lo que reduce la desviación estándar)
Probemos ambos.
Ajuste la cantidad media en cada bolsa
La desviación estándar es de 20 g, y necesitamos 2.5 de ellos:
2,5 × 20 g = 50 g
Entonces la máquina debería promediar 1050g , así:
Ajuste la precisión de la máquina
O podemos mantener la misma media (de 1010 g), pero luego necesitamos 2.5 estándar
desviaciones para ser igual a 10 g:
10 g / 2,5 = 4 g
Entonces la desviación estándar debería ser 4g , así:
(¡Esperamos que la máquina sea tan precisa!)
O tal vez podríamos tener una combinación de mejor precisión y un tamaño promedio ligeramente mayor, ¡lo dejaré a usted!
Valores más precisos …
Utilice la Tabla de distribución normal estándar cuando desee valores más precisos.