Valores atípicos

Los “valores atípicos” son valores que “ se encuentran fuera del lado” de los otros valores.

 

outlier

Cuando recopilamos datos, a veces hay valores que están “muy lejos” del grupo principal de datos … ¿qué hacemos con ellos?

 

Ejemplo: salto largo

long jump

Un nuevo entrenador ha estado trabajando con el equipo de Long Jump este mes, y el rendimiento de los atletas ha cambiado.

Augustus ahora puede saltar 0.15m más, junio y Carol puede saltar 0.06m más.

Aquí están todos los resultados:

  • Augustus: + 0,15 m
  • Tom: + 0,11 m
  • Junio: + 0,06 m
  • Carol: + 0,06 m
  • Bob: + 0,12 m
  • Sam: -0,56 m

¡Oh no! Sam empeoró.

Aquí están los resultados en la recta numérica:

outlier example 1

La media es:

(0.15 + 0.11 + 0.06 + 0.06 + 0.12-0.56) / 6 = -0.06 / 6 = -0.01m

Entonces, en promedio, el rendimiento fue DOWN .

El entrenador es obviamente inútil … ¿verdad?

El resultado de Sam es un “Outlier” … ¿y si eliminamos el resultado de Sam?

out, liar!

Ejemplo: salto largo (continuación)

Probemos los resultados SIN Sam:

outlier example without outlier

Media = (0.15 + 0.11 + 0.06 + 0.06 + 0.12) / 5 = 0.1 m

¡Hola, el entrenador se ve mucho mejor ahora!

¿Pero eso es justo? ¿Podemos deshacernos de los valores que no nos gustan?

¿Qué hacer?

Tienes que pensar “¿por qué ese valor está ahí?”

Puede ser bastante normal tener valores altos o bajos

  • Las personas pueden ser bajas o altas
  • Algunos días no llueve, otros días puede haber aguacero
  • Los atletas pueden desempeñarse mejor o peor en días diferentes

O puede haber una razón inusual para datos extremos

Ejemplo: salto largo (continuación)

Descubrimos que Sam se sentía enfermo ese día. No es culpa del entrenador en absoluto.

Por lo tanto, es una buena idea en este caso eliminar el resultado de Sam.

Cuando eliminamos los valores atípicos, estamos cambiando los datos , ya no es “puro”, ¡así que no deberíamos deshacernos de los valores atípicos sin una buena razón!

 

Y cuando nos deshagamos de ellos, deberíamos explicar qué estamos haciendo y por qué .

Media, mediana y moda

Vimos cómo los valores atípicos afectan la media , pero ¿qué pasa con la mediana o ?

Ejemplo: salto largo (continuación)

La mediana (valor “medio”):

  • incluyendo a Sam es: 0.085
  • sin Sam es: 0.11 (subió un poco)

El modo (el valor más común):

  • incluido Sam es: 0.06
  • sin Sam es: 0.06 (se mantuvo igual)

La moda y la mediana no cambiaron mucho.

 

También se quedaron donde está la mayoría de los datos.

Entonces parece que los valores atípicos tienen el mayor efecto en la media, y no tanto en la mediana o la moda.

Sugerencia: calcule la mediana y la moda cuando tenga valores atípicos.

También puede probar la Media geométrica y Media armónica .