Gráficos de dispersión
Una gráfica de Scatter (XY) tiene puntos que muestran la relación entre dos conjuntos de datos.
En este ejemplo, cada punto muestra el peso de una persona versus su altura.
(Los datos se trazan en el gráfico como ” Coordenadas cartesianas (x, y) “)
Ejemplo:
La heladería local realiza un seguimiento de la cantidad de helado que venden en comparación con la temperatura del mediodía de ese día. Estas son sus cifras de los últimos 12 días:
Venta de helados frente a temperatura | |
Temperatura ° C | Venta de helados |
---|---|
14,2 ° | $ 215 |
16,4 ° | $ 325 |
11,9 ° | $ 185 |
15,2 ° | $ 332 |
18,5 ° | $ 406 |
22,1 ° | $ 522 |
19,4 ° | $ 412 |
25,1 ° | $ 614 |
23,4 ° | $ 544 |
18,1 ° | $ 421 |
22,6 ° | $ 445 |
17.2 ° | $ 408 |
Y aquí están los mismos datos que un Gráfico de dispersión :
Ahora es fácil ver que el clima más cálido genera más ventas , pero la relación no es perfecta.
Línea de mejor ajuste
También podemos dibujar una “Línea de mejor ajuste” (también llamada “Línea de tendencia”) en nuestro diagrama de dispersión:
Intente tener la línea lo más cerca posible de todos los puntos , y tantos puntos sobre la línea como abajo.
Pero para una mejor precisión podemos calcular la línea usando Regresión de mínimos cuadrados y Calculadora de mínimos cuadrados .
Ejemplo: aumento del nivel del mar
Un diagrama de dispersión del aumento del nivel del mar: |
|
Y aquí he dibujado una “Línea de mejor ajuste”. |
Interpolación y extrapolación
La interpolación es donde encontramos un valor dentro de nuestro conjunto de puntos de datos.
Aquí usamos interpolación lineal para estimar las ventas a 21 ° C.
La extrapolación es donde encontramos un valor fuera de nuestro conjunto de puntos de datos.
Aquí usamos extrapolación lineal para estimar las ventas a 29 ° C (que es más alto que cualquier valor que tengamos).
Cuidado: La extrapolación puede dar resultados engañosos porque estamos en “territorio desconocido”.
Además de utilizar un gráfico (como el anterior), podemos crear una fórmula para ayudarnos.
Ejemplo: ecuación de línea recta
Podemos estimar una ecuación de línea recta a partir de dos puntos del gráfico anterior
Vamos a estimar dos puntos en la línea cerca de los valores reales: (12 °, $ 180) y (25 °, $ 610)
Primero, encuentra la pendiente:
pendiente “m” | = cambio en y cambio en x |
= $ 610 – $ 180 25 ° – 12 ° |
|
= $ 430 13 ° |
|
= 33 (redondeado) |
Ahora ponga la pendiente y el punto (12 °, $ 180) en la fórmula “punto-pendiente” :
y – y 1 = m (x – x 1 )
y – 180 = 33 (x – 12)
y = 33 (x – 12) + 180
y = 33x – 396 + 180
y = 33x – 216
INTERpolando
Ahora podemos usar esa ecuación para interpolar un valor de venta a 21 °:
y = 33 × 21 ° – 216 = $ 477
EXTRApolando
Y para extrapolar un valor de venta a 29 °:
y = 33 × 29 ° – 216 = $ 741
Los valores están cerca de lo que obtuvimos en el gráfico. Pero eso no significa que sean más (o menos) precisos. Todos son solo estimaciones.
¡No uses la extrapolación demasiado lejos! ¿Qué ventas esperarías a 0 °?
y = 33 × 0 ° – 216 = – $ 216
Hmmm … Menos $ 216 ? ¡Extrapolamos demasiado lejos!
Nota: utilizamos interpolación y extrapolación lineal (basada en una línea ), pero hay muchos otros tipos, por ejemplo, podríamos usar polinomios para hacer líneas curvas, etc.
Correlación
Cuando los dos conjuntos de datos están fuertemente vinculados, decimos que tienen una alta correlación .
La palabra Correlación está hecha de Co- (que significa “juntos”) y Relación
- La correlación es Positiva cuando los valores aumentan juntos y
- La correlación es Negativa cuando un valor disminuye a medida que el otro aumenta
Así:
(Más información Más información sobre la correlación )
Correlación negativa
Las correlaciones pueden ser negativas, lo que significa que es una correlación pero un valor disminuye a medida que aumenta el otro valor.
Ejemplo: tasa de natalidad vs ingresosLa tasa de natalidad tiende a ser más baja en los países más ricos. A continuación se muestra un diagrama de dispersión para unos 100 países diferentes. |
|
Tiene una correlación negativa (la línea desciende)
Nota: Traté de ajustar una línea recta a los datos, pero tal vez una curva funcionaría mejor, ¿qué crees?