Gráficos de dispersión

scatter plot height vs weight

 

Una gráfica de Scatter (XY) tiene puntos que muestran la relación entre dos conjuntos de datos.

 

En este ejemplo, cada punto muestra el peso de una persona versus su altura.

 

(Los datos se trazan en el gráfico como ” Coordenadas cartesianas (x, y) “)

Ejemplo:

La heladería local realiza un seguimiento de la cantidad de helado que venden en comparación con la temperatura del mediodía de ese día. Estas son sus cifras de los últimos 12 días:

Venta de helados frente a temperatura
Temperatura ° C Venta de helados
14,2 ° $ 215
16,4 ° $ 325
11,9 ° $ 185
15,2 ° $ 332
18,5 ° $ 406
22,1 ° $ 522
19,4 ° $ 412
25,1 ° $ 614
23,4 ° $ 544
18,1 ° $ 421
22,6 ° $ 445
17.2 ° $ 408

Y aquí están los mismos datos que un Gráfico de dispersión :

scatter plot ice cream vs temp

Ahora es fácil ver que el clima más cálido genera más ventas , pero la relación no es perfecta.

Línea de mejor ajuste

También podemos dibujar una “Línea de mejor ajuste” (también llamada “Línea de tendencia”) en nuestro diagrama de dispersión:

scatter plot ice cream vs temp with line

Intente tener la línea lo más cerca posible de todos los puntos , y tantos puntos sobre la línea como abajo.

Pero para una mejor precisión podemos calcular la línea usando Regresión de mínimos cuadrados y Calculadora de mínimos cuadrados .

Ejemplo: aumento del nivel del mar

 

 

Un diagrama de dispersión del aumento del nivel del mar:

mean sea level
Y aquí he dibujado una “Línea de mejor ajuste”. mean sea level with line

 

Interpolación y extrapolación

 

La interpolación es donde encontramos un valor dentro de nuestro conjunto de puntos de datos.

interpolate

 

Aquí usamos interpolación lineal para estimar las ventas a 21 ° C.

 

 

La extrapolación es donde encontramos un valor fuera de nuestro conjunto de puntos de datos.

extrapolate

 

Aquí usamos extrapolación lineal para estimar las ventas a 29 ° C (que es más alto que cualquier valor que tengamos).

 

Cuidado: La extrapolación puede dar resultados engañosos porque estamos en “territorio desconocido”.

 

 

Además de utilizar un gráfico (como el anterior), podemos crear una fórmula para ayudarnos.

 

Ejemplo: ecuación de línea recta

Podemos estimar una ecuación de línea recta a partir de dos puntos del gráfico anterior

Vamos a estimar dos puntos en la línea cerca de los valores reales: (12 °, $ 180) y (25 °, $ 610)

Primero, encuentra la pendiente:

 

pendiente “m” =
cambio en y
cambio en x
=
$ 610 – $ 180
25 ° – 12 °
=
$ 430
13 °
= 33 (redondeado)

Ahora ponga la pendiente y el punto (12 °, $ 180) en la fórmula “punto-pendiente” :

y – y 1 = m (x – x 1 )

y – 180 = 33 (x – 12)

y = 33 (x – 12) + 180

y = 33x 396 + 180

y = 33x 216

INTERpolando

Ahora podemos usar esa ecuación para interpolar un valor de venta a 21 °:

y = 33 × 21 ° 216 = $ 477

EXTRApolando

Y para extrapolar un valor de venta a 29 °:

y = 33 × 29 ° 216 = $ 741

Los valores están cerca de lo que obtuvimos en el gráfico. Pero eso no significa que sean más (o menos) precisos. Todos son solo estimaciones.

¡No uses la extrapolación demasiado lejos! ¿Qué ventas esperarías a 0 °?

y = 33 × 0 ° 216 = $ 216

Hmmm … Menos $ 216 ? ¡Extrapolamos demasiado lejos!

 

 

Nota: utilizamos interpolación y extrapolación lineal (basada en una línea ), pero hay muchos otros tipos, por ejemplo, podríamos usar polinomios para hacer líneas curvas, etc.

 

Correlación

 

Cuando los dos conjuntos de datos están fuertemente vinculados, decimos que tienen una alta correlación .

 

La palabra Correlación está hecha de Co- (que significa “juntos”) y Relación

 

 

  • La correlación es Positiva cuando los valores aumentan juntos y
  • La correlación es Negativa cuando un valor disminuye a medida que el otro aumenta
  •  

 

Así:

 

correlation levels

 

(Más información Más información sobre la correlación )

 

Correlación negativa

Las correlaciones pueden ser negativas, lo que significa que es una correlación pero un valor disminuye a medida que aumenta el otro valor.

 

Ejemplo: tasa de natalidad vs ingresos

La tasa de natalidad tiende a ser más baja en los países más ricos.

A continuación se muestra un diagrama de dispersión para unos 100 países diferentes.

País Anual
Producción
por persona
Nacimiento
Tasa
Madagascar $ 800 5,70
India $ 3,100 2,85
México $ 9.600 2,49
Taiwán $ 25,300 1.57
Noruega $ 40,000 1,78

 

gdp vs birth rate

 

Tiene una correlación negativa (la línea desciende)

Nota: Traté de ajustar una línea recta a los datos, pero tal vez una curva funcionaría mejor, ¿qué crees?