Los indicadores estadísticos resumen un gran conjunto de datos en unos pocos valores, lo cual implica pérdida de información que puede resultar de importancia.
anscombe
El conjunto de datos Este conjunto de datos son realmente cuatro subconjuntos formados por parejas x
-y
. Usemos alguno de los comandos de R que hemos conocido para explorar sus características. La función round()
redondea el resultado: las medias, varianzas, etc., al número de decimales indicado.
str(anscombe) # Estructura del conjunto de datos
## 'data.frame': 11 obs. of 8 variables:
## $ x1: num 10 8 13 9 11 14 6 4 12 7 ...
## $ x2: num 10 8 13 9 11 14 6 4 12 7 ...
## $ x3: num 10 8 13 9 11 14 6 4 12 7 ...
## $ x4: num 8 8 8 8 8 8 8 19 8 8 ...
## $ y1: num 8.04 6.95 7.58 8.81 8.33 ...
## $ y2: num 9.14 8.14 8.74 8.77 9.26 8.1 6.13 3.1 9.13 7.26 ...
## $ y3: num 7.46 6.77 12.74 7.11 7.81 ...
## $ y4: num 6.58 5.76 7.71 8.84 8.47 7.04 5.25 12.5 5.56 7.91 ...
round(c(mean(anscombe$x1),
mean(anscombe$x2),
mean(anscombe$x3),
mean(anscombe$x4)),1) # Medias de las X
## [1] 9 9 9 9
round(c(mean(anscombe$y1),
mean(anscombe$y2),
mean(anscombe$y3),
mean(anscombe$y4)),1) # Medias de las Y
## [1] 7.5 7.5 7.5 7.5
round(c(var(anscombe$x1),
var(anscombe$x2),
var(anscombe$x3),
var(anscombe$x4)),1) # Varianzas de las X
## [1] 11 11 11 11
round(c(var(anscombe$y1),
var(anscombe$y2),
var(anscombe$y3),
var(anscombe$y4)),1) # Varianzas de las Y
## [1] 4.1 4.1 4.1 4.1
round(c(cor(anscombe$x1, anscombe$y1), # Coeficientes de correlación
cor(anscombe$x2, anscombe$y2),
cor(anscombe$x3, anscombe$y3),
cor(anscombe$x4, anscombe$y4)), 2)
## [1] 0.82 0.82 0.82 0.82
lm(anscombe$y1 ~ anscombe$x1) # Línea de regresión
##
## Call:
## lm(formula = anscombe$y1 ~ anscombe$x1)
##
## Coefficients:
## (Intercept) anscombe$x1
## 3.0001 0.5001
lm(anscombe$y2 ~ anscombe$x2)
##
## Call:
## lm(formula = anscombe$y2 ~ anscombe$x2)
##
## Coefficients:
## (Intercept) anscombe$x2
## 3.001 0.500
lm(anscombe$y3 ~ anscombe$x3)
##
## Call:
## lm(formula = anscombe$y3 ~ anscombe$x3)
##
## Coefficients:
## (Intercept) anscombe$x3
## 3.0025 0.4997
lm(anscombe$y4 ~ anscombe$x4)
##
## Call:
## lm(formula = anscombe$y4 ~ anscombe$x4)
##
## Coefficients:
## (Intercept) anscombe$x4
## 3.0017 0.4999
A la vista de estos resultados, podríamos concluir que los subconjuntos de datos (xN, yN)
siguen todos la misma distribución y, por tanto, su población es básicamente idéntica. ¿SEGURO?
Visualización de las muestras de datos
La vía más efectiva y rápida, y en ocasiones la única, para comprobar si las muestras de datos tienen una distribución similar es la visualización.
plot(anscombe$x1, anscombe$y1)
plot(anscombe$x2, anscombe$y2)
plot(anscombe$x3, anscombe$y3)
plot(anscombe$x4, anscombe$y4)
Como es fácil apreciar, la distribución de estos cuatro subconjuntos de datos son totalmente distintas, de ahí la importancia de visualizar los datos y no confiar únicamente en los indicadores estadísticos.