Torre de Babel

Por qué es importante visualizar los datos a analizar

by Francisco Charte.

Los indicadores estadísticos resumen un gran conjunto de datos en unos pocos valores, lo cual implica pérdida de información que puede resultar de importancia.

La métafora de los pollos

La métafora de los pollos

El conjunto de datos anscombe

Este conjunto de datos son realmente cuatro subconjuntos formados por parejas x-y. Usemos alguno de los comandos de R que hemos conocido para explorar sus características. La función round() redondea el resultado: las medias, varianzas, etc., al número de decimales indicado.

str(anscombe)  # Estructura del conjunto de datos
## 'data.frame':    11 obs. of  8 variables:
##  $ x1: num  10 8 13 9 11 14 6 4 12 7 ...
##  $ x2: num  10 8 13 9 11 14 6 4 12 7 ...
##  $ x3: num  10 8 13 9 11 14 6 4 12 7 ...
##  $ x4: num  8 8 8 8 8 8 8 19 8 8 ...
##  $ y1: num  8.04 6.95 7.58 8.81 8.33 ...
##  $ y2: num  9.14 8.14 8.74 8.77 9.26 8.1 6.13 3.1 9.13 7.26 ...
##  $ y3: num  7.46 6.77 12.74 7.11 7.81 ...
##  $ y4: num  6.58 5.76 7.71 8.84 8.47 7.04 5.25 12.5 5.56 7.91 ...
round(c(mean(anscombe$x1), 
        mean(anscombe$x2), 
        mean(anscombe$x3), 
        mean(anscombe$x4)),1) # Medias de las X
## [1] 9 9 9 9
round(c(mean(anscombe$y1), 
        mean(anscombe$y2), 
        mean(anscombe$y3), 
        mean(anscombe$y4)),1) # Medias de las Y
## [1] 7.5 7.5 7.5 7.5
round(c(var(anscombe$x1), 
        var(anscombe$x2), 
        var(anscombe$x3), 
        var(anscombe$x4)),1) # Varianzas de las X
## [1] 11 11 11 11
round(c(var(anscombe$y1), 
        var(anscombe$y2), 
        var(anscombe$y3), 
        var(anscombe$y4)),1) # Varianzas de las Y
## [1] 4.1 4.1 4.1 4.1
round(c(cor(anscombe$x1, anscombe$y1),   # Coeficientes de correlación
  cor(anscombe$x2, anscombe$y2), 
  cor(anscombe$x3, anscombe$y3), 
  cor(anscombe$x4, anscombe$y4)), 2)
## [1] 0.82 0.82 0.82 0.82
lm(anscombe$y1 ~ anscombe$x1)   # Línea de regresión
## 
## Call:
## lm(formula = anscombe$y1 ~ anscombe$x1)
## 
## Coefficients:
## (Intercept)  anscombe$x1  
##      3.0001       0.5001
lm(anscombe$y2 ~ anscombe$x2)
## 
## Call:
## lm(formula = anscombe$y2 ~ anscombe$x2)
## 
## Coefficients:
## (Intercept)  anscombe$x2  
##       3.001        0.500
lm(anscombe$y3 ~ anscombe$x3)
## 
## Call:
## lm(formula = anscombe$y3 ~ anscombe$x3)
## 
## Coefficients:
## (Intercept)  anscombe$x3  
##      3.0025       0.4997
lm(anscombe$y4 ~ anscombe$x4)
## 
## Call:
## lm(formula = anscombe$y4 ~ anscombe$x4)
## 
## Coefficients:
## (Intercept)  anscombe$x4  
##      3.0017       0.4999

A la vista de estos resultados, podríamos concluir que los subconjuntos de datos (xN, yN) siguen todos la misma distribución y, por tanto, su población es básicamente idéntica. ¿SEGURO?

Visualización de las muestras de datos

La vía más efectiva y rápida, y en ocasiones la única, para comprobar si las muestras de datos tienen una distribución similar es la visualización.

plot(anscombe$x1, anscombe$y1)

plot(anscombe$x2, anscombe$y2)

plot(anscombe$x3, anscombe$y3)

plot(anscombe$x4, anscombe$y4)

Como es fácil apreciar, la distribución de estos cuatro subconjuntos de datos son totalmente distintas, de ahí la importancia de visualizar los datos y no confiar únicamente en los indicadores estadísticos.