Por qué es importante visualizar los datos a analizar</i><br/><p class="author">by Francisco Charte.</p>

El conjunto de datos anscombe
Visualización de las muestras de datos

Los indicadores estadísticos resumen un gran conjunto de datos en unos pocos valores, lo cual implica pérdida de información que puede resultar de importancia.

La métafora de los pollos

El conjunto de datos `anscombe`

Este conjunto de datos son realmente cuatro subconjuntos formados por parejas x-y. Usemos alguno de los comandos de R que hemos conocido para explorar sus características. La función round() redondea el resultado: las medias, varianzas, etc., al número de decimales indicado.

str(anscombe)  # Estructura del conjunto de datos

## 'data.frame':    11 obs. of  8 variables:
##  $ x1: num  10 8 13 9 11 14 6 4 12 7 ...
##  $ x2: num  10 8 13 9 11 14 6 4 12 7 ...
##  $ x3: num  10 8 13 9 11 14 6 4 12 7 ...
##  $ x4: num  8 8 8 8 8 8 8 19 8 8 ...
##  $ y1: num  8.04 6.95 7.58 8.81 8.33 ...
##  $ y2: num  9.14 8.14 8.74 8.77 9.26 8.1 6.13 3.1 9.13 7.26 ...
##  $ y3: num  7.46 6.77 12.74 7.11 7.81 ...
##  $ y4: num  6.58 5.76 7.71 8.84 8.47 7.04 5.25 12.5 5.56 7.91 ...

round(c(mean(anscombe$x1), 
        mean(anscombe$x2), 
        mean(anscombe$x3), 
        mean(anscombe$x4)),1) # Medias de las X

## [1] 9 9 9 9

round(c(mean(anscombe$y1), 
        mean(anscombe$y2), 
        mean(anscombe$y3), 
        mean(anscombe$y4)),1) # Medias de las Y

## [1] 7.5 7.5 7.5 7.5

round(c(var(anscombe$x1), 
        var(anscombe$x2), 
        var(anscombe$x3), 
        var(anscombe$x4)),1) # Varianzas de las X

## [1] 11 11 11 11

round(c(var(anscombe$y1), 
        var(anscombe$y2), 
        var(anscombe$y3), 
        var(anscombe$y4)),1) # Varianzas de las Y

## [1] 4.1 4.1 4.1 4.1

round(c(cor(anscombe$x1, anscombe$y1),   # Coeficientes de correlación
  cor(anscombe$x2, anscombe$y2), 
  cor(anscombe$x3, anscombe$y3), 
  cor(anscombe$x4, anscombe$y4)), 2)

## [1] 0.82 0.82 0.82 0.82

lm(anscombe$y1 ~ anscombe$x1)   # Línea de regresión

## 
## Call:
## lm(formula = anscombe$y1 ~ anscombe$x1)
## 
## Coefficients:
## (Intercept)  anscombe$x1  
##      3.0001       0.5001

lm(anscombe$y2 ~ anscombe$x2)

## 
## Call:
## lm(formula = anscombe$y2 ~ anscombe$x2)
## 
## Coefficients:
## (Intercept)  anscombe$x2  
##       3.001        0.500

lm(anscombe$y3 ~ anscombe$x3)

## 
## Call:
## lm(formula = anscombe$y3 ~ anscombe$x3)
## 
## Coefficients:
## (Intercept)  anscombe$x3  
##      3.0025       0.4997

lm(anscombe$y4 ~ anscombe$x4)

## 
## Call:
## lm(formula = anscombe$y4 ~ anscombe$x4)
## 
## Coefficients:
## (Intercept)  anscombe$x4  
##      3.0017       0.4999

A la vista de estos resultados, podríamos concluir que los subconjuntos de datos (xN, yN) siguen todos la misma distribución y, por tanto, su población es básicamente idéntica. ¿SEGURO?

Visualización de las muestras de datos

La vía más efectiva y rápida, y en ocasiones la única, para comprobar si las muestras de datos tienen una distribución similar es la visualización.

plot(anscombe$x1, anscombe$y1)

plot(anscombe$x2, anscombe$y2)

plot(anscombe$x3, anscombe$y3)

plot(anscombe$x4, anscombe$y4)

Como es fácil apreciar, la distribución de estos cuatro subconjuntos de datos son totalmente distintas, de ahí la importancia de visualizar los datos y no confiar únicamente en los indicadores estadísticos.

Por qué es importante visualizar los datos a analizarby Francisco Charte.

El conjunto de datos anscombe

Visualización de las muestras de datos

Por qué es importante visualizar los datos a analizar
by Francisco Charte.

El conjunto de datos `anscombe`