Torre de Babel

Introducción a R y RStudio

by Francisco Charte.

¿Qué es R?

R es una herramienta y al mismo tiempo un lenguaje:

  • Herramienta - Programa software en el que introduciremos las órdenes para analizar los datos y generar los gráficos

  • Lenguaje - El conjunto de órdenes que entiende el software forman el lenguaje R

¿Qué es RStudio?

Una herramienta más cómoda a la hora de trabajar con el lenguaje R. Respecto al entorno de trabajo de R, RStudio nos ofrece:

  • Visualización de los gráficos integrada en el mismo entorno
  • Acceso cómodo a la ayuda electrónica sobre R
  • Un editor que nos permite guardar nuestro trabajo
El entorno de RStudio

El entorno de RStudio

¿Qué es un paquete en R?

R es una herramienta extensible. Las funciones que facilita el núcleo de R se pueden ampliar mediante paquetes. Los paquetes se instalan una única vez en el equipo, la primera vez que se necesitan, y luego se cargan cada vez que van a ser usados.

Para instalar un paquete usaremos la opción Install Packages... del menú Tools de RStudio, indicando el nombre del paquete que se necesita:

Opción de instalación de paquetes

Opción de instalación de paquetes

Alternativamente, se puede instalar un paquete desde la línea de comandos de R con el comando install.packages(), facilitando entre los paréntesis y entrecomillado el nombre del paquete.

Una vez que el paquete está instalado en el sistema, cada vez que vaya a usarse hay que cargarlo desde el disco al entorno de R. Para ello se usa el comando library(). En el siguiente ejemplo se carga el paquete para gráficos ggplot2, lo cual permite utilizar los comandos que hay dicho paquete:

library(ggplot2)

Realización de tareas habituales

Algunas de las tareas que necesitaremos llevar a cabo habitualmente en el entorno de RStudio:

  • Cambiar la carpeta: en el panel Files (parte inferior derecha del entorno) aparece en la parte superior la ruta de la carpeta actual. Podemos usar los botones para cambiarla. También se puede usar el comando setwd() en la consola de R para cambiar a la carpeta que se necesite. Por ejemplo:
setwd("D:/FCharte")  # Cambiar a la carpeta FCharte en el disco D:
  • Consultar la ayuda: en el panel ‘Help’ se encuentran los elementos para acceder al índice y buscar cualquier tema en la documentación electrónica integrada. También podemos acceder a la misma desde la consola de R, con el comando help().

  • Cargar datos de un archivo de texto: para trabajar con un conjunto de datos el primer paso es cargarlo en memoria. Asumiendo que los datos están en un archivo de texto, recurriremos a una de las siguientes alternativas:

    • Formato CSV estándar: los datos están separados por comas y se usa el punto decimal read.csv("misdatos.csv")

    • Formato CSV alternativo: los datos están separados por punto y coma y se usa la coma decimal read.csv2("misdatos.csv")

    • Separación con tabuladores: si los datos están separados con tabuladores, como ocurre al pegar desde Excel al portapapeles read.delim("misdatos.txt")

  • Cargar datos desde una hoja Excel: en caso de que nuestros datos estén en una hoja Excel tenemos distintas alternativas para importarlos en R y trabajar con ellos:

    • Mediante el portapapeles: si tenemos los datos abiertos en Excel, esta es la vía más cómoda. El procedimiento consta de los pasos siguientes:

      1. Seleccionamos en Excel el rango de celdillas que contienen los datos que nos interesan
      2. Copiamos los datos al portapapeles
      3. Cambiamos al entorno de R e introducimos en la consola el siguiente comando: misdatos <- read.delim("clipboard")
    • Mediante el paquete xlsx: si los datos están almacenados en un libro Excel que no tenemos abierto, podemos recurrir al siguiente procedimiento:

      1. Cargamos el paquete xlsx con el comando library("xlsx"). Si este comando falla es porque no tenemos instalado dicho paquete, en cuyo caso tendríamos que instalarlo primero.
      2. Usamos el comando read.xlsx() de dicho paquete para cargar los datos: misdatos <- read.xlsx("libroexcel.xlsx", sheetName = "nombreHoja")
  • Obtener una lista de conjuntos de datos disponibles: R incorpora multitud de conjuntos de datos de ejemplo con los que podemos trabajar. Para obtener una lista de ellos usaremos el comando data(). El nombre que aparece en la columna de la izquierda es el nombre del conjunto de datos, el que utilizaremos para trabajar con su contenido. En los ejemplos del punto anterior, al cargar datos externos, asignábamos el nombre misdatos a nuestro conjunto de datos.

  • Obtener información de un conjunto de datos: basta introducir ?nombre en la línea de comandos para obtener información sobre los cambios de un conjunto de datos:

?diamonds
## starting httpd help server ...
##  done