Guía Esencial para Empezar en R con RStudio. Parte 2


Rosa Molina

Esta es la Parte 2 de "Todo lo que necesitas para empezar en R". Es más pesada, así que requiero de toda nuestra concentración. Seguro encontrarás algo que no sabías.

Esta vez hablaremos de variables y terminaremos el tour de la interfaz de RStudio mientras nos familiarizamos con los temas de estructuras de datos ("data structures"), librerías/paquetes y el sagrado directorio de trabajo. Vamos allá.


ADVERTISEMENT



Variables

En una variable se almacena información. Para asignar un valor a una variable se usa el signo = o también <-. Usaremos la función class() para evaluar qué tipo de dato tiene nuestro vector. Ejemplos:

#Una variable puede almacenar valores númericos
a <- 10

class(a)
"numeric"
#Una variable puede almacenar valores lógicos
b <- TRUE

class(b)
"logical"
#Una variable puede almacenar caracteres
c <- "TRUE"
d <- '10'

class(c)
class(d)
"character"
"character"

El nombre de una variable puede contener letras, números, puntos y guiones bajos. Sin embargo, el nombre no puede comenzar con un número ni con un guión bajo.


RStudio. Tour Express Parte 2. Estructuras de datos (data structures)

Comencemos con las estructuras de datos. Las que necesitas saber por ahora son estas tres: vectores, data frames y factores. Todas pueden estar contenidas dentro de una variable, así:

#Un vector se define con la función c() que significa "combine"
x <- c(-1, 0, 1)

#Para ver el contenido de una variable sólo escribes su nombre
x
-1  0  1

Un vector puede ser un conjunto de números, o un conjunto de caracteres, o un conjunto de valores lógicos. No se pueden almacenar distintos tipos de datos en un mismo vector.

Un data frame es un objeto tabular. Está construido a base de vectores, donde, cada vector es una columna de la "tabla". Veamos cómo se construye:

#Para definir un data frame se usa la función data.frame()
y <- data.frame(
  color = c("azul", "verde", "rojo"),
  valor = c(450, 500, 650)
)

y
   color valor
1  azul   450
2 verde   500
3  rojo   650

La función data.frame(), a diferencia de class(), tiene más de un argumento. Los argumentos dentro de una función se separan con comas. Cada argumento de la función data.frame() es uno de los vectores (columnas) que conformarán la "tabla". Primero, se especifica el nombre de la columna, seguido de un signo =, y por último la definición del vector.

Para terminar con las estructuras básicas están los factores. Son muy similares a los vectores pero con una característica adicional. Exploremos:

#Para construir un factor se necesita un vector
x <- c("azul", "verde", "rojo", "azul")

#Posteriormente, se usa la función factor() para transformar un vector en factor
x <- factor(x)

x
   azul  verde  rojo  azul
Levels: azul rojo verde

¿Qué fue lo que pasó? Sucede que al convertir un vector en factor, no sólo se almacena el vector, sino también sus valores únicos, todo en una misma variable. Esto es muy útil en estadística para variables discretas. R detectó que sólo hay tres niveles dentro del factor: "azul", "rojo" y "verde". Pueden repetirse dentro del factor, pero esos son los valores únicos.

Ahora, si eres muy atento te habrás dado cuenta que cuando definimos variables algo ocurre en la ventana superior derecha de RStudio (aquí es donde entra la parte del Tour Express):

Ventana 'Workspace' dentro de RStudio.

Esta ventana es el espacio de trabajo y aquí siempre se encontrarán las variables y funciones que definamos. También te habrás dado cuenta que sólo tenemos una variable llamada x. Al principio la definimos como vector, y después como factor. Cada vez que definimos x se sobreescribe. No puede haber dos variables con el mismo nombre.

Cada vez que abres R, se inicia una "sesión" y todas las variables que definas en esa sesión se pueden guardar como espacio de trabajo (con la extensión .RData), para importarlo la próxima vez que inicies R.


RStudio. Tour Express Parte 3. Librerías/Paquetes

Llegó el momento de explicar (en parte) la última ventana de RStudio. La ventana inferior derecha es multiusos pero vaya que es útil. Empezemos con la pestaña denominada "Packages".

Ventana 'Packages' dentro de RStudio.

En la pestaña "Packages" se encuentran todas las librerías (o paquetes) que tienes instalados para usar en R. Recordemos que las librerías son paquetes de funciones que se desarrollan con un propósito particular.

R viene con paquetes pre-instalados con los que se pueden hacer cosas muy útiles (próximamente: entrada del blog con las funciones base más útiles). Sin embargo, las posibilidades son infinitas con paquetes de terceros (como tidyverse, ggplot2, dplyr, etc.). Así que a continuación veremos cómo instalarlos:

#Para instalar paquetes se usa la función install.packages() con el nombre del paquete entre comillas dobles ""
install.packages("readxl")

R se encarga de la instalación y, una vez terminada, puedes buscar el paquete en la pestaña "Packages" para confirmar.

Para usar las funciones de los paquetes que instales, necesitas primero cargarlos. Es fácil:

#Para cargar un paquete se usa la función library() con el nombre del paquete (pero sin comillas eh)
library(readxl)

Si no sabes cómo usar alguna función de un paquete que tienes cargado, puedes usar la pestaña "Help" para buscarla. Aquí encontraremos para qué sirve una función, cómo escribir sus argumentos, y ejemplos de cómo usarla.


Directorio de trabajo (working directory) y lectura de datos

Esta última parte es crucial. Aquí hemos fallado todos. Algunos sólo al principio, y otros todos los días. El directorio de trabajo.

Como ya sabemos, cada vez que abrimos R, se inicia una "sesión", esta sesión es como un explorador de archivos, está abierto en un punto de nuestra computadora, el cual por default es /Documentos o /Documents o algo parecido.

#Para ver cuál es el directorio de trabajo usamos la función getwd() "get working directory"
getwd()
"C:/Users/usuario/Documents"

El directorio de trabajo es importante al guardar y abrir archivos. Cuando un script (.R) está guardado, digamos, en "C:/Users/usuario/Desktop", cada vez que abras ese script, el directorio de trabajo será "C:/Users/usuario/Desktop".

El directorio de trabajo es importante también para leer archivos. Vamos a usar el paquete readxl, que instalamos y cargamos anteriormente, para abrir una hoja de Excel (.xlsx) en R. Así es, una hoja de Excel.

#Para abrir una hoja de Excel usamos la función read.xlsx() del paquete "readxl"
hoja_de_excel <- read.xlsx("C:/Users/usuario/Desktop/archivo_excel.xlsx", sheet=1)

#Para abrir una hoja Excel (1997-2003) usamos la función read.xls()

La función read.xlsx tiene varios argumentos. El primer argumento es la ruta del archivo .xlsx, y el segundo es la hoja que queremos cargar (se puede usar el número o el nombre de la hoja). R carga la hoja de Excel como un data frame dentro de la variable que llamamos "hoja_de_excel".

Ahora, si nuestro directorio de trabajo fuera "C:/Users/usuario/Desktop", podríamos escribir el comando de una forma más sencilla:

#Como el archivo de Excel está justamente en el directorio de trabajo, podemos omitir esa parte de la ruta
hoja_de_excel <- read.xlsx("archivo_excel.xlsx", sheet=1)

Con esto siempre hay que tener cuidado, pues, si nuestro directorio de trabajo fuera cualquier otro, digamos "C:/Users/usuario/Documents", la línea anterior devolvería un error.

¿Cómo cambiar el directorio de trabajo? Hay cuatro formas, así que elijamos la que más nos guste.

  • Forma 1.
#Para cambiar el directorio de trabajo usamos la función setwd() "set working directory"
setwd("C:/Users/usuario/Desktop")

Importante
Las rutas siempre se escriben entre comillas dobles.

  • Forma 2.

En el menú principal de RStudio, en "Session" > "Set Working Directory" > "Choose Directory".

  • Forma 3.

Usando el atajo Ctrl + Shift + H.

  • Forma 4.

La ventana inferior derecha (!!!), la misma que tiene las pestañas de "Packages" y "Help", tiene otra pestaña llamada "Files". Desde ahí puedes navegar hacia cualquier carpeta, y posteriormente hacer click en el botón de "More" > "Set as Working Directory". Genial ¿no?


Comentarios finales

Hoy vimos bastante, así que recomiendo releer y guardar esta página en favoritos para futuras referencias. Las variables y las estructuras de datos son cosas con las que lidias todos los días en R, así que hay que comprenderlas muy bien. También hay que dominar la interfaz de RStudio, ya que es muy poderosa y, cuando lo haces, aumenta tu eficiencia al programar.

Si el blog te ha ayudado de alguna manera, por favor considera compartirlo en redes. Nos ayudas mucho haciéndolo.

Por último y como siempre, quisiera recomendarte recursos muy buenos (en inglés) para consultar:

Eso es todo, ¡gracias por leer!


Esta publicación fue hecha usando R versión 3.6.3 (2020-02-29).

ADVERTISEMENT



← Publicación más antigua Publicación más reciente →


Acerca del autor


Foto del autor

Rosa Molina

Rosa es nuestra bióloga experta en R. Le gusta la observación de aves y tocar el piano de vez en cuando.




0 comentarios

Dejar un comentario

Por seguridad, los comentarios deben ser aprobados antes de ser publicados