Introducció
El paquet dplyr
és una eina poderosa per a la manipulació de dades en R. Proporciona una sintaxi clara i eficient per realitzar operacions comunes com seleccionar, filtrar, agrupar i resumir dades. En aquest tema, aprendrem a utilitzar les funcions bàsiques de dplyr
per manipular data frames de manera eficient.
Instal·lació i Càrrega del Paquet
Abans de començar, assegura't de tenir instal·lat el paquet dplyr
. Pots instal·lar-lo i carregar-lo amb els següents comandos:
Funcions Bàsiques de dplyr
select()
: Seleccionar Columnes
select()
: Seleccionar ColumnesLa funció select()
s'utilitza per seleccionar columnes específiques d'un data frame.
filter()
: Filtrar Files
filter()
: Filtrar FilesLa funció filter()
s'utilitza per filtrar files basant-se en condicions lògiques.
mutate()
: Crear o Modificar Columnes
mutate()
: Crear o Modificar ColumnesLa funció mutate()
s'utilitza per crear noves columnes o modificar les existents.
arrange()
: Ordenar Files
arrange()
: Ordenar FilesLa funció arrange()
s'utilitza per ordenar les files d'un data frame.
summarize()
: Resumir Dades
summarize()
: Resumir DadesLa funció summarize()
s'utilitza per crear resums estadístics de les dades.
group_by()
: Agrupar Dades
group_by()
: Agrupar DadesLa funció group_by()
s'utilitza per agrupar dades abans d'aplicar funcions de resum.
# Exemple grouped_data <- group_by(data, cyl) summary_grouped_data <- summarize(grouped_data, avg_mpg = mean(mpg), max_hp = max(hp)) summary_grouped_data
Exemple Pràctic
A continuació, es mostra un exemple pràctic que combina diverses funcions de dplyr
per realitzar una anàlisi de dades completa.
# Exemple Pràctic data <- mtcars # Seleccionar columnes rellevants selected_data <- select(data, mpg, cyl, hp, wt) # Filtrar dades per a cotxes amb més de 20 mpg filtered_data <- filter(selected_data, mpg > 20) # Crear una nova columna per a la relació pes/potència mutated_data <- mutate(filtered_data, wt_hp_ratio = wt / hp) # Agrupar per nombre de cilindres grouped_data <- group_by(mutated_data, cyl) # Resumir dades per grup summary_grouped_data <- summarize(grouped_data, avg_mpg = mean(mpg), avg_wt_hp_ratio = mean(wt_hp_ratio)) # Ordenar el resultat per mpg mitjà final_data <- arrange(summary_grouped_data, desc(avg_mpg)) # Mostrar el resultat final print(final_data)
Exercicis Pràctics
Exercici 1
Utilitza el data frame mtcars
per seleccionar les columnes mpg
, cyl
i gear
. Filtra les files on mpg
és superior a 25 i gear
és igual a 4. Ordena el resultat per mpg
en ordre descendent.
Solució
# Solució Exercici 1 data <- mtcars result <- data %>% select(mpg, cyl, gear) %>% filter(mpg > 25, gear == 4) %>% arrange(desc(mpg)) print(result)
Exercici 2
Utilitza el data frame mtcars
per crear una nova columna que representi la relació entre hp
i wt
. Agrupa les dades per cyl
i calcula la mitjana de hp
i wt
per cada grup. Ordena el resultat per la mitjana de hp
en ordre ascendent.
Solució
# Solució Exercici 2 data <- mtcars result <- data %>% mutate(hp_wt_ratio = hp / wt) %>% group_by(cyl) %>% summarize(avg_hp = mean(hp), avg_wt = mean(wt)) %>% arrange(avg_hp) print(result)
Conclusió
En aquesta secció, hem après a utilitzar les funcions bàsiques de dplyr
per manipular dades de manera eficient. Aquestes eines són fonamentals per a qualsevol anàlisi de dades en R, i la seva comprensió és essencial per avançar en l'ús d'aquest llenguatge. En el proper mòdul, explorarem altres estructures de dades com les matrius i els arrays.
Programació en R: De Principiant a Avançat
Mòdul 1: Introducció a R
- Introducció a R i RStudio
- Sintaxi Bàsica de R
- Tipus de Dades i Estructures
- Operacions i Funcions Bàsiques
- Importació i Exportació de Dades
Mòdul 2: Manipulació de Dades
- Vectors i Llistes
- Matrius i Arrays
- Data Frames
- Factors
- Manipulació de Dades amb dplyr
- Manipulació de Cadenes
Mòdul 3: Visualització de Dades
- Introducció a la Visualització de Dades
- Gràfics Base de R
- Conceptes Bàsics de ggplot2
- ggplot2 Avançat
- Visualitzacions Interactives amb plotly
Mòdul 4: Anàlisi Estadística
- Estadístiques Descriptives
- Distribucions de Probabilitat
- Proves d'Hipòtesi
- Correlació i Regressió
- ANOVA i Proves de Chi-Cuadrat
Mòdul 5: Gestió Avançada de Dades
- Gestió de Dates i Hores
- Reestructuració de Dades
- Treballant amb Grans Conjunts de Dades
- Web Scraping
- APIs i JSON
Mòdul 6: Conceptes Avançats de Programació
- Escriure Funcions
- Depuració i Gestió d'Errors
- Programació Orientada a Objectes en R
- Programació Funcional
- Computació Paral·lela
Mòdul 7: Aprenentatge Automàtic amb R
- Introducció a l'Aprenentatge Automàtic
- Preprocessament de Dades
- Aprenentatge Supervisat
- Aprenentatge No Supervisat
- Avaluació i Ajust de Models
Mòdul 8: Temes Especialitzats
- Anàlisi de Sèries Temporals
- Anàlisi de Dades Espacials
- Mineria de Text i Processament del Llenguatge Natural
- Bioinformàtica amb R
- Anàlisi de Dades Financeres