Introducció
Les estadístiques descriptives són un conjunt de tècniques utilitzades per resumir i descriure les característiques bàsiques d'un conjunt de dades. Aquestes tècniques inclouen mesures de tendència central, dispersió i distribució. En aquest tema, aprendrem a calcular i interpretar aquestes mesures utilitzant R.
Objectius
- Entendre els conceptes bàsics de les estadístiques descriptives.
- Aprendre a calcular mesures de tendència central (mitjana, mediana, moda).
- Aprendre a calcular mesures de dispersió (rang, desviació estàndard, variància).
- Aprendre a visualitzar dades descriptives utilitzant gràfics.
Conceptes Clau
- Mesures de Tendència Central
- Mitjana (Mean): La suma de tots els valors dividida pel nombre de valors.
- Mediana (Median): El valor central quan els valors estan ordenats.
- Moda (Mode): El valor que apareix amb més freqüència.
- Mesures de Dispersió
- Rang (Range): La diferència entre el valor màxim i el valor mínim.
- Desviació Estàndard (Standard Deviation): Una mesura de la quantitat de variació o dispersió dels valors.
- Variància (Variance): La mitjana dels quadrats de les desviacions dels valors respecte a la mitjana.
- Distribució
- Quartils (Quartiles): Valors que divideixen les dades en quatre parts iguals.
- Percentils (Percentiles): Valors que divideixen les dades en cent parts iguals.
Càlcul de Mesures Descriptives en R
- Mitjana, Mediana i Moda
# Exemple de dades dades <- c(5, 7, 8, 9, 10, 10, 12, 15, 18, 20) # Mitjana mitjana <- mean(dades) print(paste("Mitjana:", mitjana)) # Mediana mediana <- median(dades) print(paste("Mediana:", mediana)) # Moda mode <- function(x) { ux <- unique(x) ux[which.max(tabulate(match(x, ux)))] } moda <- mode(dades) print(paste("Moda:", moda))
- Rang, Desviació Estàndard i Variància
# Rang rang <- range(dades) print(paste("Rang:", rang[2] - rang[1])) # Desviació Estàndard desviacio_estandard <- sd(dades) print(paste("Desviació Estàndard:", desviacio_estandard)) # Variància variancia <- var(dades) print(paste("Variància:", variancia))
- Quartils i Percentils
# Quartils quartils <- quantile(dades) print("Quartils:") print(quartils) # Percentils (per exemple, el 90è percentil) percentil_90 <- quantile(dades, 0.9) print(paste("90è Percentil:", percentil_90))
Visualització de Dades Descriptives
Histograma
Boxplot
Exercicis Pràctics
Exercici 1: Càlcul de Mesures Descriptives
- Crea un vector de dades amb els següents valors:
c(2, 4, 4, 4, 5, 5, 7, 9)
. - Calcula la mitjana, mediana i moda.
- Calcula el rang, desviació estàndard i variància.
- Calcula els quartils i el 75è percentil.
Solució
# Dades dades_exercici <- c(2, 4, 4, 4, 5, 5, 7, 9) # Mitjana mitjana_ex <- mean(dades_exercici) print(paste("Mitjana:", mitjana_ex)) # Mediana mediana_ex <- median(dades_exercici) print(paste("Mediana:", mediana_ex)) # Moda moda_ex <- mode(dades_exercici) print(paste("Moda:", moda_ex)) # Rang rang_ex <- range(dades_exercici) print(paste("Rang:", rang_ex[2] - rang_ex[1])) # Desviació Estàndard desviacio_estandard_ex <- sd(dades_exercici) print(paste("Desviació Estàndard:", desviacio_estandard_ex)) # Variància variancia_ex <- var(dades_exercici) print(paste("Variància:", variancia_ex)) # Quartils quartils_ex <- quantile(dades_exercici) print("Quartils:") print(quartils_ex) # 75è Percentil percentil_75_ex <- quantile(dades_exercici, 0.75) print(paste("75è Percentil:", percentil_75_ex))
Exercici 2: Visualització de Dades
- Crea un histograma i un boxplot per les dades de l'exercici anterior.
Solució
# Histograma hist(dades_exercici, main="Histograma de Dades de l'Exercici", xlab="Valors", ylab="Freqüència", col="blue") # Boxplot boxplot(dades_exercici, main="Boxplot de Dades de l'Exercici", ylab="Valors", col="orange")
Resum
En aquesta secció, hem après a calcular i interpretar les mesures de tendència central, dispersió i distribució utilitzant R. També hem après a visualitzar aquestes dades mitjançant histogrames i boxplots. Aquestes tècniques són fonamentals per comprendre les característiques bàsiques d'un conjunt de dades i preparar-les per a anàlisis més avançades.
Programació en R: De Principiant a Avançat
Mòdul 1: Introducció a R
- Introducció a R i RStudio
- Sintaxi Bàsica de R
- Tipus de Dades i Estructures
- Operacions i Funcions Bàsiques
- Importació i Exportació de Dades
Mòdul 2: Manipulació de Dades
- Vectors i Llistes
- Matrius i Arrays
- Data Frames
- Factors
- Manipulació de Dades amb dplyr
- Manipulació de Cadenes
Mòdul 3: Visualització de Dades
- Introducció a la Visualització de Dades
- Gràfics Base de R
- Conceptes Bàsics de ggplot2
- ggplot2 Avançat
- Visualitzacions Interactives amb plotly
Mòdul 4: Anàlisi Estadística
- Estadístiques Descriptives
- Distribucions de Probabilitat
- Proves d'Hipòtesi
- Correlació i Regressió
- ANOVA i Proves de Chi-Cuadrat
Mòdul 5: Gestió Avançada de Dades
- Gestió de Dates i Hores
- Reestructuració de Dades
- Treballant amb Grans Conjunts de Dades
- Web Scraping
- APIs i JSON
Mòdul 6: Conceptes Avançats de Programació
- Escriure Funcions
- Depuració i Gestió d'Errors
- Programació Orientada a Objectes en R
- Programació Funcional
- Computació Paral·lela
Mòdul 7: Aprenentatge Automàtic amb R
- Introducció a l'Aprenentatge Automàtic
- Preprocessament de Dades
- Aprenentatge Supervisat
- Aprenentatge No Supervisat
- Avaluació i Ajust de Models
Mòdul 8: Temes Especialitzats
- Anàlisi de Sèries Temporals
- Anàlisi de Dades Espacials
- Mineria de Text i Processament del Llenguatge Natural
- Bioinformàtica amb R
- Anàlisi de Dades Financeres