Introducció

Les estadístiques descriptives són un conjunt de tècniques utilitzades per resumir i descriure les característiques bàsiques d'un conjunt de dades. Aquestes tècniques inclouen mesures de tendència central, dispersió i distribució. En aquest tema, aprendrem a calcular i interpretar aquestes mesures utilitzant R.

Objectius

  • Entendre els conceptes bàsics de les estadístiques descriptives.
  • Aprendre a calcular mesures de tendència central (mitjana, mediana, moda).
  • Aprendre a calcular mesures de dispersió (rang, desviació estàndard, variància).
  • Aprendre a visualitzar dades descriptives utilitzant gràfics.

Conceptes Clau

  1. Mesures de Tendència Central

  • Mitjana (Mean): La suma de tots els valors dividida pel nombre de valors.
  • Mediana (Median): El valor central quan els valors estan ordenats.
  • Moda (Mode): El valor que apareix amb més freqüència.

  1. Mesures de Dispersió

  • Rang (Range): La diferència entre el valor màxim i el valor mínim.
  • Desviació Estàndard (Standard Deviation): Una mesura de la quantitat de variació o dispersió dels valors.
  • Variància (Variance): La mitjana dels quadrats de les desviacions dels valors respecte a la mitjana.

  1. Distribució

  • Quartils (Quartiles): Valors que divideixen les dades en quatre parts iguals.
  • Percentils (Percentiles): Valors que divideixen les dades en cent parts iguals.

Càlcul de Mesures Descriptives en R

  1. Mitjana, Mediana i Moda

# Exemple de dades
dades <- c(5, 7, 8, 9, 10, 10, 12, 15, 18, 20)

# Mitjana
mitjana <- mean(dades)
print(paste("Mitjana:", mitjana))

# Mediana
mediana <- median(dades)
print(paste("Mediana:", mediana))

# Moda
mode <- function(x) {
  ux <- unique(x)
  ux[which.max(tabulate(match(x, ux)))]
}
moda <- mode(dades)
print(paste("Moda:", moda))

  1. Rang, Desviació Estàndard i Variància

# Rang
rang <- range(dades)
print(paste("Rang:", rang[2] - rang[1]))

# Desviació Estàndard
desviacio_estandard <- sd(dades)
print(paste("Desviació Estàndard:", desviacio_estandard))

# Variància
variancia <- var(dades)
print(paste("Variància:", variancia))

  1. Quartils i Percentils

# Quartils
quartils <- quantile(dades)
print("Quartils:")
print(quartils)

# Percentils (per exemple, el 90è percentil)
percentil_90 <- quantile(dades, 0.9)
print(paste("90è Percentil:", percentil_90))

Visualització de Dades Descriptives

Histograma

hist(dades, main="Histograma de Dades", xlab="Valors", ylab="Freqüència", col="blue")

Boxplot

boxplot(dades, main="Boxplot de Dades", ylab="Valors", col="orange")

Exercicis Pràctics

Exercici 1: Càlcul de Mesures Descriptives

  1. Crea un vector de dades amb els següents valors: c(2, 4, 4, 4, 5, 5, 7, 9).
  2. Calcula la mitjana, mediana i moda.
  3. Calcula el rang, desviació estàndard i variància.
  4. Calcula els quartils i el 75è percentil.

Solució

# Dades
dades_exercici <- c(2, 4, 4, 4, 5, 5, 7, 9)

# Mitjana
mitjana_ex <- mean(dades_exercici)
print(paste("Mitjana:", mitjana_ex))

# Mediana
mediana_ex <- median(dades_exercici)
print(paste("Mediana:", mediana_ex))

# Moda
moda_ex <- mode(dades_exercici)
print(paste("Moda:", moda_ex))

# Rang
rang_ex <- range(dades_exercici)
print(paste("Rang:", rang_ex[2] - rang_ex[1]))

# Desviació Estàndard
desviacio_estandard_ex <- sd(dades_exercici)
print(paste("Desviació Estàndard:", desviacio_estandard_ex))

# Variància
variancia_ex <- var(dades_exercici)
print(paste("Variància:", variancia_ex))

# Quartils
quartils_ex <- quantile(dades_exercici)
print("Quartils:")
print(quartils_ex)

# 75è Percentil
percentil_75_ex <- quantile(dades_exercici, 0.75)
print(paste("75è Percentil:", percentil_75_ex))

Exercici 2: Visualització de Dades

  1. Crea un histograma i un boxplot per les dades de l'exercici anterior.

Solució

# Histograma
hist(dades_exercici, main="Histograma de Dades de l'Exercici", xlab="Valors", ylab="Freqüència", col="blue")

# Boxplot
boxplot(dades_exercici, main="Boxplot de Dades de l'Exercici", ylab="Valors", col="orange")

Resum

En aquesta secció, hem après a calcular i interpretar les mesures de tendència central, dispersió i distribució utilitzant R. També hem après a visualitzar aquestes dades mitjançant histogrames i boxplots. Aquestes tècniques són fonamentals per comprendre les característiques bàsiques d'un conjunt de dades i preparar-les per a anàlisis més avançades.

Programació en R: De Principiant a Avançat

Mòdul 1: Introducció a R

Mòdul 2: Manipulació de Dades

Mòdul 3: Visualització de Dades

Mòdul 4: Anàlisi Estadística

Mòdul 5: Gestió Avançada de Dades

Mòdul 6: Conceptes Avançats de Programació

Mòdul 7: Aprenentatge Automàtic amb R

Mòdul 8: Temes Especialitzats

Mòdul 9: Projecte i Estudis de Cas

© Copyright 2024. Tots els drets reservats