Introducció

En aquest estudi de cas, aplicarem els coneixements adquirits sobre anàlisi estadística per resoldre un problema real. Utilitzarem tècniques com les estadístiques descriptives, les proves d'hipòtesi, la correlació, la regressió i l'ANOVA per analitzar un conjunt de dades. L'objectiu és proporcionar una comprensió profunda de com aquestes tècniques es poden utilitzar per extreure informació valuosa de les dades.

Conjunt de Dades

Per a aquest estudi de cas, utilitzarem un conjunt de dades fictici que conté informació sobre els estudiants d'una universitat. Les variables inclouen:

  • ID: Identificador únic de l'estudiant
  • Edat: Edat de l'estudiant
  • Gènere: Gènere de l'estudiant (M/F)
  • Nota_Mitjana: Nota mitjana de l'estudiant
  • Hores_Estudi: Hores d'estudi setmanals
  • Participació_Activitats: Participació en activitats extracurriculars (Sí/No)

Objectius de l'Estudi

  1. Descriure les característiques principals del conjunt de dades utilitzant estadístiques descriptives.
  2. Determinar si hi ha una diferència significativa en la nota mitjana entre els gèneres.
  3. Analitzar la relació entre les hores d'estudi i la nota mitjana.
  4. Investigar si la participació en activitats extracurriculars afecta la nota mitjana.
  5. Realitzar una ANOVA per veure si hi ha diferències significatives en la nota mitjana entre diferents grups d'edat.

  1. Estadístiques Descriptives

Comencem amb una descripció general del conjunt de dades.

# Carregar les dades
dades <- read.csv("estudiants.csv")

# Estadístiques descriptives
summary(dades)

Explicació

  • summary(dades): Aquesta funció proporciona un resum estadístic de cada variable en el conjunt de dades, incloent la mitjana, la mediana, el mínim, el màxim i els quartils.

  1. Prova d'Hipòtesi: Diferència de Gènere en la Nota Mitjana

Volem determinar si hi ha una diferència significativa en la nota mitjana entre els gèneres.

# Prova t per comparar les notes mitjanes entre gèneres
t.test(Nota_Mitjana ~ Gènere, data = dades)

Explicació

  • t.test(Nota_Mitjana ~ Gènere, data = dades): Aquesta funció realitza una prova t per comparar les mitjanes de dues mostres independents (en aquest cas, les notes mitjanes entre gèneres).

  1. Correlació: Hores d'Estudi i Nota Mitjana

Analitzem la relació entre les hores d'estudi i la nota mitjana.

# Correlació entre hores d'estudi i nota mitjana
cor(dades$Hores_Estudi, dades$Nota_Mitjana)

Explicació

  • cor(dades$Hores_Estudi, dades$Nota_Mitjana): Aquesta funció calcula el coeficient de correlació de Pearson entre dues variables.

  1. Prova d'Hipòtesi: Participació en Activitats Extracurriculars

Investigarem si la participació en activitats extracurriculars afecta la nota mitjana.

# Prova t per comparar les notes mitjanes segons la participació en activitats
t.test(Nota_Mitjana ~ Participació_Activitats, data = dades)

Explicació

  • t.test(Nota_Mitjana ~ Participació_Activitats, data = dades): Aquesta funció realitza una prova t per comparar les mitjanes de dues mostres independents (en aquest cas, les notes mitjanes segons la participació en activitats).

  1. ANOVA: Diferències en la Nota Mitjana entre Grups d'Edat

Realitzarem una ANOVA per veure si hi ha diferències significatives en la nota mitjana entre diferents grups d'edat.

# Crear grups d'edat
dades$Grup_Edat <- cut(dades$Edat, breaks = c(17, 20, 23, 26, 29), labels = c("18-20", "21-23", "24-26", "27-29"))

# ANOVA
anova_result <- aov(Nota_Mitjana ~ Grup_Edat, data = dades)
summary(anova_result)

Explicació

  • cut(dades$Edat, breaks = c(17, 20, 23, 26, 29), labels = c("18-20", "21-23", "24-26", "27-29")): Aquesta funció divideix l'edat en grups.
  • aov(Nota_Mitjana ~ Grup_Edat, data = dades): Aquesta funció realitza una ANOVA per comparar les mitjanes de més de dues mostres independents.

Conclusió

En aquest estudi de cas, hem aplicat diverses tècniques d'anàlisi estadística per extreure informació valuosa d'un conjunt de dades d'estudiants. Hem utilitzat estadístiques descriptives per obtenir una visió general de les dades, proves d'hipòtesi per comparar mitjanes entre grups, correlació per analitzar relacions entre variables i ANOVA per investigar diferències entre múltiples grups. Aquestes tècniques són fonamentals per a l'anàlisi de dades i proporcionen una base sòlida per a la presa de decisions basada en dades.

Exercicis Pràctics

  1. Estadístiques Descriptives: Calcula les estadístiques descriptives per a les variables Edat i Hores_Estudi.
  2. Prova d'Hipòtesi: Realitza una prova t per comparar les hores d'estudi entre gèneres.
  3. Correlació: Calcula la correlació entre Edat i Nota_Mitjana.
  4. ANOVA: Realitza una ANOVA per veure si hi ha diferències significatives en les hores d'estudi entre els grups d'edat.

Solucions

  1. Estadístiques Descriptives:

    summary(dades$Edat)
    summary(dades$Hores_Estudi)
    
  2. Prova d'Hipòtesi:

    t.test(Hores_Estudi ~ Gènere, data = dades)
    
  3. Correlació:

    cor(dades$Edat, dades$Nota_Mitjana)
    
  4. ANOVA:

    anova_result_hores <- aov(Hores_Estudi ~ Grup_Edat, data = dades)
    summary(anova_result_hores)
    

Aquest estudi de cas ha proporcionat una aplicació pràctica de les tècniques d'anàlisi estadística en R, ajudant a consolidar els conceptes apresos al llarg del curs.

Programació en R: De Principiant a Avançat

Mòdul 1: Introducció a R

Mòdul 2: Manipulació de Dades

Mòdul 3: Visualització de Dades

Mòdul 4: Anàlisi Estadística

Mòdul 5: Gestió Avançada de Dades

Mòdul 6: Conceptes Avançats de Programació

Mòdul 7: Aprenentatge Automàtic amb R

Mòdul 8: Temes Especialitzats

Mòdul 9: Projecte i Estudis de Cas

© Copyright 2024. Tots els drets reservats