Introducció
En aquest estudi de cas, aplicarem els coneixements adquirits sobre anàlisi estadística per resoldre un problema real. Utilitzarem tècniques com les estadístiques descriptives, les proves d'hipòtesi, la correlació, la regressió i l'ANOVA per analitzar un conjunt de dades. L'objectiu és proporcionar una comprensió profunda de com aquestes tècniques es poden utilitzar per extreure informació valuosa de les dades.
Conjunt de Dades
Per a aquest estudi de cas, utilitzarem un conjunt de dades fictici que conté informació sobre els estudiants d'una universitat. Les variables inclouen:
ID
: Identificador únic de l'estudiantEdat
: Edat de l'estudiantGènere
: Gènere de l'estudiant (M/F)Nota_Mitjana
: Nota mitjana de l'estudiantHores_Estudi
: Hores d'estudi setmanalsParticipació_Activitats
: Participació en activitats extracurriculars (Sí/No)
Objectius de l'Estudi
- Descriure les característiques principals del conjunt de dades utilitzant estadístiques descriptives.
- Determinar si hi ha una diferència significativa en la nota mitjana entre els gèneres.
- Analitzar la relació entre les hores d'estudi i la nota mitjana.
- Investigar si la participació en activitats extracurriculars afecta la nota mitjana.
- Realitzar una ANOVA per veure si hi ha diferències significatives en la nota mitjana entre diferents grups d'edat.
- Estadístiques Descriptives
Comencem amb una descripció general del conjunt de dades.
# Carregar les dades dades <- read.csv("estudiants.csv") # Estadístiques descriptives summary(dades)
Explicació
summary(dades)
: Aquesta funció proporciona un resum estadístic de cada variable en el conjunt de dades, incloent la mitjana, la mediana, el mínim, el màxim i els quartils.
- Prova d'Hipòtesi: Diferència de Gènere en la Nota Mitjana
Volem determinar si hi ha una diferència significativa en la nota mitjana entre els gèneres.
Explicació
t.test(Nota_Mitjana ~ Gènere, data = dades)
: Aquesta funció realitza una prova t per comparar les mitjanes de dues mostres independents (en aquest cas, les notes mitjanes entre gèneres).
- Correlació: Hores d'Estudi i Nota Mitjana
Analitzem la relació entre les hores d'estudi i la nota mitjana.
Explicació
cor(dades$Hores_Estudi, dades$Nota_Mitjana)
: Aquesta funció calcula el coeficient de correlació de Pearson entre dues variables.
- Prova d'Hipòtesi: Participació en Activitats Extracurriculars
Investigarem si la participació en activitats extracurriculars afecta la nota mitjana.
# Prova t per comparar les notes mitjanes segons la participació en activitats t.test(Nota_Mitjana ~ Participació_Activitats, data = dades)
Explicació
t.test(Nota_Mitjana ~ Participació_Activitats, data = dades)
: Aquesta funció realitza una prova t per comparar les mitjanes de dues mostres independents (en aquest cas, les notes mitjanes segons la participació en activitats).
- ANOVA: Diferències en la Nota Mitjana entre Grups d'Edat
Realitzarem una ANOVA per veure si hi ha diferències significatives en la nota mitjana entre diferents grups d'edat.
# Crear grups d'edat dades$Grup_Edat <- cut(dades$Edat, breaks = c(17, 20, 23, 26, 29), labels = c("18-20", "21-23", "24-26", "27-29")) # ANOVA anova_result <- aov(Nota_Mitjana ~ Grup_Edat, data = dades) summary(anova_result)
Explicació
cut(dades$Edat, breaks = c(17, 20, 23, 26, 29), labels = c("18-20", "21-23", "24-26", "27-29"))
: Aquesta funció divideix l'edat en grups.aov(Nota_Mitjana ~ Grup_Edat, data = dades)
: Aquesta funció realitza una ANOVA per comparar les mitjanes de més de dues mostres independents.
Conclusió
En aquest estudi de cas, hem aplicat diverses tècniques d'anàlisi estadística per extreure informació valuosa d'un conjunt de dades d'estudiants. Hem utilitzat estadístiques descriptives per obtenir una visió general de les dades, proves d'hipòtesi per comparar mitjanes entre grups, correlació per analitzar relacions entre variables i ANOVA per investigar diferències entre múltiples grups. Aquestes tècniques són fonamentals per a l'anàlisi de dades i proporcionen una base sòlida per a la presa de decisions basada en dades.
Exercicis Pràctics
- Estadístiques Descriptives: Calcula les estadístiques descriptives per a les variables
Edat
iHores_Estudi
. - Prova d'Hipòtesi: Realitza una prova t per comparar les hores d'estudi entre gèneres.
- Correlació: Calcula la correlació entre
Edat
iNota_Mitjana
. - ANOVA: Realitza una ANOVA per veure si hi ha diferències significatives en les hores d'estudi entre els grups d'edat.
Solucions
-
Estadístiques Descriptives:
summary(dades$Edat) summary(dades$Hores_Estudi)
-
Prova d'Hipòtesi:
t.test(Hores_Estudi ~ Gènere, data = dades)
-
Correlació:
cor(dades$Edat, dades$Nota_Mitjana)
-
ANOVA:
anova_result_hores <- aov(Hores_Estudi ~ Grup_Edat, data = dades) summary(anova_result_hores)
Aquest estudi de cas ha proporcionat una aplicació pràctica de les tècniques d'anàlisi estadística en R, ajudant a consolidar els conceptes apresos al llarg del curs.
Programació en R: De Principiant a Avançat
Mòdul 1: Introducció a R
- Introducció a R i RStudio
- Sintaxi Bàsica de R
- Tipus de Dades i Estructures
- Operacions i Funcions Bàsiques
- Importació i Exportació de Dades
Mòdul 2: Manipulació de Dades
- Vectors i Llistes
- Matrius i Arrays
- Data Frames
- Factors
- Manipulació de Dades amb dplyr
- Manipulació de Cadenes
Mòdul 3: Visualització de Dades
- Introducció a la Visualització de Dades
- Gràfics Base de R
- Conceptes Bàsics de ggplot2
- ggplot2 Avançat
- Visualitzacions Interactives amb plotly
Mòdul 4: Anàlisi Estadística
- Estadístiques Descriptives
- Distribucions de Probabilitat
- Proves d'Hipòtesi
- Correlació i Regressió
- ANOVA i Proves de Chi-Cuadrat
Mòdul 5: Gestió Avançada de Dades
- Gestió de Dates i Hores
- Reestructuració de Dades
- Treballant amb Grans Conjunts de Dades
- Web Scraping
- APIs i JSON
Mòdul 6: Conceptes Avançats de Programació
- Escriure Funcions
- Depuració i Gestió d'Errors
- Programació Orientada a Objectes en R
- Programació Funcional
- Computació Paral·lela
Mòdul 7: Aprenentatge Automàtic amb R
- Introducció a l'Aprenentatge Automàtic
- Preprocessament de Dades
- Aprenentatge Supervisat
- Aprenentatge No Supervisat
- Avaluació i Ajust de Models
Mòdul 8: Temes Especialitzats
- Anàlisi de Sèries Temporals
- Anàlisi de Dades Espacials
- Mineria de Text i Processament del Llenguatge Natural
- Bioinformàtica amb R
- Anàlisi de Dades Financeres