Les proves d'hipòtesi són una eina fonamental en l'anàlisi estadística que permeten als investigadors prendre decisions sobre les dades. En aquest tema, aprendrem els conceptes bàsics de les proves d'hipòtesi, com formular hipòtesis, els tipus d'errors, i com realitzar proves d'hipòtesi en R.
Conceptes Bàsics
Hipòtesi Nul·la i Hipòtesi Alternativa
- Hipòtesi Nul·la (H0): És una afirmació que indica que no hi ha efecte o diferència. És la hipòtesi que es vol posar a prova.
- Hipòtesi Alternativa (H1): És una afirmació que indica que hi ha un efecte o diferència. És el que es vol demostrar.
Tipus d'Errors
- Error de Tipus I (α): Rebutjar la hipòtesi nul·la quan és certa.
- Error de Tipus II (β): No rebutjar la hipòtesi nul·la quan és falsa.
Nivell de Significació
- Nivell de Significació (α): La probabilitat de cometre un error de tipus I. Normalment es fixa en 0.05.
Valor p
- Valor p: La probabilitat de trobar un resultat igual o més extrem que el que s'ha observat, assumint que la hipòtesi nul·la és certa. Si el valor p és menor que el nivell de significació, es rebutja la hipòtesi nul·la.
Tipus de Proves d'Hipòtesi
Prova t de Student
- Prova t per a una mostra: Compara la mitjana d'una mostra amb una mitjana coneguda.
- Prova t per a dues mostres independents: Compara les mitjanes de dues mostres independents.
- Prova t per a mostres aparellades: Compara les mitjanes de dues mostres aparellades.
Prova de Chi-Cuadrat
- Prova de Chi-Cuadrat d'Independència: Comprova si hi ha una associació entre dues variables categòriques.
- Prova de Chi-Cuadrat de Bondat d'Ajust: Comprova si una distribució observada difereix d'una distribució esperada.
Prova ANOVA
- ANOVA d'un factor: Compara les mitjanes de tres o més grups independents.
Realització de Proves d'Hipòtesi en R
Prova t per a una Mostra
# Exemple: Comprovar si la mitjana d'una mostra és igual a 50 set.seed(123) mostra <- rnorm(30, mean = 52, sd = 10) t.test(mostra, mu = 50)
Explicació del codi:
set.seed(123)
: Estableix una llavor per a la generació de nombres aleatoris.mostra <- rnorm(30, mean = 52, sd = 10)
: Genera una mostra de 30 observacions amb una mitjana de 52 i una desviació estàndard de 10.t.test(mostra, mu = 50)
: Realitza una prova t per a una mostra amb una mitjana hipotètica de 50.
Prova t per a Dues Mostres Independents
# Exemple: Comprovar si les mitjanes de dues mostres són iguals set.seed(123) mostra1 <- rnorm(30, mean = 52, sd = 10) mostra2 <- rnorm(30, mean = 55, sd = 10) t.test(mostra1, mostra2)
Explicació del codi:
mostra1 <- rnorm(30, mean = 52, sd = 10)
: Genera la primera mostra.mostra2 <- rnorm(30, mean = 55, sd = 10)
: Genera la segona mostra.t.test(mostra1, mostra2)
: Realitza una prova t per a dues mostres independents.
Prova de Chi-Cuadrat d'Independència
# Exemple: Comprovar si hi ha una associació entre dues variables categòriques taula <- matrix(c(10, 20, 30, 40), nrow = 2) chisq.test(taula)
Explicació del codi:
taula <- matrix(c(10, 20, 30, 40), nrow = 2)
: Crea una taula de contingència.chisq.test(taula)
: Realitza una prova de Chi-Cuadrat d'independència.
ANOVA d'un Factor
# Exemple: Comprovar si les mitjanes de tres grups són iguals set.seed(123) grup1 <- rnorm(30, mean = 52, sd = 10) grup2 <- rnorm(30, mean = 55, sd = 10) grup3 <- rnorm(30, mean = 50, sd = 10) dades <- data.frame( valor = c(grup1, grup2, grup3), grup = factor(rep(1:3, each = 30)) ) anova_resultat <- aov(valor ~ grup, data = dades) summary(anova_resultat)
Explicació del codi:
grup1
,grup2
,grup3
: Genera tres grups de dades.dades <- data.frame(...)
: Crea un data frame amb els valors i els grups.anova_resultat <- aov(valor ~ grup, data = dades)
: Realitza una ANOVA d'un factor.summary(anova_resultat)
: Mostra el resum dels resultats de l'ANOVA.
Exercicis Pràctics
Exercici 1: Prova t per a una Mostra
Genera una mostra de 50 observacions amb una mitjana de 60 i una desviació estàndard de 15. Realitza una prova t per comprovar si la mitjana de la mostra és igual a 65.
Exercici 2: Prova t per a Dues Mostres Independents
Genera dues mostres de 40 observacions cadascuna amb mitjanes de 70 i 75, respectivament, i una desviació estàndard de 12. Realitza una prova t per comprovar si les mitjanes de les dues mostres són iguals.
Exercici 3: Prova de Chi-Cuadrat d'Independència
Crea una taula de contingència amb les següents dades: (15, 25, 35, 45). Realitza una prova de Chi-Cuadrat d'independència per comprovar si hi ha una associació entre les dues variables.
Exercici 4: ANOVA d'un Factor
Genera tres grups de dades amb 25 observacions cadascun, amb mitjanes de 65, 70 i 75, respectivament, i una desviació estàndard de 10. Realitza una ANOVA d'un factor per comprovar si les mitjanes dels tres grups són iguals.
Solucions
Solució Exercici 1
Solució Exercici 2
set.seed(123) mostra1 <- rnorm(40, mean = 70, sd = 12) mostra2 <- rnorm(40, mean = 75, sd = 12) t.test(mostra1, mostra2)
Solució Exercici 3
Solució Exercici 4
set.seed(123) grup1 <- rnorm(25, mean = 65, sd = 10) grup2 <- rnorm(25, mean = 70, sd = 10) grup3 <- rnorm(25, mean = 75, sd = 10) dades <- data.frame( valor = c(grup1, grup2, grup3), grup = factor(rep(1:3, each = 25)) ) anova_resultat <- aov(valor ~ grup, data = dades) summary(anova_resultat)
Conclusió
En aquesta secció, hem après els conceptes bàsics de les proves d'hipòtesi, incloent-hi com formular hipòtesis, els tipus d'errors, i com realitzar diverses proves d'hipòtesi en R. Hem vist exemples pràctics de proves t, proves de Chi-Cuadrat i ANOVA, i hem practicat amb exercicis per reforçar els conceptes apresos. En la següent secció, explorarem la correlació i la regressió per analitzar les relacions entre variables.
Programació en R: De Principiant a Avançat
Mòdul 1: Introducció a R
- Introducció a R i RStudio
- Sintaxi Bàsica de R
- Tipus de Dades i Estructures
- Operacions i Funcions Bàsiques
- Importació i Exportació de Dades
Mòdul 2: Manipulació de Dades
- Vectors i Llistes
- Matrius i Arrays
- Data Frames
- Factors
- Manipulació de Dades amb dplyr
- Manipulació de Cadenes
Mòdul 3: Visualització de Dades
- Introducció a la Visualització de Dades
- Gràfics Base de R
- Conceptes Bàsics de ggplot2
- ggplot2 Avançat
- Visualitzacions Interactives amb plotly
Mòdul 4: Anàlisi Estadística
- Estadístiques Descriptives
- Distribucions de Probabilitat
- Proves d'Hipòtesi
- Correlació i Regressió
- ANOVA i Proves de Chi-Cuadrat
Mòdul 5: Gestió Avançada de Dades
- Gestió de Dates i Hores
- Reestructuració de Dades
- Treballant amb Grans Conjunts de Dades
- Web Scraping
- APIs i JSON
Mòdul 6: Conceptes Avançats de Programació
- Escriure Funcions
- Depuració i Gestió d'Errors
- Programació Orientada a Objectes en R
- Programació Funcional
- Computació Paral·lela
Mòdul 7: Aprenentatge Automàtic amb R
- Introducció a l'Aprenentatge Automàtic
- Preprocessament de Dades
- Aprenentatge Supervisat
- Aprenentatge No Supervisat
- Avaluació i Ajust de Models
Mòdul 8: Temes Especialitzats
- Anàlisi de Sèries Temporals
- Anàlisi de Dades Espacials
- Mineria de Text i Processament del Llenguatge Natural
- Bioinformàtica amb R
- Anàlisi de Dades Financeres