Introducció
En aquest tema, explorarem dos conceptes fonamentals en l'anàlisi estadística: la correlació i la regressió. Aquests conceptes ens permeten entendre i modelar les relacions entre variables.
Objectius
- Comprendre què és la correlació i com es mesura.
- Aprendre a calcular la correlació entre dues variables en R.
- Entendre la regressió lineal i com s'utilitza per modelar relacions entre variables.
- Aprendre a ajustar un model de regressió lineal en R i interpretar els resultats.
Correlació
Què és la Correlació?
La correlació mesura la força i la direcció de la relació lineal entre dues variables. El coeficient de correlació de Pearson és el més utilitzat i varia entre -1 i 1.
- 1 indica una correlació positiva perfecta.
- -1 indica una correlació negativa perfecta.
- 0 indica que no hi ha cap correlació lineal.
Càlcul de la Correlació en R
Exemple Pràctic
Suposem que tenim dues variables: x
i y
. Podem calcular la correlació entre elles utilitzant la funció cor()
.
# Dades d'exemple x <- c(1, 2, 3, 4, 5) y <- c(2, 4, 6, 8, 10) # Càlcul de la correlació correlacio <- cor(x, y) print(correlacio)
Explicació del Codi
- Dades d'exemple: Creem dos vectors
x
iy
. - Càlcul de la correlació: Utilitzem la funció
cor()
per calcular la correlació entrex
iy
. - Impressió del resultat: Mostrem el valor de la correlació.
Exercici Pràctic
Dades:
# Dades d'exemple temps_estudi <- c(10, 9, 8, 7, 6, 5, 4, 3, 2, 1) notes <- c(95, 85, 80, 70, 60, 55, 50, 40, 30, 20)
Instruccions:
- Calculeu la correlació entre
temps_estudi
inotes
. - Interpreteu el resultat.
Solució:
Interpretació:
Un valor de correlació proper a 1 indica una forta relació positiva entre el temps d'estudi i les notes.
Regressió
Què és la Regressió?
La regressió lineal és una tècnica estadística que modela la relació entre una variable dependent (Y) i una o més variables independents (X). L'equació de la regressió lineal simple és:
\[ Y = \beta_0 + \beta_1X + \epsilon \]
On:
- \( \beta_0 \) és la intersecció.
- \( \beta_1 \) és la pendent.
- \( \epsilon \) és l'error residual.
Ajustar un Model de Regressió en R
Exemple Pràctic
Utilitzarem les mateixes dades x
i y
per ajustar un model de regressió lineal.
# Dades d'exemple x <- c(1, 2, 3, 4, 5) y <- c(2, 4, 6, 8, 10) # Ajust del model de regressió model <- lm(y ~ x) summary(model)
Explicació del Codi
- Dades d'exemple: Creem dos vectors
x
iy
. - Ajust del model de regressió: Utilitzem la funció
lm()
per ajustar un model de regressió lineal. - Resum del model: Utilitzem la funció
summary()
per obtenir un resum del model ajustat.
Interpretació dels Resultats
El resum del model proporciona informació sobre els coeficients, l'error estàndard, el valor t i el valor p. Els coeficients ens indiquen la intersecció i la pendent de la línia de regressió.
Exercici Pràctic
Dades:
# Dades d'exemple temps_estudi <- c(10, 9, 8, 7, 6, 5, 4, 3, 2, 1) notes <- c(95, 85, 80, 70, 60, 55, 50, 40, 30, 20)
Instruccions:
- Ajusteu un model de regressió lineal per predir
notes
a partir detemps_estudi
. - Interpreteu els coeficients del model.
Solució:
Interpretació:
- Intersecció (\( \beta_0 \)): El valor de
notes
quantemps_estudi
és 0. - Pendent (\( \beta_1 \)): El canvi en
notes
per cada unitat de canvi entemps_estudi
.
Resum
En aquesta secció, hem après a calcular la correlació entre dues variables i a ajustar un model de regressió lineal en R. Aquests conceptes són fonamentals per entendre les relacions entre variables i per fer prediccions basades en aquestes relacions. En el proper tema, explorarem l'ANOVA i les proves de Chi-Cuadrat per a l'anàlisi de variància i la comparació de proporcions.
Programació en R: De Principiant a Avançat
Mòdul 1: Introducció a R
- Introducció a R i RStudio
- Sintaxi Bàsica de R
- Tipus de Dades i Estructures
- Operacions i Funcions Bàsiques
- Importació i Exportació de Dades
Mòdul 2: Manipulació de Dades
- Vectors i Llistes
- Matrius i Arrays
- Data Frames
- Factors
- Manipulació de Dades amb dplyr
- Manipulació de Cadenes
Mòdul 3: Visualització de Dades
- Introducció a la Visualització de Dades
- Gràfics Base de R
- Conceptes Bàsics de ggplot2
- ggplot2 Avançat
- Visualitzacions Interactives amb plotly
Mòdul 4: Anàlisi Estadística
- Estadístiques Descriptives
- Distribucions de Probabilitat
- Proves d'Hipòtesi
- Correlació i Regressió
- ANOVA i Proves de Chi-Cuadrat
Mòdul 5: Gestió Avançada de Dades
- Gestió de Dates i Hores
- Reestructuració de Dades
- Treballant amb Grans Conjunts de Dades
- Web Scraping
- APIs i JSON
Mòdul 6: Conceptes Avançats de Programació
- Escriure Funcions
- Depuració i Gestió d'Errors
- Programació Orientada a Objectes en R
- Programació Funcional
- Computació Paral·lela
Mòdul 7: Aprenentatge Automàtic amb R
- Introducció a l'Aprenentatge Automàtic
- Preprocessament de Dades
- Aprenentatge Supervisat
- Aprenentatge No Supervisat
- Avaluació i Ajust de Models
Mòdul 8: Temes Especialitzats
- Anàlisi de Sèries Temporals
- Anàlisi de Dades Espacials
- Mineria de Text i Processament del Llenguatge Natural
- Bioinformàtica amb R
- Anàlisi de Dades Financeres