Introducció
L'anàlisi de correlació és una tècnica estadística que s'utilitza per mesurar i analitzar la força i la direcció de la relació entre dues variables quantitatives. Aquesta tècnica és fonamental en molts camps, incloent economia, ciències socials, ciències de la salut i enginyeria, ja que permet identificar i quantificar relacions entre variables que poden ser utilitzades per predir comportaments futurs.
Conceptes Clau
- Coeficient de Correlació
El coeficient de correlació és una mesura numèrica que indica la força i la direcció de la relació lineal entre dues variables. Els valors del coeficient de correlació oscil·len entre -1 i 1.
- r = 1: Correlació positiva perfecta.
- r = -1: Correlació negativa perfecta.
- r = 0: No hi ha correlació lineal.
- Tipus de Correlació
- Correlació Positiva: Quan una variable augmenta, l'altra també augmenta.
- Correlació Negativa: Quan una variable augmenta, l'altra disminueix.
- Correlació Nula: No hi ha una relació lineal entre les variables.
- Matriu de Correlació
Una matriu de correlació és una taula que mostra els coeficients de correlació entre múltiples variables. És útil per analitzar la relació entre més de dues variables alhora.
Càlcul del Coeficient de Correlació de Pearson
El coeficient de correlació de Pearson és el més utilitzat i es calcula amb la següent fórmula:
\[ r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} \]
On:
- \( X_i \) i \( Y_i \) són els valors de les variables X i Y.
- \( \bar{X} \) i \( \bar{Y} \) són les mitjanes de les variables X i Y.
Exemple Pràctic
Dades
Considerem les següents dades sobre l'alçada (en cm) i el pes (en kg) de 5 individus:
Individu | Alçada (X) | Pes (Y) |
---|---|---|
1 | 160 | 55 |
2 | 165 | 60 |
3 | 170 | 65 |
4 | 175 | 70 |
5 | 180 | 75 |
Càlcul
-
Calculem les mitjanes de X i Y: \[ \bar{X} = \frac{160 + 165 + 170 + 175 + 180}{5} = 170 \] \[ \bar{Y} = \frac{55 + 60 + 65 + 70 + 75}{5} = 65 \]
-
Apliquem la fórmula del coeficient de correlació de Pearson: \[ r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} \]
Desglossem els càlculs:
Individu \(X_i\) \(Y_i\) \(X_i - \bar{X}\) \(Y_i - \bar{Y}\) \((X_i - \bar{X})(Y_i - \bar{Y})\) \((X_i - \bar{X})^2\) \((Y_i - \bar{Y})^2\) 1 160 55 -10 -10 100 100 100 2 165 60 -5 -5 25 25 25 3 170 65 0 0 0 0 0 4 175 70 5 5 25 25 25 5 180 75 10 10 100 100 100 \[ \sum (X_i - \bar{X})(Y_i - \bar{Y}) = 250 \] \[ \sum (X_i - \bar{X})^2 = 250 \] \[ \sum (Y_i - \bar{Y})^2 = 250 \]
\[ r = \frac{250}{\sqrt{250 \cdot 250}} = \frac{250}{250} = 1 \]
Interpretació
El coeficient de correlació de Pearson és 1, el que indica una correlació positiva perfecta entre l'alçada i el pes en aquest conjunt de dades.
Exercicis Pràctics
Exercici 1
Considera les següents dades sobre el nombre d'hores estudiades i les notes obtingudes per 6 estudiants:
Estudiant | Hores Estudiades (X) | Nota (Y) |
---|---|---|
1 | 2 | 50 |
2 | 3 | 55 |
3 | 5 | 65 |
4 | 7 | 70 |
5 | 8 | 80 |
6 | 10 | 85 |
- Calcula el coeficient de correlació de Pearson.
- Interpreta el resultat.
Solució
-
Calculem les mitjanes de X i Y: \[ \bar{X} = \frac{2 + 3 + 5 + 7 + 8 + 10}{6} = 5.83 \] \[ \bar{Y} = \frac{50 + 55 + 65 + 70 + 80 + 85}{6} = 67.5 \]
-
Apliquem la fórmula del coeficient de correlació de Pearson: \[ r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} \]
Desglossem els càlculs:
Estudiant \(X_i\) \(Y_i\) \(X_i - \bar{X}\) \(Y_i - \bar{Y}\) \((X_i - \bar{X})(Y_i - \bar{Y})\) \((X_i - \bar{X})^2\) \((Y_i - \bar{Y})^2\) 1 2 50 -3.83 -17.5 67.025 14.67 306.25 2 3 55 -2.83 -12.5 35.375 8.00 156.25 3 5 65 -0.83 -2.5 2.075 0.69 6.25 4 7 70 1.17 2.5 2.925 1.37 6.25 5 8 80 2.17 12.5 27.125 4.71 156.25 6 10 85 4.17 17.5 72.975 17.39 306.25 \[ \sum (X_i - \bar{X})(Y_i - \bar{Y}) = 207.5 \] \[ \sum (X_i - \bar{X})^2 = 46.83 \] \[ \sum (Y_i - \bar{Y})^2 = 937.5 \]
\[ r = \frac{207.5}{\sqrt{46.83 \cdot 937.5}} = \frac{207.5}{209.5} \approx 0.99 \]
Interpretació
El coeficient de correlació de Pearson és aproximadament 0.99, el que indica una correlació positiva molt forta entre el nombre d'hores estudiades i les notes obtingudes.
Resum
En aquesta secció, hem après sobre l'anàlisi de correlació, incloent el coeficient de correlació de Pearson, els tipus de correlació i com calcular i interpretar el coeficient de correlació. També hem vist un exemple pràctic i hem resolt un exercici per reforçar els conceptes apresos. En la següent secció, explorarem l'anàlisi de regressió, que ens permetrà modelar la relació entre variables de manera més detallada.