Introducció
L'estadística és una branca de les matemàtiques que es dedica a la recopilació, anàlisi, interpretació i presentació de dades. En el context del Machine Learning, l'estadística és fonamental per comprendre les dades amb les quals treballarem i per avaluar els models que desenvolupem. Aquest tema cobreix els conceptes bàsics d'estadística que són essencials per a qualsevol professional que vulgui treballar amb Machine Learning.
Conceptes Clau
- Població i Mostra
- Població: És el conjunt complet d'elements o individus que volem estudiar. Per exemple, tots els habitants d'una ciutat.
- Mostra: És un subconjunt de la població que s'utilitza per fer inferències sobre la població. Per exemple, un grup de 100 habitants seleccionats aleatòriament d'una ciutat.
- Variables
- Variable: És una característica o atribut que pot prendre diferents valors. Les variables poden ser:
- Qualitatives: Descriuen qualitats o categories (per exemple, color dels ulls, tipus de vehicle).
- Quantitatives: Mesuren quantitats numèriques (per exemple, alçada, pes).
- Mesures de Tendència Central
- Mitjana (μ o x̄): És la suma de tots els valors dividida pel nombre de valors. \[ \text{Mitjana} = \frac{\sum_{i=1}^{n} x_i}{n} \]
- Mediana: És el valor central quan els valors estan ordenats. Si hi ha un nombre parell de valors, és la mitjana dels dos valors centrals.
- Moda: És el valor que apareix amb més freqüència en un conjunt de dades.
- Mesures de Dispersió
- Rang: Diferència entre el valor màxim i el valor mínim.
- Desviació Estàndard (σ o s): Mesura la quantitat de variació o dispersió dels valors respecte a la mitjana. \[ \text{Desviació Estàndard} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}} \]
- Variança (σ² o s²): És la desviació estàndard elevada al quadrat. \[ \text{Variança} = \frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n} \]
- Distribucions de Probabilitat
- Distribució Normal: També coneguda com a distribució de Gauss, és una distribució simètrica amb forma de campana. La majoria dels valors es concentren al voltant de la mitjana.
- Distribució Binomial: Descriu el nombre d'èxits en una seqüència de n experiments independents de Bernoulli.
- Distribució Poisson: Descriu el nombre d'esdeveniments que ocorren en un interval de temps fix.
- Correlació i Causalitat
- Correlació: Mesura la força i la direcció de la relació lineal entre dues variables. El coeficient de correlació (r) varia entre -1 i 1.
- r = 1: Correlació positiva perfecta.
- r = -1: Correlació negativa perfecta.
- r = 0: No hi ha correlació.
- Causalitat: Indica que un canvi en una variable provoca un canvi en una altra. És important no confondre correlació amb causalitat.
Exemples Pràctics
Exemple 1: Càlcul de la Mitjana, Mediana i Moda
Considerem el següent conjunt de dades: [2, 4, 4, 4, 5, 5, 7, 9]
- Mitjana: \[ \text{Mitjana} = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5 \]
- Mediana: Ordenem les dades: [2, 4, 4, 4, 5, 5, 7, 9] La mediana és el valor central, en aquest cas, (4 + 5) / 2 = 4.5
- Moda: El valor que apareix amb més freqüència és 4.
Exemple 2: Càlcul de la Desviació Estàndard
Considerem el mateix conjunt de dades: [2, 4, 4, 4, 5, 5, 7, 9]
- Mitjana: 5
- Desviació Estàndard: \[ \text{Desviació Estàndard} = \sqrt{\frac{(2-5)^2 + (4-5)^2 + (4-5)^2 + (4-5)^2 + (5-5)^2 + (5-5)^2 + (7-5)^2 + (9-5)^2}{8}} = \sqrt{\frac{9 + 1 + 1 + 1 + 0 + 0 + 4 + 16}{8}} = \sqrt{4} = 2 \]
Exercicis Pràctics
Exercici 1: Càlcul de Mesures de Tendència Central
Considera el següent conjunt de dades: [3, 7, 8, 5, 12, 14, 21, 13, 18, 9]
- Calcula la mitjana.
- Calcula la mediana.
- Determina la moda.
Solució
- Mitjana: \[ \text{Mitjana} = \frac{3 + 7 + 8 + 5 + 12 + 14 + 21 + 13 + 18 + 9}{10} = 11 \]
- Mediana: Ordenem les dades: [3, 5, 7, 8, 9, 12, 13, 14, 18, 21] La mediana és (9 + 12) / 2 = 10.5
- Moda: No hi ha cap valor que es repeteixi, per tant, no hi ha moda.
Exercici 2: Càlcul de la Desviació Estàndard
Considera el següent conjunt de dades: [10, 12, 23, 23, 16, 23, 21, 16]
- Calcula la mitjana.
- Calcula la desviació estàndard.
Solució
- Mitjana: \[ \text{Mitjana} = \frac{10 + 12 + 23 + 23 + 16 + 23 + 21 + 16}{8} = 18 \]
- Desviació Estàndard: \[ \text{Desviació Estàndard} = \sqrt{\frac{(10-18)^2 + (12-18)^2 + (23-18)^2 + (23-18)^2 + (16-18)^2 + (23-18)^2 + (21-18)^2 + (16-18)^2}{8}} = \sqrt{\frac{64 + 36 + 25 + 25 + 4 + 25 + 9 + 4}{8}} = \sqrt{23} \approx 4.79 \]
Conclusió
En aquesta secció, hem cobert els conceptes bàsics d'estadística que són essencials per al Machine Learning. Hem après sobre la població i la mostra, les variables, les mesures de tendència central i dispersió, les distribucions de probabilitat, i la diferència entre correlació i causalitat. Aquests conceptes són fonamentals per comprendre i analitzar les dades amb les quals treballarem en els següents mòduls del curs.
Curs de Machine Learning
Mòdul 1: Introducció al Machine Learning
- Què és el Machine Learning?
- Història i evolució del Machine Learning
- Tipus de Machine Learning
- Aplicacions del Machine Learning
Mòdul 2: Fonaments d'Estadística i Probabilitat
- Conceptes bàsics d'estadística
- Distribucions de probabilitat
- Inferència estadística
- Teorema de Bayes
Mòdul 3: Preprocessament de Dades
Mòdul 4: Algoritmes de Machine Learning Supervisat
- Regressió lineal
- Regressió logística
- Arbres de decisió
- Màquines de suport vectorial (SVM)
- K-Veïns més propers (K-NN)
- Xarxes neuronals
Mòdul 5: Algoritmes de Machine Learning No Supervisat
- Clustering: K-means
- Clustering jeràrquic
- Anàlisi de components principals (PCA)
- Anàlisi d'agrupament DBSCAN
Mòdul 6: Avaluació i Validació de Models
Mòdul 7: Tècniques Avançades i Optimització
- Ensemble Learning
- Gradient Boosting
- Xarxes neuronals profundes (Deep Learning)
- Optimització d'hiperparàmetres
Mòdul 8: Implementació i Desplegament de Models
- Frameworks i biblioteques populars
- Implementació de models en producció
- Manteniment i monitoratge de models
- Consideracions ètiques i de privacitat
Mòdul 9: Projectes Pràctics
- Projecte 1: Predicció de preus d'habitatges
- Projecte 2: Classificació d'imatges
- Projecte 3: Anàlisi de sentiments a xarxes socials
- Projecte 4: Detecció de fraus