Introducció
La inferència estadística és una branca de l'estadística que es dedica a fer prediccions o generalitzacions sobre una població a partir d'una mostra de dades. Aquest procés és fonamental en el camp del Machine Learning, ja que permet extreure conclusions i prendre decisions basades en dades.
Conceptes Clau
- Població i Mostra
- Població: Conjunt complet d'elements o observacions que ens interessa estudiar.
- Mostra: Subconjunt de la població que s'utilitza per fer inferències sobre la població.
- Paràmetres i Estadístics
- Paràmetre: Valor numèric que descriu una característica de la població (per exemple, la mitjana poblacional).
- Estadístic: Valor numèric que descriu una característica de la mostra (per exemple, la mitjana mostral).
- Estimació Puntual i per Interval
- Estimació puntual: Valor únic que s'utilitza per estimar un paràmetre de la població.
- Estimació per interval: Interval de valors dins del qual es creu que es troba el paràmetre poblacional amb una certa probabilitat (per exemple, un interval de confiança).
- Hipòtesis Estadístiques
- Hipòtesi nul·la (H0): Afirmació que no hi ha efecte o diferència.
- Hipòtesi alternativa (H1): Afirmació que hi ha un efecte o diferència.
- Errors en la Inferència
- Error de tipus I (α): Rebutjar la hipòtesi nul·la quan és certa.
- Error de tipus II (β): No rebutjar la hipòtesi nul·la quan és falsa.
Procediments d'Inferència Estadística
- Estimació Puntual
L'estimació puntual consisteix a utilitzar un únic valor de la mostra per estimar un paràmetre de la població. Per exemple, la mitjana mostral (\(\bar{x}\)) es pot utilitzar per estimar la mitjana poblacional (\(\mu\)).
- Estimació per Interval
L'estimació per interval proporciona un rang de valors dins del qual es creu que es troba el paràmetre poblacional. Un interval de confiança del 95% per a la mitjana poblacional es calcula com:
\[ \bar{x} \pm Z_{\alpha/2} \left(\frac{\sigma}{\sqrt{n}}\right) \]
on:
- \(\bar{x}\) és la mitjana mostral.
- \(Z_{\alpha/2}\) és el valor crític de la distribució normal estàndard.
- \(\sigma\) és la desviació estàndard poblacional.
- \(n\) és la mida de la mostra.
- Proves d'Hipòtesis
Les proves d'hipòtesis són procediments per determinar si hi ha suficient evidència en una mostra de dades per rebutjar una hipòtesi nul·la. Els passos típics són:
- Formular les hipòtesis nul·la (H0) i alternativa (H1).
- Seleccionar un nivell de significació (\(\alpha\)).
- Calcular l'estadístic de prova.
- Determinar el valor crític o el p-valor.
- Prendre una decisió: rebutjar o no rebutjar H0.
Exemple de Prova d'Hipòtesi
Suposem que volem provar si la mitjana de la població és igual a un valor específic (\(\mu_0\)). Utilitzem una prova z si la desviació estàndard poblacional (\(\sigma\)) és coneguda:
\[ Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} \]
Si \(|Z|\) és més gran que el valor crític \(Z_{\alpha/2}\), rebutgem la hipòtesi nul·la.
Exercicis Pràctics
Exercici 1: Estimació Puntual
Calcula la mitjana mostral i utilitza-la per estimar la mitjana poblacional.
Dades:
\[ {12, 15, 14, 10, 13, 17, 16, 14, 15, 12} \]
Solució:
\[ \bar{x} = \frac{12 + 15 + 14 + 10 + 13 + 17 + 16 + 14 + 15 + 12}{10} = 13.8 \]
Exercici 2: Interval de Confiança
Calcula un interval de confiança del 95% per a la mitjana poblacional si \(\sigma = 2\).
Solució:
\[ \bar{x} = 13.8 \] \[ Z_{0.025} = 1.96 \] \[ IC = 13.8 \pm 1.96 \left(\frac{2}{\sqrt{10}}\right) \] \[ IC = 13.8 \pm 1.24 \] \[ IC = [12.56, 15.04] \]
Exercici 3: Prova d'Hipòtesi
Prova si la mitjana poblacional és igual a 14 amb un nivell de significació del 5%.
Solució:
\[ H0: \mu = 14 \] \[ H1: \mu \neq 14 \] \[ Z = \frac{13.8 - 14}{2 / \sqrt{10}} = -0.316 \] \[ Z_{0.025} = 1.96 \]
Com \(|-0.316| < 1.96\), no rebutgem H0.
Conclusió
La inferència estadística és una eina poderosa per fer prediccions i prendre decisions basades en dades. Comprendre els conceptes clau i els procediments d'inferència és essencial per aplicar tècniques de Machine Learning de manera efectiva.
Curs de Machine Learning
Mòdul 1: Introducció al Machine Learning
- Què és el Machine Learning?
- Història i evolució del Machine Learning
- Tipus de Machine Learning
- Aplicacions del Machine Learning
Mòdul 2: Fonaments d'Estadística i Probabilitat
- Conceptes bàsics d'estadística
- Distribucions de probabilitat
- Inferència estadística
- Teorema de Bayes
Mòdul 3: Preprocessament de Dades
Mòdul 4: Algoritmes de Machine Learning Supervisat
- Regressió lineal
- Regressió logística
- Arbres de decisió
- Màquines de suport vectorial (SVM)
- K-Veïns més propers (K-NN)
- Xarxes neuronals
Mòdul 5: Algoritmes de Machine Learning No Supervisat
- Clustering: K-means
- Clustering jeràrquic
- Anàlisi de components principals (PCA)
- Anàlisi d'agrupament DBSCAN
Mòdul 6: Avaluació i Validació de Models
Mòdul 7: Tècniques Avançades i Optimització
- Ensemble Learning
- Gradient Boosting
- Xarxes neuronals profundes (Deep Learning)
- Optimització d'hiperparàmetres
Mòdul 8: Implementació i Desplegament de Models
- Frameworks i biblioteques populars
- Implementació de models en producció
- Manteniment i monitoratge de models
- Consideracions ètiques i de privacitat
Mòdul 9: Projectes Pràctics
- Projecte 1: Predicció de preus d'habitatges
- Projecte 2: Classificació d'imatges
- Projecte 3: Anàlisi de sentiments a xarxes socials
- Projecte 4: Detecció de fraus