Introducció

La inferència estadística és una branca de l'estadística que es dedica a fer prediccions o generalitzacions sobre una població a partir d'una mostra de dades. Aquest procés és fonamental en el camp del Machine Learning, ja que permet extreure conclusions i prendre decisions basades en dades.

Conceptes Clau

  1. Població i Mostra

  • Població: Conjunt complet d'elements o observacions que ens interessa estudiar.
  • Mostra: Subconjunt de la població que s'utilitza per fer inferències sobre la població.

  1. Paràmetres i Estadístics

  • Paràmetre: Valor numèric que descriu una característica de la població (per exemple, la mitjana poblacional).
  • Estadístic: Valor numèric que descriu una característica de la mostra (per exemple, la mitjana mostral).

  1. Estimació Puntual i per Interval

  • Estimació puntual: Valor únic que s'utilitza per estimar un paràmetre de la població.
  • Estimació per interval: Interval de valors dins del qual es creu que es troba el paràmetre poblacional amb una certa probabilitat (per exemple, un interval de confiança).

  1. Hipòtesis Estadístiques

  • Hipòtesi nul·la (H0): Afirmació que no hi ha efecte o diferència.
  • Hipòtesi alternativa (H1): Afirmació que hi ha un efecte o diferència.

  1. Errors en la Inferència

  • Error de tipus I (α): Rebutjar la hipòtesi nul·la quan és certa.
  • Error de tipus II (β): No rebutjar la hipòtesi nul·la quan és falsa.

Procediments d'Inferència Estadística

  1. Estimació Puntual

L'estimació puntual consisteix a utilitzar un únic valor de la mostra per estimar un paràmetre de la població. Per exemple, la mitjana mostral (\(\bar{x}\)) es pot utilitzar per estimar la mitjana poblacional (\(\mu\)).

  1. Estimació per Interval

L'estimació per interval proporciona un rang de valors dins del qual es creu que es troba el paràmetre poblacional. Un interval de confiança del 95% per a la mitjana poblacional es calcula com:

\[ \bar{x} \pm Z_{\alpha/2} \left(\frac{\sigma}{\sqrt{n}}\right) \]

on:

  • \(\bar{x}\) és la mitjana mostral.
  • \(Z_{\alpha/2}\) és el valor crític de la distribució normal estàndard.
  • \(\sigma\) és la desviació estàndard poblacional.
  • \(n\) és la mida de la mostra.

  1. Proves d'Hipòtesis

Les proves d'hipòtesis són procediments per determinar si hi ha suficient evidència en una mostra de dades per rebutjar una hipòtesi nul·la. Els passos típics són:

  1. Formular les hipòtesis nul·la (H0) i alternativa (H1).
  2. Seleccionar un nivell de significació (\(\alpha\)).
  3. Calcular l'estadístic de prova.
  4. Determinar el valor crític o el p-valor.
  5. Prendre una decisió: rebutjar o no rebutjar H0.

Exemple de Prova d'Hipòtesi

Suposem que volem provar si la mitjana de la població és igual a un valor específic (\(\mu_0\)). Utilitzem una prova z si la desviació estàndard poblacional (\(\sigma\)) és coneguda:

\[ Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} \]

Si \(|Z|\) és més gran que el valor crític \(Z_{\alpha/2}\), rebutgem la hipòtesi nul·la.

Exercicis Pràctics

Exercici 1: Estimació Puntual

Calcula la mitjana mostral i utilitza-la per estimar la mitjana poblacional.

Dades:

\[ {12, 15, 14, 10, 13, 17, 16, 14, 15, 12} \]

Solució:

\[ \bar{x} = \frac{12 + 15 + 14 + 10 + 13 + 17 + 16 + 14 + 15 + 12}{10} = 13.8 \]

Exercici 2: Interval de Confiança

Calcula un interval de confiança del 95% per a la mitjana poblacional si \(\sigma = 2\).

Solució:

\[ \bar{x} = 13.8 \] \[ Z_{0.025} = 1.96 \] \[ IC = 13.8 \pm 1.96 \left(\frac{2}{\sqrt{10}}\right) \] \[ IC = 13.8 \pm 1.24 \] \[ IC = [12.56, 15.04] \]

Exercici 3: Prova d'Hipòtesi

Prova si la mitjana poblacional és igual a 14 amb un nivell de significació del 5%.

Solució:

\[ H0: \mu = 14 \] \[ H1: \mu \neq 14 \] \[ Z = \frac{13.8 - 14}{2 / \sqrt{10}} = -0.316 \] \[ Z_{0.025} = 1.96 \]

Com \(|-0.316| < 1.96\), no rebutgem H0.

Conclusió

La inferència estadística és una eina poderosa per fer prediccions i prendre decisions basades en dades. Comprendre els conceptes clau i els procediments d'inferència és essencial per aplicar tècniques de Machine Learning de manera efectiva.

Curs de Machine Learning

Mòdul 1: Introducció al Machine Learning

Mòdul 2: Fonaments d'Estadística i Probabilitat

Mòdul 3: Preprocessament de Dades

Mòdul 4: Algoritmes de Machine Learning Supervisat

Mòdul 5: Algoritmes de Machine Learning No Supervisat

Mòdul 6: Avaluació i Validació de Models

Mòdul 7: Tècniques Avançades i Optimització

Mòdul 8: Implementació i Desplegament de Models

Mòdul 9: Projectes Pràctics

Mòdul 10: Recursos Addicionals

© Copyright 2024. Tots els drets reservats