Introducció

L'estadística és una branca de les matemàtiques que es dedica a la recopilació, anàlisi, interpretació i presentació de dades. En el context del Machine Learning, l'estadística és fonamental per comprendre les dades amb les quals treballarem i per avaluar els models que desenvolupem. Aquest tema cobreix els conceptes bàsics d'estadística que són essencials per a qualsevol professional que vulgui treballar amb Machine Learning.

Conceptes Clau

  1. Població i Mostra

  • Població: És el conjunt complet d'elements o individus que volem estudiar. Per exemple, tots els habitants d'una ciutat.
  • Mostra: És un subconjunt de la població que s'utilitza per fer inferències sobre la població. Per exemple, un grup de 100 habitants seleccionats aleatòriament d'una ciutat.

  1. Variables

  • Variable: És una característica o atribut que pot prendre diferents valors. Les variables poden ser:
    • Qualitatives: Descriuen qualitats o categories (per exemple, color dels ulls, tipus de vehicle).
    • Quantitatives: Mesuren quantitats numèriques (per exemple, alçada, pes).

  1. Mesures de Tendència Central

  • Mitjana (μ o x̄): És la suma de tots els valors dividida pel nombre de valors. \[ \text{Mitjana} = \frac{\sum_{i=1}^{n} x_i}{n} \]
  • Mediana: És el valor central quan els valors estan ordenats. Si hi ha un nombre parell de valors, és la mitjana dels dos valors centrals.
  • Moda: És el valor que apareix amb més freqüència en un conjunt de dades.

  1. Mesures de Dispersió

  • Rang: Diferència entre el valor màxim i el valor mínim.
  • Desviació Estàndard (σ o s): Mesura la quantitat de variació o dispersió dels valors respecte a la mitjana. \[ \text{Desviació Estàndard} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}} \]
  • Variança (σ² o s²): És la desviació estàndard elevada al quadrat. \[ \text{Variança} = \frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n} \]

  1. Distribucions de Probabilitat

  • Distribució Normal: També coneguda com a distribució de Gauss, és una distribució simètrica amb forma de campana. La majoria dels valors es concentren al voltant de la mitjana.
  • Distribució Binomial: Descriu el nombre d'èxits en una seqüència de n experiments independents de Bernoulli.
  • Distribució Poisson: Descriu el nombre d'esdeveniments que ocorren en un interval de temps fix.

  1. Correlació i Causalitat

  • Correlació: Mesura la força i la direcció de la relació lineal entre dues variables. El coeficient de correlació (r) varia entre -1 i 1.
    • r = 1: Correlació positiva perfecta.
    • r = -1: Correlació negativa perfecta.
    • r = 0: No hi ha correlació.
  • Causalitat: Indica que un canvi en una variable provoca un canvi en una altra. És important no confondre correlació amb causalitat.

Exemples Pràctics

Exemple 1: Càlcul de la Mitjana, Mediana i Moda

Considerem el següent conjunt de dades: [2, 4, 4, 4, 5, 5, 7, 9]

  • Mitjana: \[ \text{Mitjana} = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5 \]
  • Mediana: Ordenem les dades: [2, 4, 4, 4, 5, 5, 7, 9] La mediana és el valor central, en aquest cas, (4 + 5) / 2 = 4.5
  • Moda: El valor que apareix amb més freqüència és 4.

Exemple 2: Càlcul de la Desviació Estàndard

Considerem el mateix conjunt de dades: [2, 4, 4, 4, 5, 5, 7, 9]

  • Mitjana: 5
  • Desviació Estàndard: \[ \text{Desviació Estàndard} = \sqrt{\frac{(2-5)^2 + (4-5)^2 + (4-5)^2 + (4-5)^2 + (5-5)^2 + (5-5)^2 + (7-5)^2 + (9-5)^2}{8}} = \sqrt{\frac{9 + 1 + 1 + 1 + 0 + 0 + 4 + 16}{8}} = \sqrt{4} = 2 \]

Exercicis Pràctics

Exercici 1: Càlcul de Mesures de Tendència Central

Considera el següent conjunt de dades: [3, 7, 8, 5, 12, 14, 21, 13, 18, 9]

  1. Calcula la mitjana.
  2. Calcula la mediana.
  3. Determina la moda.

Solució

  1. Mitjana: \[ \text{Mitjana} = \frac{3 + 7 + 8 + 5 + 12 + 14 + 21 + 13 + 18 + 9}{10} = 11 \]
  2. Mediana: Ordenem les dades: [3, 5, 7, 8, 9, 12, 13, 14, 18, 21] La mediana és (9 + 12) / 2 = 10.5
  3. Moda: No hi ha cap valor que es repeteixi, per tant, no hi ha moda.

Exercici 2: Càlcul de la Desviació Estàndard

Considera el següent conjunt de dades: [10, 12, 23, 23, 16, 23, 21, 16]

  1. Calcula la mitjana.
  2. Calcula la desviació estàndard.

Solució

  1. Mitjana: \[ \text{Mitjana} = \frac{10 + 12 + 23 + 23 + 16 + 23 + 21 + 16}{8} = 18 \]
  2. Desviació Estàndard: \[ \text{Desviació Estàndard} = \sqrt{\frac{(10-18)^2 + (12-18)^2 + (23-18)^2 + (23-18)^2 + (16-18)^2 + (23-18)^2 + (21-18)^2 + (16-18)^2}{8}} = \sqrt{\frac{64 + 36 + 25 + 25 + 4 + 25 + 9 + 4}{8}} = \sqrt{23} \approx 4.79 \]

Conclusió

En aquesta secció, hem cobert els conceptes bàsics d'estadística que són essencials per al Machine Learning. Hem après sobre la població i la mostra, les variables, les mesures de tendència central i dispersió, les distribucions de probabilitat, i la diferència entre correlació i causalitat. Aquests conceptes són fonamentals per comprendre i analitzar les dades amb les quals treballarem en els següents mòduls del curs.

Curs de Machine Learning

Mòdul 1: Introducció al Machine Learning

Mòdul 2: Fonaments d'Estadística i Probabilitat

Mòdul 3: Preprocessament de Dades

Mòdul 4: Algoritmes de Machine Learning Supervisat

Mòdul 5: Algoritmes de Machine Learning No Supervisat

Mòdul 6: Avaluació i Validació de Models

Mòdul 7: Tècniques Avançades i Optimització

Mòdul 8: Implementació i Desplegament de Models

Mòdul 9: Projectes Pràctics

Mòdul 10: Recursos Addicionals

© Copyright 2024. Tots els drets reservats