Introducció

Les distribucions de probabilitat són fonamentals en l'estadística i el machine learning, ja que permeten modelar i comprendre el comportament de les dades. En aquesta secció, explorarem els conceptes bàsics de les distribucions de probabilitat, els tipus més comuns i com s'utilitzen en el context del machine learning.

Conceptes Clau

  1. Què és una distribució de probabilitat?

Una distribució de probabilitat descriu com es distribueixen els valors d'una variable aleatòria. Proporciona una funció que assigna probabilitats a diferents esdeveniments o intervals de valors.

  1. Tipus de variables aleatòries

  • Variables aleatòries discretes: Prenen un nombre finit o comptable de valors. Exemple: nombre de cares en llançaments de moneda.
  • Variables aleatòries contínues: Prenen un nombre infinit de valors dins d'un interval. Exemple: altura d'una persona.

  1. Funció de probabilitat i funció de densitat de probabilitat

  • Funció de probabilitat (PMF): Per a variables discretes, assigna probabilitats a valors específics.
  • Funció de densitat de probabilitat (PDF): Per a variables contínues, descriu la densitat de probabilitat en diferents punts.

Distribucions de Probabilitat Comuns

  1. Distribució Binomial

  • Descripció: Modela el nombre d'èxits en una seqüència de n experiments independents de Bernoulli.
  • Paràmetres: n (nombre d'experiments), p (probabilitat d'èxit).
  • PMF: \[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \]
  • Exemple: Nombre de cares en 10 llançaments de moneda.

  1. Distribució Normal (Gaussiana)

  • Descripció: Modela dades contínues que es distribueixen simètricament al voltant de la mitjana.
  • Paràmetres: μ (mitjana), σ (desviació estàndard).
  • PDF: \[ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]
  • Exemple: Alçada de persones en una població.

  1. Distribució Poisson

  • Descripció: Modela el nombre d'esdeveniments que ocorren en un interval de temps fix.
  • Paràmetres: λ (taxa d'esdeveniments per unitat de temps).
  • PMF: \[ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!} \]
  • Exemple: Nombre de trucades a un centre d'atenció en una hora.

  1. Distribució Exponencial

  • Descripció: Modela el temps entre esdeveniments en un procés de Poisson.
  • Paràmetres: λ (taxa d'esdeveniments per unitat de temps).
  • PDF: \[ f(x) = \lambda e^{-\lambda x} \quad \text{per a } x \geq 0 \]
  • Exemple: Temps entre trucades a un centre d'atenció.

Aplicacions en Machine Learning

  1. Modelatge de dades

Les distribucions de probabilitat s'utilitzen per modelar la distribució de les dades en problemes de machine learning. Per exemple, la distribució normal és sovint assumida en molts algorismes de regressió.

  1. Generació de dades sintètiques

Les distribucions de probabilitat permeten generar dades sintètiques per a la validació i prova de models.

  1. Inferència estadística

Les distribucions de probabilitat són essencials per realitzar inferències estadístiques, com estimar paràmetres de població a partir de mostres.

Exercicis Pràctics

Exercici 1: Càlcul de probabilitats amb distribució binomial

Enunciat: Suposem que llancem una moneda 10 vegades. Quina és la probabilitat d'obtenir exactament 6 cares?

Solució:

from scipy.stats import binom

# Paràmetres
n = 10  # nombre d'experiments
p = 0.5  # probabilitat d'èxit

# Càlcul de la probabilitat
probabilitat = binom.pmf(6, n, p)
print(f'Probabilitat d\'obtenir exactament 6 cares: {probabilitat:.4f}')

Exercici 2: Generació de dades amb distribució normal

Enunciat: Genera un conjunt de dades de 1000 mostres que segueixin una distribució normal amb mitjana 0 i desviació estàndard 1.

Solució:

import numpy as np
import matplotlib.pyplot as plt

# Paràmetres
mu = 0  # mitjana
sigma = 1  # desviació estàndard

# Generació de dades
dades = np.random.normal(mu, sigma, 1000)

# Visualització
plt.hist(dades, bins=30, density=True)
plt.title('Distribució Normal')
plt.xlabel('Valor')
plt.ylabel('Densitat')
plt.show()

Resum

En aquesta secció, hem explorat les distribucions de probabilitat, incloent-hi els conceptes bàsics, els tipus més comuns i les seves aplicacions en el machine learning. Hem après a calcular probabilitats i generar dades sintètiques utilitzant distribucions de probabilitat. Aquestes habilitats són fonamentals per comprendre i aplicar tècniques de machine learning de manera efectiva.

Curs de Machine Learning

Mòdul 1: Introducció al Machine Learning

Mòdul 2: Fonaments d'Estadística i Probabilitat

Mòdul 3: Preprocessament de Dades

Mòdul 4: Algoritmes de Machine Learning Supervisat

Mòdul 5: Algoritmes de Machine Learning No Supervisat

Mòdul 6: Avaluació i Validació de Models

Mòdul 7: Tècniques Avançades i Optimització

Mòdul 8: Implementació i Desplegament de Models

Mòdul 9: Projectes Pràctics

Mòdul 10: Recursos Addicionals

© Copyright 2024. Tots els drets reservats