Introducció
Les distribucions de probabilitat són fonamentals en l'estadística i el machine learning, ja que permeten modelar i comprendre el comportament de les dades. En aquesta secció, explorarem els conceptes bàsics de les distribucions de probabilitat, els tipus més comuns i com s'utilitzen en el context del machine learning.
Conceptes Clau
- Què és una distribució de probabilitat?
Una distribució de probabilitat descriu com es distribueixen els valors d'una variable aleatòria. Proporciona una funció que assigna probabilitats a diferents esdeveniments o intervals de valors.
- Tipus de variables aleatòries
- Variables aleatòries discretes: Prenen un nombre finit o comptable de valors. Exemple: nombre de cares en llançaments de moneda.
- Variables aleatòries contínues: Prenen un nombre infinit de valors dins d'un interval. Exemple: altura d'una persona.
- Funció de probabilitat i funció de densitat de probabilitat
- Funció de probabilitat (PMF): Per a variables discretes, assigna probabilitats a valors específics.
- Funció de densitat de probabilitat (PDF): Per a variables contínues, descriu la densitat de probabilitat en diferents punts.
Distribucions de Probabilitat Comuns
- Distribució Binomial
- Descripció: Modela el nombre d'èxits en una seqüència de n experiments independents de Bernoulli.
- Paràmetres: n (nombre d'experiments), p (probabilitat d'èxit).
- PMF: \[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \]
- Exemple: Nombre de cares en 10 llançaments de moneda.
- Distribució Normal (Gaussiana)
- Descripció: Modela dades contínues que es distribueixen simètricament al voltant de la mitjana.
- Paràmetres: μ (mitjana), σ (desviació estàndard).
- PDF: \[ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]
- Exemple: Alçada de persones en una població.
- Distribució Poisson
- Descripció: Modela el nombre d'esdeveniments que ocorren en un interval de temps fix.
- Paràmetres: λ (taxa d'esdeveniments per unitat de temps).
- PMF: \[ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!} \]
- Exemple: Nombre de trucades a un centre d'atenció en una hora.
- Distribució Exponencial
- Descripció: Modela el temps entre esdeveniments en un procés de Poisson.
- Paràmetres: λ (taxa d'esdeveniments per unitat de temps).
- PDF: \[ f(x) = \lambda e^{-\lambda x} \quad \text{per a } x \geq 0 \]
- Exemple: Temps entre trucades a un centre d'atenció.
Aplicacions en Machine Learning
- Modelatge de dades
Les distribucions de probabilitat s'utilitzen per modelar la distribució de les dades en problemes de machine learning. Per exemple, la distribució normal és sovint assumida en molts algorismes de regressió.
- Generació de dades sintètiques
Les distribucions de probabilitat permeten generar dades sintètiques per a la validació i prova de models.
- Inferència estadística
Les distribucions de probabilitat són essencials per realitzar inferències estadístiques, com estimar paràmetres de població a partir de mostres.
Exercicis Pràctics
Exercici 1: Càlcul de probabilitats amb distribució binomial
Enunciat: Suposem que llancem una moneda 10 vegades. Quina és la probabilitat d'obtenir exactament 6 cares?
Solució:
from scipy.stats import binom # Paràmetres n = 10 # nombre d'experiments p = 0.5 # probabilitat d'èxit # Càlcul de la probabilitat probabilitat = binom.pmf(6, n, p) print(f'Probabilitat d\'obtenir exactament 6 cares: {probabilitat:.4f}')
Exercici 2: Generació de dades amb distribució normal
Enunciat: Genera un conjunt de dades de 1000 mostres que segueixin una distribució normal amb mitjana 0 i desviació estàndard 1.
Solució:
import numpy as np import matplotlib.pyplot as plt # Paràmetres mu = 0 # mitjana sigma = 1 # desviació estàndard # Generació de dades dades = np.random.normal(mu, sigma, 1000) # Visualització plt.hist(dades, bins=30, density=True) plt.title('Distribució Normal') plt.xlabel('Valor') plt.ylabel('Densitat') plt.show()
Resum
En aquesta secció, hem explorat les distribucions de probabilitat, incloent-hi els conceptes bàsics, els tipus més comuns i les seves aplicacions en el machine learning. Hem après a calcular probabilitats i generar dades sintètiques utilitzant distribucions de probabilitat. Aquestes habilitats són fonamentals per comprendre i aplicar tècniques de machine learning de manera efectiva.
Curs de Machine Learning
Mòdul 1: Introducció al Machine Learning
- Què és el Machine Learning?
- Història i evolució del Machine Learning
- Tipus de Machine Learning
- Aplicacions del Machine Learning
Mòdul 2: Fonaments d'Estadística i Probabilitat
- Conceptes bàsics d'estadística
- Distribucions de probabilitat
- Inferència estadística
- Teorema de Bayes
Mòdul 3: Preprocessament de Dades
Mòdul 4: Algoritmes de Machine Learning Supervisat
- Regressió lineal
- Regressió logística
- Arbres de decisió
- Màquines de suport vectorial (SVM)
- K-Veïns més propers (K-NN)
- Xarxes neuronals
Mòdul 5: Algoritmes de Machine Learning No Supervisat
- Clustering: K-means
- Clustering jeràrquic
- Anàlisi de components principals (PCA)
- Anàlisi d'agrupament DBSCAN
Mòdul 6: Avaluació i Validació de Models
Mòdul 7: Tècniques Avançades i Optimització
- Ensemble Learning
- Gradient Boosting
- Xarxes neuronals profundes (Deep Learning)
- Optimització d'hiperparàmetres
Mòdul 8: Implementació i Desplegament de Models
- Frameworks i biblioteques populars
- Implementació de models en producció
- Manteniment i monitoratge de models
- Consideracions ètiques i de privacitat
Mòdul 9: Projectes Pràctics
- Projecte 1: Predicció de preus d'habitatges
- Projecte 2: Classificació d'imatges
- Projecte 3: Anàlisi de sentiments a xarxes socials
- Projecte 4: Detecció de fraus