El Teorema de Bayes és un dels conceptes fonamentals en la teoria de la probabilitat i té una aplicació crucial en el camp del Machine Learning. Aquest teorema proporciona una manera de calcular la probabilitat d'un esdeveniment basant-se en informació prèvia o condicional.

Conceptes Clau

Abans d'entrar en el teorema de Bayes, és important entendre alguns conceptes bàsics:

  • Probabilitat a priori (P(A)): La probabilitat inicial d'un esdeveniment A abans de tenir en compte qualsevol evidència addicional.
  • Probabilitat condicional (P(B|A)): La probabilitat de l'esdeveniment B donat que l'esdeveniment A ha ocorregut.
  • Probabilitat a posteriori (P(A|B)): La probabilitat de l'esdeveniment A donat que l'esdeveniment B ha ocorregut.
  • Probabilitat marginal (P(B)): La probabilitat de l'esdeveniment B independentment de qualsevol altra informació.

Fórmula del Teorema de Bayes

El Teorema de Bayes es pot expressar matemàticament de la següent manera:

\[ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} \]

On:

  • \( P(A|B) \) és la probabilitat a posteriori d'A donat B.
  • \( P(B|A) \) és la probabilitat condicional de B donat A.
  • \( P(A) \) és la probabilitat a priori d'A.
  • \( P(B) \) és la probabilitat marginal de B.

Exemple Pràctic

Suposem que estem intentant diagnosticar una malaltia rara. Sabem que:

  • La probabilitat a priori de tenir la malaltia (P(Malaltia)) és del 0.1% (0.001).
  • La probabilitat de donar positiu en el test si es té la malaltia (P(Positiu|Malaltia)) és del 99% (0.99).
  • La probabilitat de donar positiu en el test si no es té la malaltia (P(Positiu|No Malaltia)) és del 5% (0.05).

Volem calcular la probabilitat de tenir la malaltia donat que el test ha sortit positiu (P(Malaltia|Positiu)).

Pas 1: Calcular la probabilitat marginal de donar positiu (P(Positiu))

\[ P(Positiu) = P(Positiu|Malaltia) \cdot P(Malaltia) + P(Positiu|No Malaltia) \cdot P(No Malaltia) \]

On:

  • \( P(No Malaltia) = 1 - P(Malaltia) = 0.999 \)

\[ P(Positiu) = (0.99 \cdot 0.001) + (0.05 \cdot 0.999) \] \[ P(Positiu) = 0.00099 + 0.04995 \] \[ P(Positiu) = 0.05094 \]

Pas 2: Aplicar el Teorema de Bayes

\[ P(Malaltia|Positiu) = \frac{P(Positiu|Malaltia) \cdot P(Malaltia)}{P(Positiu)} \]

\[ P(Malaltia|Positiu) = \frac{0.99 \cdot 0.001}{0.05094} \] \[ P(Malaltia|Positiu) \approx 0.0194 \]

Això significa que, tot i que el test ha sortit positiu, la probabilitat de tenir la malaltia és només del 1.94%.

Exercici Pràctic

Problema

Suposem que estem treballant en un sistema de detecció de correu brossa (spam). Sabem que:

  • La probabilitat a priori que un correu sigui spam (P(Spam)) és del 20% (0.2).
  • La probabilitat que un correu contingui la paraula "oferta" donat que és spam (P(Oferta|Spam)) és del 70% (0.7).
  • La probabilitat que un correu contingui la paraula "oferta" donat que no és spam (P(Oferta|No Spam)) és del 10% (0.1).

Volem calcular la probabilitat que un correu sigui spam donat que conté la paraula "oferta" (P(Spam|Oferta)).

Solució

  1. Calcular la probabilitat marginal de contenir la paraula "oferta" (P(Oferta)):

\[ P(Oferta) = P(Oferta|Spam) \cdot P(Spam) + P(Oferta|No Spam) \cdot P(No Spam) \]

On:

  • \( P(No Spam) = 1 - P(Spam) = 0.8 \)

\[ P(Oferta) = (0.7 \cdot 0.2) + (0.1 \cdot 0.8) \] \[ P(Oferta) = 0.14 + 0.08 \] \[ P(Oferta) = 0.22 \]

  1. Aplicar el Teorema de Bayes:

\[ P(Spam|Oferta) = \frac{P(Oferta|Spam) \cdot P(Spam)}{P(Oferta)} \]

\[ P(Spam|Oferta) = \frac{0.7 \cdot 0.2}{0.22} \] \[ P(Spam|Oferta) \approx 0.636 \]

Això significa que la probabilitat que un correu sigui spam donat que conté la paraula "oferta" és del 63.6%.

Resum

El Teorema de Bayes és una eina poderosa per actualitzar les probabilitats a priori basant-se en nova informació. És àmpliament utilitzat en diverses aplicacions de Machine Learning, com la classificació de correu brossa, el diagnòstic mèdic i molts altres camps on la probabilitat condicional és rellevant. Entendre i aplicar correctament aquest teorema pot millorar significativament la precisió dels models predictius.

Curs de Machine Learning

Mòdul 1: Introducció al Machine Learning

Mòdul 2: Fonaments d'Estadística i Probabilitat

Mòdul 3: Preprocessament de Dades

Mòdul 4: Algoritmes de Machine Learning Supervisat

Mòdul 5: Algoritmes de Machine Learning No Supervisat

Mòdul 6: Avaluació i Validació de Models

Mòdul 7: Tècniques Avançades i Optimització

Mòdul 8: Implementació i Desplegament de Models

Mòdul 9: Projectes Pràctics

Mòdul 10: Recursos Addicionals

© Copyright 2024. Tots els drets reservats