Introducció
Les distribucions de probabilitat són fonamentals en l'estadística i l'anàlisi de dades, ja que ens permeten modelar i comprendre la variabilitat inherent en les dades. En aquest tema, aprendrem sobre les distribucions de probabilitat més comunes i com treballar amb elles en R.
Objectius
- Entendre els conceptes bàsics de les distribucions de probabilitat.
- Aprendre a generar i visualitzar distribucions de probabilitat en R.
- Aplicar distribucions de probabilitat per a l'anàlisi de dades.
Conceptes Clau
- Distribució de Probabilitat: Una funció que descriu la probabilitat que una variable aleatòria prengui certs valors.
- Distribució Discreta: Distribució de variables aleatòries que poden prendre un nombre finit o comptable de valors.
- Distribució Contínua: Distribució de variables aleatòries que poden prendre qualsevol valor dins d'un interval.
Distribucions Discretes
Distribució Binomial
La distribució binomial modela el nombre d'èxits en una seqüència de n experiments independents, cadascun amb una probabilitat d'èxit p.
Fórmula
\[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \]
Exemple en R
# Paràmetres n <- 10 # nombre d'experiments p <- 0.5 # probabilitat d'èxit # Generar valors de la distribució binomial x <- rbinom(1000, n, p) # Visualitzar la distribució hist(x, breaks = 0:(n+1), main = "Distribució Binomial", xlab = "Nombre d'èxits", ylab = "Freqüència")
Distribució de Poisson
La distribució de Poisson modela el nombre d'esdeveniments que ocorren en un interval de temps fix, amb una taxa mitjana d'ocurrència λ.
Fórmula
\[ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!} \]
Exemple en R
# Paràmetre lambda <- 3 # taxa mitjana d'ocurrència # Generar valors de la distribució de Poisson x <- rpois(1000, lambda) # Visualitzar la distribució hist(x, breaks = 0:max(x), main = "Distribució de Poisson", xlab = "Nombre d'esdeveniments", ylab = "Freqüència")
Distribucions Contínues
Distribució Normal
La distribució normal, també coneguda com a distribució de Gauss, és una de les distribucions més importants en estadística. Es caracteritza per la seva forma de campana simètrica.
Fórmula
\[ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]
Exemple en R
# Paràmetres mu <- 0 # mitjana sigma <- 1 # desviació estàndard # Generar valors de la distribució normal x <- rnorm(1000, mu, sigma) # Visualitzar la distribució hist(x, breaks = 30, main = "Distribució Normal", xlab = "Valor", ylab = "Freqüència", probability = TRUE) # Afegir la corba de densitat curve(dnorm(x, mean = mu, sd = sigma), col = "blue", lwd = 2, add = TRUE)
Distribució Exponencial
La distribució exponencial modela el temps entre esdeveniments en un procés de Poisson, amb una taxa mitjana d'ocurrència λ.
Fórmula
\[ f(x) = \lambda e^{-\lambda x} \]
Exemple en R
# Paràmetre lambda <- 1 # taxa mitjana d'ocurrència # Generar valors de la distribució exponencial x <- rexp(1000, lambda) # Visualitzar la distribució hist(x, breaks = 30, main = "Distribució Exponencial", xlab = "Temps entre esdeveniments", ylab = "Freqüència", probability = TRUE) # Afegir la corba de densitat curve(dexp(x, rate = lambda), col = "red", lwd = 2, add = TRUE)
Exercicis Pràctics
Exercici 1: Distribució Binomial
Genera una distribució binomial amb n = 20 i p = 0.3. Visualitza la distribució i calcula la probabilitat de tenir exactament 5 èxits.
Solució
# Paràmetres n <- 20 p <- 0.3 # Generar valors de la distribució binomial x <- rbinom(1000, n, p) # Visualitzar la distribució hist(x, breaks = 0:(n+1), main = "Distribució Binomial", xlab = "Nombre d'èxits", ylab = "Freqüència") # Calcular la probabilitat de tenir exactament 5 èxits prob_5_exits <- dbinom(5, n, p) prob_5_exits
Exercici 2: Distribució Normal
Genera una distribució normal amb μ = 5 i σ = 2. Visualitza la distribució i calcula la probabilitat que un valor sigui menor que 4.
Solució
# Paràmetres mu <- 5 sigma <- 2 # Generar valors de la distribució normal x <- rnorm(1000, mu, sigma) # Visualitzar la distribució hist(x, breaks = 30, main = "Distribució Normal", xlab = "Valor", ylab = "Freqüència", probability = TRUE) # Afegir la corba de densitat curve(dnorm(x, mean = mu, sd = sigma), col = "blue", lwd = 2, add = TRUE) # Calcular la probabilitat que un valor sigui menor que 4 prob_menor_4 <- pnorm(4, mu, sigma) prob_menor_4
Resum
En aquesta secció, hem après sobre les distribucions de probabilitat més comunes, tant discretes com contínues. Hem vist com generar i visualitzar aquestes distribucions en R, així com calcular probabilitats associades. Aquestes habilitats són fonamentals per a l'anàlisi estadística i la modelització de dades.
En el següent tema, explorarem les proves d'hipòtesi, que ens permetran fer inferències sobre les dades basades en les distribucions de probabilitat que hem après.
Programació en R: De Principiant a Avançat
Mòdul 1: Introducció a R
- Introducció a R i RStudio
- Sintaxi Bàsica de R
- Tipus de Dades i Estructures
- Operacions i Funcions Bàsiques
- Importació i Exportació de Dades
Mòdul 2: Manipulació de Dades
- Vectors i Llistes
- Matrius i Arrays
- Data Frames
- Factors
- Manipulació de Dades amb dplyr
- Manipulació de Cadenes
Mòdul 3: Visualització de Dades
- Introducció a la Visualització de Dades
- Gràfics Base de R
- Conceptes Bàsics de ggplot2
- ggplot2 Avançat
- Visualitzacions Interactives amb plotly
Mòdul 4: Anàlisi Estadística
- Estadístiques Descriptives
- Distribucions de Probabilitat
- Proves d'Hipòtesi
- Correlació i Regressió
- ANOVA i Proves de Chi-Cuadrat
Mòdul 5: Gestió Avançada de Dades
- Gestió de Dates i Hores
- Reestructuració de Dades
- Treballant amb Grans Conjunts de Dades
- Web Scraping
- APIs i JSON
Mòdul 6: Conceptes Avançats de Programació
- Escriure Funcions
- Depuració i Gestió d'Errors
- Programació Orientada a Objectes en R
- Programació Funcional
- Computació Paral·lela
Mòdul 7: Aprenentatge Automàtic amb R
- Introducció a l'Aprenentatge Automàtic
- Preprocessament de Dades
- Aprenentatge Supervisat
- Aprenentatge No Supervisat
- Avaluació i Ajust de Models
Mòdul 8: Temes Especialitzats
- Anàlisi de Sèries Temporals
- Anàlisi de Dades Espacials
- Mineria de Text i Processament del Llenguatge Natural
- Bioinformàtica amb R
- Anàlisi de Dades Financeres