Objectius del Mòdul
En aquest mòdul, aprendràs els conceptes fonamentals dels models estadístics, incloent-hi la seva importància en l'anàlisi de dades, els tipus de models més comuns i com es poden aplicar per fer prediccions i inferències a partir de dades.
Contingut del Mòdul
- Què és un Model Estadístic?
- Tipus de Models Estadístics
- Components d'un Model Estadístic
- Construcció d'un Model Estadístic
- Exemples Pràctics
- Exercicis Pràctics
- Què és un Model Estadístic?
Un model estadístic és una representació matemàtica que descriu la relació entre diferents variables. Els models estadístics s'utilitzen per fer prediccions, inferències i per entendre millor les dades.
Conceptes Clau
- Variable Dependent: La variable que es vol predir o explicar.
- Variable Independent: Les variables que s'utilitzen per fer la predicció.
- Paràmetres del Model: Valors que el model ajusta per representar millor les dades.
- Tipus de Models Estadístics
Hi ha diversos tipus de models estadístics, cadascun amb les seves pròpies característiques i aplicacions. Alguns dels més comuns són:
Models Lineals
- Regressió Lineal: Utilitza una línia recta per modelar la relació entre la variable dependent i les variables independents.
- Regressió Múltiple: Una extensió de la regressió lineal que utilitza múltiples variables independents.
Models No Lineals
- Regressió Logística: Utilitza una funció logística per modelar la probabilitat d'un esdeveniment binari.
- Arbres de Decisió: Utilitzen una estructura d'arbre per modelar les decisions i les seves possibles conseqüències.
Models de Sèries Temporals
- ARIMA: Utilitzat per modelar dades de sèries temporals.
- SARIMA: Una extensió d'ARIMA que inclou components estacionals.
- Components d'un Model Estadístic
Un model estadístic típicament inclou els següents components:
- Funció del Model: La fórmula matemàtica que descriu la relació entre les variables.
- Paràmetres: Els valors que s'ajusten per optimitzar el model.
- Error: La diferència entre els valors predits pel model i els valors reals.
Exemple de Funció de Regressió Lineal
\[ y = \beta_0 + \beta_1 x + \epsilon \] On:
- \( y \) és la variable dependent.
- \( x \) és la variable independent.
- \( \beta_0 \) és la intersecció.
- \( \beta_1 \) és la pendent.
- \( \epsilon \) és l'error.
- Construcció d'un Model Estadístic
Passos per Construir un Model Estadístic
- Recol·lecció de Dades: Obtenir les dades necessàries per al model.
- Neteja de Dades: Preparar les dades eliminant valors faltants i outliers.
- Selecció del Model: Triar el tipus de model més adequat.
- Ajust del Model: Utilitzar tècniques estadístiques per ajustar els paràmetres del model.
- Validació del Model: Avaluar el model utilitzant tècniques com la validació creuada.
- Interpretació dels Resultats: Analitzar els resultats per fer inferències i prediccions.
Exemple Pràctic: Regressió Lineal en Python
import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error # Carregar les dades data = pd.read_csv('data.csv') X = data[['feature1', 'feature2']] y = data['target'] # Dividir les dades en entrenament i prova X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # Crear el model de regressió lineal model = LinearRegression() model.fit(X_train, y_train) # Predir els valors de prova y_pred = model.predict(X_test) # Avaluar el model mse = mean_squared_error(y_test, y_pred) print(f'Error Quadràtic Mitjà: {mse}')
- Exemples Pràctics
Exemple 1: Regressió Lineal Simple
- Dades: Alçada i pes de diverses persones.
- Objectiu: Predir el pes basant-se en l'alçada.
Exemple 2: Regressió Logística
- Dades: Característiques de correus electrònics.
- Objectiu: Classificar si un correu és spam o no.
- Exercicis Pràctics
Exercici 1: Regressió Lineal
Utilitza el conjunt de dades proporcionat per construir un model de regressió lineal que predigui el preu d'una casa basant-se en les seves característiques.
Exercici 2: Regressió Logística
Construeix un model de regressió logística per predir si un estudiant passarà o suspendrà un examen basant-se en les seves hores d'estudi i assistència a classe.
Solucions
Exercici 1:
# Carregar les dades data = pd.read_csv('house_prices.csv') X = data[['size', 'bedrooms']] y = data['price'] # Dividir les dades en entrenament i prova X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # Crear el model de regressió lineal model = LinearRegression() model.fit(X_train, y_train) # Predir els valors de prova y_pred = model.predict(X_test) # Avaluar el model mse = mean_squared_error(y_test, y_pred) print(f'Error Quadràtic Mitjà: {mse}')
Exercici 2:
# Carregar les dades data = pd.read_csv('student_performance.csv') X = data[['study_hours', 'attendance']] y = data['passed'] # Dividir les dades en entrenament i prova X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # Crear el model de regressió logística model = LogisticRegression() model.fit(X_train, y_train) # Predir els valors de prova y_pred = model.predict(X_test) # Avaluar el model accuracy = accuracy_score(y_test, y_pred) print(f'Precisió: {accuracy}')
Conclusió
En aquest mòdul, hem introduït els conceptes bàsics dels models estadístics, incloent-hi els tipus de models més comuns i com construir-los. Hem proporcionat exemples pràctics i exercicis per ajudar-te a aplicar aquests conceptes en situacions reals. En el següent mòdul, explorarem en profunditat la regressió lineal i logística, i veurem com utilitzar aquests models per fer prediccions i inferències.
Curs d'Anàlisi de Dades
Mòdul 1: Introducció a l'Anàlisi de Dades
- Conceptes Bàsics d'Anàlisi de Dades
- Importància de l'Anàlisi de Dades en la Presa de Decisions
- Eines i Programari Comunament Utilitzats
Mòdul 2: Recol·lecció i Preparació de Dades
- Fonts de Dades i Mètodes de Recol·lecció
- Neteja de Dades: Identificació i Gestió de Dades Faltants
- Transformació i Normalització de Dades
Mòdul 3: Exploració de Dades
- Anàlisi Exploratori de Dades (EDA)
- Visualització de Dades: Gràfics i Taules
- Detecció de Patrons i Tendències
Mòdul 4: Modelatge de Dades
- Introducció als Models Estadístics
- Regressió Lineal i Logística
- Arbres de Decisió i Boscos Aleatoris
Mòdul 5: Avaluació i Validació de Models
- Mètriques d'Avaluació de Models
- Validació Creuada i Tècniques de Validació
- Ajust i Optimització de Models
Mòdul 6: Implementació i Comunicació de Resultats
- Implementació de Models en Producció
- Comunicació de Resultats a Parts Interessades
- Documentació i Informes