El Projecte | Sobre nosaltres | Contribuir | Donacions | Llicència

HOME

Introducció

La validació creuada és una tècnica essencial en l'anàlisi de dades per avaluar la capacitat predictiva dels models estadístics. Aquesta tècnica ajuda a garantir que els models no només funcionin bé amb les dades d'entrenament, sinó que també generalitzin bé amb dades noves i no vistes. En aquesta secció, explorarem els conceptes clau de la validació creuada, les seves variants i altres tècniques de validació.

Conceptes Clau

Sobreajustament (Overfitting) i Subajustament (Underfitting)

Sobreajustament: Quan un model és massa complex i s'ajusta massa bé a les dades d'entrenament, capturant tant els patrons reals com el soroll aleatori.
Subajustament: Quan un model és massa simple i no captura els patrons subjacents de les dades.

Validació Creuada

La validació creuada és una tècnica per avaluar la capacitat predictiva d'un model dividint les dades en múltiples subconjunts i entrenant i avaluant el model diverses vegades.

Tipus de Validació Creuada

Validació Creuada K-Fold

Descripció: Les dades es divideixen en K subconjunts (o "folds"). El model s'entrena K vegades, cada vegada utilitzant K-1 folds per entrenar i el fold restant per validar.
Avantatges: Redueix la variabilitat dels resultats, ja que cada punt de dades es valida exactament una vegada.
Diagrama:

Fold	Dades d'Entrenament	Dades de Validació
1	Fold 2, 3, 4, 5	Fold 1
2	Fold 1, 3, 4, 5	Fold 2
3	Fold 1, 2, 4, 5	Fold 3
4	Fold 1, 2, 3, 5	Fold 4
5	Fold 1, 2, 3, 4	Fold 5

Validació Creuada Leave-One-Out (LOOCV)

Descripció: És un cas especial de la validació creuada K-Fold on K és igual al nombre total de mostres. Cada mostra es valida individualment mentre la resta s'utilitza per entrenar.
Avantatges: Utilitza la màxima quantitat de dades per entrenar en cada iteració.
Inconvenients: Pot ser computacionalment costós per a conjunts de dades grans.

Validació Creuada Estratificada

Descripció: Similar a la validació creuada K-Fold, però els folds es creen de manera que la distribució de les classes sigui similar en cada fold.
Avantatges: Especialment útil per a conjunts de dades desequilibrats.

Validació Creuada de Bootstrap

Descripció: Es creen múltiples mostres de les dades amb reemplaçament, i el model s'entrena i valida en aquestes mostres.
Avantatges: Proporciona una estimació de la variabilitat del model.
Inconvenients: Pot ser més difícil d'interpretar que altres mètodes.

Implementació Pràctica

Exemple de Validació Creuada K-Fold amb Python

from sklearn.model_selection import KFold
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

# Dades d'exemple
X = np.array([[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]])
y = np.array([2, 3, 4, 5, 6])

# Configuració de la validació creuada K-Fold
kf = KFold(n_splits=5)
model = LinearRegression()

mse_scores = []

for train_index, test_index in kf.split(X):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)
    mse_scores.append(mse)

print("MSE per cada fold:", mse_scores)
print("MSE mitjà:", np.mean(mse_scores))

Explicació del Codi

Importació de Llibreries: Importem les llibreries necessàries per a la validació creuada, el model de regressió lineal i el càlcul de l'error quadràtic mitjà (MSE).
Dades d'Exemple: Definim un conjunt de dades d'exemple.
Configuració de K-Fold: Configurem la validació creuada K-Fold amb 5 folds.
Entrenament i Validació: Per a cada fold, entrenem el model amb les dades d'entrenament i el validem amb les dades de test.
Càlcul del MSE: Calculem l'MSE per a cada fold i el guardem en una llista.
Resultats: Imprimim l'MSE per a cada fold i l'MSE mitjà.

Altres Tècniques de Validació

Holdout

Descripció: Les dades es divideixen en dos subconjunts: un per entrenar i un altre per validar.
Avantatges: Simple i ràpid.
Inconvenients: Pot ser menys fiable que la validació creuada, ja que depèn d'una única divisió de les dades.

Validació Creuada de Temps Sèrie

Descripció: Utilitzada per a dades temporals, on les dades es divideixen en segments temporals i es valida en segments futurs.
Avantatges: Manté la seqüència temporal de les dades.
Inconvenients: Pot ser més complex de configurar.

Exercici Pràctic

Exercici

Implementa una validació creuada K-Fold amb 10 folds utilitzant un model de regressió logística sobre un conjunt de dades de classificació.

Solució

from sklearn.model_selection import KFold
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
import numpy as np

# Carregar el conjunt de dades Iris
data = load_iris()
X = data.data
y = data.target

# Configuració de la validació creuada K-Fold
kf = KFold(n_splits=10)
model = LogisticRegression(max_iter=200)

accuracy_scores = []

for train_index, test_index in kf.split(X):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    accuracy_scores.append(accuracy)

print("Precisió per cada fold:", accuracy_scores)
print("Precisió mitjana:", np.mean(accuracy_scores))

Explicació del Codi

Carregar el Conjunt de Dades: Utilitzem el conjunt de dades Iris per a la classificació.
Configuració de K-Fold: Configurem la validació creuada K-Fold amb 10 folds.
Entrenament i Validació: Per a cada fold, entrenem el model de regressió logística amb les dades d'entrenament i el validem amb les dades de test.
Càlcul de la Precisió: Calculem la precisió per a cada fold i la guardem en una llista.
Resultats: Imprimim la precisió per a cada fold i la precisió mitjana.

Conclusió

La validació creuada és una tècnica poderosa per avaluar la capacitat predictiva dels models i assegurar-se que generalitzin bé amb dades noves. Hem explorat diverses tècniques de validació creuada, incloent K-Fold, LOOCV, validació creuada estratificada i bootstrap. També hem implementat exemples pràctics per il·lustrar com utilitzar aquestes tècniques en Python. Amb aquestes eines, estaràs millor preparat per construir models robustos i fiables.

Validació Creuada i Tècniques de Validació

Introducció

Conceptes Clau

Sobreajustament (Overfitting) i Subajustament (Underfitting)

Validació Creuada

Tipus de Validació Creuada

Validació Creuada K-Fold

Validació Creuada Leave-One-Out (LOOCV)

Validació Creuada Estratificada

Validació Creuada de Bootstrap

Implementació Pràctica

Exemple de Validació Creuada K-Fold amb Python

Explicació del Codi

Altres Tècniques de Validació

Holdout

Validació Creuada de Temps Sèrie

Exercici Pràctic

Exercici

Solució

Explicació del Codi

Conclusió

Curs d'Anàlisi de Dades

Mòdul 1: Introducció a l'Anàlisi de Dades

Mòdul 2: Recol·lecció i Preparació de Dades

Mòdul 3: Exploració de Dades

Mòdul 4: Modelatge de Dades

Mòdul 5: Avaluació i Validació de Models

Mòdul 6: Implementació i Comunicació de Resultats

Mòdul 7: Casos Pràctics i Projectes