Introducció

En aquest projecte final, aplicaràs tots els coneixements adquirits al llarg del curs per realitzar una anàlisi completa d'un conjunt de dades. Aquest projecte et permetrà demostrar la teva capacitat per recol·lectar, netejar, explorar, modelar i comunicar els resultats de l'anàlisi de dades.

Objectius del Projecte

  1. Recol·lecció de Dades: Identificar i obtenir un conjunt de dades adequat per a l'anàlisi.
  2. Neteja de Dades: Processar i netejar les dades per assegurar la seva qualitat.
  3. Exploració de Dades: Realitzar una anàlisi exploratòria per identificar patrons i tendències.
  4. Modelatge de Dades: Desenvolupar i avaluar models predictius.
  5. Comunicació de Resultats: Presentar els resultats de manera clara i efectiva.

Passos del Projecte

  1. Selecció del Conjunt de Dades

Tria un conjunt de dades que sigui rellevant per a un problema específic que vulguis resoldre. Pots utilitzar fonts de dades públiques com Kaggle, UCI Machine Learning Repository, o altres bases de dades obertes.

  1. Recol·lecció i Preparació de Dades

Fonts de Dades i Mètodes de Recol·lecció

  • Descripció: Identifica les fonts de dades i descriu els mètodes utilitzats per recol·lectar-les.
  • Exemple: Si utilitzes dades de Kaggle, proporciona l'enllaç al conjunt de dades.

Neteja de Dades

  • Identificació de Dades Faltants: Utilitza tècniques per identificar valors nuls o faltants.
  • Gestió de Dades Faltants: Decideix com gestionar les dades faltants (per exemple, eliminació, imputació).
import pandas as pd

# Carregar el conjunt de dades
df = pd.read_csv('dataset.csv')

# Identificar valors nuls
print(df.isnull().sum())

# Imputar valors nuls amb la mitjana
df.fillna(df.mean(), inplace=True)

Transformació i Normalització de Dades

  • Transformació: Aplica transformacions necessàries per preparar les dades per a l'anàlisi.
  • Normalització: Escala les dades per assegurar que totes les variables tinguin la mateixa importància.
from sklearn.preprocessing import StandardScaler

# Normalitzar les dades
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df)

  1. Exploració de Dades

Anàlisi Exploratori de Dades (EDA)

  • Descripció: Realitza una anàlisi exploratòria per entendre les característiques del conjunt de dades.
  • Exemple: Estadístiques descriptives, distribucions de variables.
import seaborn as sns
import matplotlib.pyplot as plt

# Estadístiques descriptives
print(df.describe())

# Distribució de variables
sns.histplot(df['variable'])
plt.show()

Visualització de Dades

  • Gràfics i Taules: Utilitza visualitzacions per identificar patrons i tendències.
# Gràfic de dispersió
sns.scatterplot(x='variable1', y='variable2', data=df)
plt.show()

  1. Modelatge de Dades

Desenvolupament de Models

  • Selecció de Models: Tria models adequats per al problema (per exemple, regressió lineal, arbres de decisió).
  • Entrenament de Models: Entrena els models utilitzant el conjunt de dades.
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# Dividir les dades en entrenament i prova
X_train, X_test, y_train, y_test = train_test_split(df[['variable1', 'variable2']], df['target'], test_size=0.2, random_state=42)

# Entrenar el model
model = LinearRegression()
model.fit(X_train, y_train)

Avaluació de Models

  • Mètriques d'Avaluació: Utilitza mètriques per avaluar el rendiment dels models (per exemple, RMSE, R²).
from sklearn.metrics import mean_squared_error, r2_score

# Prediccions
y_pred = model.predict(X_test)

# Avaluació
rmse = mean_squared_error(y_test, y_pred, squared=False)
r2 = r2_score(y_test, y_pred)

print(f'RMSE: {rmse}')
print(f'R²: {r2}')

  1. Comunicació de Resultats

Presentació de Resultats

  • Informe: Redacta un informe detallat amb els resultats de l'anàlisi.
  • Visualitzacions: Inclou gràfics i taules per il·lustrar els resultats.

Documentació i Informes

  • Documentació: Documenta tot el procés d'anàlisi, incloent-hi els passos seguits i les decisions preses.
  • Informe Final: Prepara un informe final que resumeixi els resultats i les conclusions.

Conclusió

Aquest projecte final t'ha permès aplicar tots els conceptes i tècniques apresos al llarg del curs. Has après a recol·lectar, netejar, explorar, modelar i comunicar dades de manera efectiva. Aquestes habilitats són fonamentals per a qualsevol professional que treballi en l'àmbit de l'anàlisi de dades.

Exercicis Pràctics

  1. Recol·lecció de Dades: Troba un conjunt de dades públic i descriu les seves característiques principals.
  2. Neteja de Dades: Identifica i gestiona les dades faltants en el conjunt de dades seleccionat.
  3. Exploració de Dades: Realitza una anàlisi exploratòria i crea visualitzacions per identificar patrons.
  4. Modelatge de Dades: Desenvolupa i avalua un model predictiu utilitzant el conjunt de dades.
  5. Comunicació de Resultats: Redacta un informe detallat amb els resultats de l'anàlisi.

Solucions als Exercicis

  1. Recol·lecció de Dades

  • Descripció: He seleccionat el conjunt de dades "House Prices" de Kaggle, que conté informació sobre les característiques de les cases i els seus preus de venda.

  1. Neteja de Dades

  • Identificació de Dades Faltants: He identificat que les variables 'LotFrontage' i 'GarageYrBlt' tenen valors nuls.
  • Gestió de Dades Faltants: He imputat els valors nuls de 'LotFrontage' amb la mitjana i he eliminat les files amb valors nuls a 'GarageYrBlt'.

  1. Exploració de Dades

  • Anàlisi Exploratori: He realitzat estadístiques descriptives i he creat un gràfic de dispersió per a les variables 'GrLivArea' i 'SalePrice'.

  1. Modelatge de Dades

  • Desenvolupament de Models: He entrenat un model de regressió lineal per predir el preu de venda de les cases.
  • Avaluació de Models: El model ha obtingut un RMSE de 0.15 i un R² de 0.85.

  1. Comunicació de Resultats

  • Informe Final: He redactat un informe detallat amb els resultats de l'anàlisi, incloent-hi gràfics i taules per il·lustrar els resultats.

Aquest projecte final t'ha proporcionat una experiència pràctica completa en l'anàlisi de dades, preparant-te per aplicar aquestes habilitats en situacions reals.

© Copyright 2024. Tots els drets reservats