Introducció
En aquest projecte final, aplicaràs tots els coneixements adquirits al llarg del curs per realitzar una anàlisi completa d'un conjunt de dades. Aquest projecte et permetrà demostrar la teva capacitat per recol·lectar, netejar, explorar, modelar i comunicar els resultats de l'anàlisi de dades.
Objectius del Projecte
- Recol·lecció de Dades: Identificar i obtenir un conjunt de dades adequat per a l'anàlisi.
- Neteja de Dades: Processar i netejar les dades per assegurar la seva qualitat.
- Exploració de Dades: Realitzar una anàlisi exploratòria per identificar patrons i tendències.
- Modelatge de Dades: Desenvolupar i avaluar models predictius.
- Comunicació de Resultats: Presentar els resultats de manera clara i efectiva.
Passos del Projecte
- Selecció del Conjunt de Dades
Tria un conjunt de dades que sigui rellevant per a un problema específic que vulguis resoldre. Pots utilitzar fonts de dades públiques com Kaggle, UCI Machine Learning Repository, o altres bases de dades obertes.
- Recol·lecció i Preparació de Dades
Fonts de Dades i Mètodes de Recol·lecció
- Descripció: Identifica les fonts de dades i descriu els mètodes utilitzats per recol·lectar-les.
- Exemple: Si utilitzes dades de Kaggle, proporciona l'enllaç al conjunt de dades.
Neteja de Dades
- Identificació de Dades Faltants: Utilitza tècniques per identificar valors nuls o faltants.
- Gestió de Dades Faltants: Decideix com gestionar les dades faltants (per exemple, eliminació, imputació).
import pandas as pd # Carregar el conjunt de dades df = pd.read_csv('dataset.csv') # Identificar valors nuls print(df.isnull().sum()) # Imputar valors nuls amb la mitjana df.fillna(df.mean(), inplace=True)
Transformació i Normalització de Dades
- Transformació: Aplica transformacions necessàries per preparar les dades per a l'anàlisi.
- Normalització: Escala les dades per assegurar que totes les variables tinguin la mateixa importància.
from sklearn.preprocessing import StandardScaler # Normalitzar les dades scaler = StandardScaler() df_scaled = scaler.fit_transform(df)
- Exploració de Dades
Anàlisi Exploratori de Dades (EDA)
- Descripció: Realitza una anàlisi exploratòria per entendre les característiques del conjunt de dades.
- Exemple: Estadístiques descriptives, distribucions de variables.
import seaborn as sns import matplotlib.pyplot as plt # Estadístiques descriptives print(df.describe()) # Distribució de variables sns.histplot(df['variable']) plt.show()
Visualització de Dades
- Gràfics i Taules: Utilitza visualitzacions per identificar patrons i tendències.
- Modelatge de Dades
Desenvolupament de Models
- Selecció de Models: Tria models adequats per al problema (per exemple, regressió lineal, arbres de decisió).
- Entrenament de Models: Entrena els models utilitzant el conjunt de dades.
from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression # Dividir les dades en entrenament i prova X_train, X_test, y_train, y_test = train_test_split(df[['variable1', 'variable2']], df['target'], test_size=0.2, random_state=42) # Entrenar el model model = LinearRegression() model.fit(X_train, y_train)
Avaluació de Models
- Mètriques d'Avaluació: Utilitza mètriques per avaluar el rendiment dels models (per exemple, RMSE, R²).
from sklearn.metrics import mean_squared_error, r2_score # Prediccions y_pred = model.predict(X_test) # Avaluació rmse = mean_squared_error(y_test, y_pred, squared=False) r2 = r2_score(y_test, y_pred) print(f'RMSE: {rmse}') print(f'R²: {r2}')
- Comunicació de Resultats
Presentació de Resultats
- Informe: Redacta un informe detallat amb els resultats de l'anàlisi.
- Visualitzacions: Inclou gràfics i taules per il·lustrar els resultats.
Documentació i Informes
- Documentació: Documenta tot el procés d'anàlisi, incloent-hi els passos seguits i les decisions preses.
- Informe Final: Prepara un informe final que resumeixi els resultats i les conclusions.
Conclusió
Aquest projecte final t'ha permès aplicar tots els conceptes i tècniques apresos al llarg del curs. Has après a recol·lectar, netejar, explorar, modelar i comunicar dades de manera efectiva. Aquestes habilitats són fonamentals per a qualsevol professional que treballi en l'àmbit de l'anàlisi de dades.
Exercicis Pràctics
- Recol·lecció de Dades: Troba un conjunt de dades públic i descriu les seves característiques principals.
- Neteja de Dades: Identifica i gestiona les dades faltants en el conjunt de dades seleccionat.
- Exploració de Dades: Realitza una anàlisi exploratòria i crea visualitzacions per identificar patrons.
- Modelatge de Dades: Desenvolupa i avalua un model predictiu utilitzant el conjunt de dades.
- Comunicació de Resultats: Redacta un informe detallat amb els resultats de l'anàlisi.
Solucions als Exercicis
- Recol·lecció de Dades
- Descripció: He seleccionat el conjunt de dades "House Prices" de Kaggle, que conté informació sobre les característiques de les cases i els seus preus de venda.
- Neteja de Dades
- Identificació de Dades Faltants: He identificat que les variables 'LotFrontage' i 'GarageYrBlt' tenen valors nuls.
- Gestió de Dades Faltants: He imputat els valors nuls de 'LotFrontage' amb la mitjana i he eliminat les files amb valors nuls a 'GarageYrBlt'.
- Exploració de Dades
- Anàlisi Exploratori: He realitzat estadístiques descriptives i he creat un gràfic de dispersió per a les variables 'GrLivArea' i 'SalePrice'.
- Modelatge de Dades
- Desenvolupament de Models: He entrenat un model de regressió lineal per predir el preu de venda de les cases.
- Avaluació de Models: El model ha obtingut un RMSE de 0.15 i un R² de 0.85.
- Comunicació de Resultats
- Informe Final: He redactat un informe detallat amb els resultats de l'anàlisi, incloent-hi gràfics i taules per il·lustrar els resultats.
Aquest projecte final t'ha proporcionat una experiència pràctica completa en l'anàlisi de dades, preparant-te per aplicar aquestes habilitats en situacions reals.
Curs d'Anàlisi de Dades
Mòdul 1: Introducció a l'Anàlisi de Dades
- Conceptes Bàsics d'Anàlisi de Dades
- Importància de l'Anàlisi de Dades en la Presa de Decisions
- Eines i Programari Comunament Utilitzats
Mòdul 2: Recol·lecció i Preparació de Dades
- Fonts de Dades i Mètodes de Recol·lecció
- Neteja de Dades: Identificació i Gestió de Dades Faltants
- Transformació i Normalització de Dades
Mòdul 3: Exploració de Dades
- Anàlisi Exploratori de Dades (EDA)
- Visualització de Dades: Gràfics i Taules
- Detecció de Patrons i Tendències
Mòdul 4: Modelatge de Dades
- Introducció als Models Estadístics
- Regressió Lineal i Logística
- Arbres de Decisió i Boscos Aleatoris
Mòdul 5: Avaluació i Validació de Models
- Mètriques d'Avaluació de Models
- Validació Creuada i Tècniques de Validació
- Ajust i Optimització de Models
Mòdul 6: Implementació i Comunicació de Resultats
- Implementació de Models en Producció
- Comunicació de Resultats a Parts Interessades
- Documentació i Informes