L'anàlisi exploratori de dades (AED) és un procés crític en el cicle de vida de la ciència de dades que implica l'exploració inicial de les dades per comprendre les seves característiques principals, sovint amb l'ajuda de tècniques visuals. Aquest procés ajuda a identificar patrons, detectar anomalies, comprovar supòsits i establir models per a futures anàlisis.
Objectius de l'AED
-
Comprendre la Distribució de les Dades:
- Identificar la distribució de les variables (normal, uniforme, etc.).
- Detectar valors atípics (outliers).
-
Identificar Relacions Entre Variables:
- Analitzar correlacions entre variables.
- Detectar possibles interaccions.
-
Detectar Anomalies i Valors Faltants:
- Identificar dades mancants i estratègies per gestionar-les.
- Detectar anomalies que podrien afectar l'anàlisi.
-
Generar Hipòtesis Inicials:
- Desenvolupar hipòtesis basades en les observacions inicials.
- Preparar les dades per a anàlisis més profundes.
Tècniques i Eines per a l'AED
- Estadístiques Descriptives
Les estadístiques descriptives proporcionen un resum ràpid de les dades. Inclouen mesures com:
- Mitjana: Valor promig.
- Mediana: Valor central.
- Moda: Valor més freqüent.
- Desviació Estàndard: Mesura de la dispersió de les dades.
- Quartils: Divisió de les dades en quatre parts iguals.
Exemple en Python:
import pandas as pd # Carregar dades df = pd.read_csv('dades.csv') # Estadístiques descriptives estadistiques = df.describe() print(estadistiques)
- Visualització de Dades
Les visualitzacions ajuden a comprendre millor les dades. Algunes tècniques comunes inclouen:
- Histogrames: Per veure la distribució de les dades.
- Diagrames de Caixa (Box Plots): Per identificar valors atípics.
- Diagrames de Dispersió (Scatter Plots): Per analitzar relacions entre dues variables.
- Mapes de Calor (Heatmaps): Per visualitzar correlacions entre variables.
Exemple en Python amb Matplotlib i Seaborn:
import matplotlib.pyplot as plt import seaborn as sns # Histograma plt.figure(figsize=(10, 6)) sns.histplot(df['variable'], kde=True) plt.title('Histograma de Variable') plt.show() # Diagrama de Caixa plt.figure(figsize=(10, 6)) sns.boxplot(x=df['variable']) plt.title('Diagrama de Caixa de Variable') plt.show() # Diagrama de Dispersió plt.figure(figsize=(10, 6)) sns.scatterplot(x=df['variable1'], y=df['variable2']) plt.title('Diagrama de Dispersió entre Variable1 i Variable2') plt.show() # Mapa de Calor plt.figure(figsize=(10, 6)) sns.heatmap(df.corr(), annot=True, cmap='coolwarm') plt.title('Mapa de Calor de Correlacions') plt.show()
- Detecció de Valors Faltants
Identificar i gestionar valors faltants és crucial per evitar biaixos en l'anàlisi.
Exemple en Python:
# Identificar valors faltants valors_faltants = df.isnull().sum() print(valors_faltants) # Estratègies per gestionar valors faltants # 1. Eliminació de files amb valors faltants df_cleaned = df.dropna() # 2. Imputació de valors faltants (per exemple, amb la mitjana) df_imputed = df.fillna(df.mean())
Exercicis Pràctics
Exercici 1: Estadístiques Descriptives
- Carrega un conjunt de dades de la teva elecció.
- Calcula les estadístiques descriptives per a totes les variables numèriques.
- Interpreta els resultats.
Solució:
# Carregar dades df = pd.read_csv('dades.csv') # Estadístiques descriptives estadistiques = df.describe() print(estadistiques)
Exercici 2: Visualització de Dades
- Crea un histograma per a una variable numèrica.
- Crea un diagrama de caixa per a una altra variable numèrica.
- Crea un diagrama de dispersió per a dues variables numèriques.
- Crea un mapa de calor per visualitzar les correlacions entre les variables.
Solució:
# Histograma plt.figure(figsize=(10, 6)) sns.histplot(df['variable'], kde=True) plt.title('Histograma de Variable') plt.show() # Diagrama de Caixa plt.figure(figsize=(10, 6)) sns.boxplot(x=df['variable']) plt.title('Diagrama de Caixa de Variable') plt.show() # Diagrama de Dispersió plt.figure(figsize=(10, 6)) sns.scatterplot(x=df['variable1'], y=df['variable2']) plt.title('Diagrama de Dispersió entre Variable1 i Variable2') plt.show() # Mapa de Calor plt.figure(figsize=(10, 6)) sns.heatmap(df.corr(), annot=True, cmap='coolwarm') plt.title('Mapa de Calor de Correlacions') plt.show()
Exercici 3: Detecció de Valors Faltants
- Identifica els valors faltants en el conjunt de dades.
- Aplica una estratègia per gestionar els valors faltants (eliminació o imputació).
Solució:
# Identificar valors faltants valors_faltants = df.isnull().sum() print(valors_faltants) # Estratègies per gestionar valors faltants # 1. Eliminació de files amb valors faltants df_cleaned = df.dropna() # 2. Imputació de valors faltants (per exemple, amb la mitjana) df_imputed = df.fillna(df.mean())
Conclusió
L'anàlisi exploratori de dades és una etapa fonamental en qualsevol projecte de ciència de dades. Permet comprendre millor les dades, identificar problemes potencials i generar hipòtesis per a anàlisis més profundes. Utilitzant tècniques estadístiques i visuals, els professionals poden obtenir insights valuosos que guiaran les següents fases del projecte.
Processament de Dades Massives
Mòdul 1: Introducció al Processament de Dades Massives
Mòdul 2: Tecnologies d'Emmagatzematge
Mòdul 3: Tècniques de Processament
Mòdul 4: Eines i Plataformes
Mòdul 5: Optimització de l'Emmagatzematge i Processament
Mòdul 6: Anàlisi de Dades Massives
Mòdul 7: Casos d'Estudi i Aplicacions Pràctiques
- Cas d'Estudi 1: Anàlisi de Logs
- Cas d'Estudi 2: Recomendacions en Temps Real
- Cas d'Estudi 3: Monitoratge de Xarxes Socials