La neteja i preparació de dades és una etapa fonamental en el procés d'anàlisi de dades. Aquest procés assegura que les dades utilitzades siguin precises, coherents i adequades per a l'anàlisi. Sense una neteja adequada, les conclusions extretes poden ser errònies o enganyoses.

Objectius de la Neteja i Preparació de Dades

  1. Eliminar Errors i Inconsistències: Corregir o eliminar dades incorrectes, incompletes o duplicades.
  2. Normalitzar Dades: Assegurar que les dades segueixin un format consistent.
  3. Transformar Dades: Convertir les dades en un format adequat per a l'anàlisi.
  4. Integrar Dades: Combinar dades de diferents fonts de manera coherent.

Passos en la Neteja i Preparació de Dades

  1. Recopilació de Dades

  • Fonts de Dades: Identificar i recopilar dades de diverses fonts com bases de dades, arxius CSV, APIs, etc.
  • Formats de Dades: Assegurar-se que les dades estiguin en formats compatibles per a la seva integració i anàlisi.

  1. Inspecció de Dades

  • Revisió Inicial: Examinar les dades per identificar errors evidents, valors nuls, duplicats i inconsistències.
  • Estadístiques Descriptives: Utilitzar estadístiques descriptives per obtenir una visió general de les dades (mitjana, mediana, desviació estàndard, etc.).

  1. Neteja de Dades

  • Eliminació de Duplicats: Identificar i eliminar registres duplicats.
  • Gestió de Valors Nuls: Tractar els valors nuls mitjançant tècniques com l'eliminació, imputació o substitució.
  • Correcció d'Errors: Corregir errors tipogràfics, valors fora de rang i altres anomalies.

  1. Transformació de Dades

  • Normalització: Convertir les dades a un format consistent (per exemple, convertir totes les dates a un format uniforme).
  • Escalatge: Ajustar les dades perquè estiguin en un rang específic (per exemple, escalar valors entre 0 i 1).
  • Codificació: Convertir dades categòriques en format numèric mitjançant tècniques com one-hot encoding.

  1. Integració de Dades

  • Unió de Dades: Combinar dades de diferents fonts en un únic conjunt de dades coherent.
  • Resolució de Conflictes: Gestionar conflictes entre dades de diferents fonts (per exemple, discrepàncies en noms o identificadors).

Eines per a la Neteja i Preparació de Dades

  • Excel/Google Sheets: Eines bàsiques per a la neteja i transformació de dades petites.
  • Python: Llibreries com Pandas, NumPy i Openpyxl per a la manipulació i neteja de dades.
  • R: Paquets com dplyr i tidyr per a la manipulació de dades.
  • ETL Tools: Eines com Talend, Informatica i Apache Nifi per a processos d'Extracció, Transformació i Càrrega (ETL).

Exemple Pràctic amb Python

A continuació, es presenta un exemple pràctic de neteja de dades utilitzant Python i la llibreria Pandas.

Exemple de Codi

import pandas as pd

# Carregar dades des d'un arxiu CSV
df = pd.read_csv('dades.csv')

# Inspeccionar les primeres files del DataFrame
print(df.head())

# Eliminar duplicats
df = df.drop_duplicates()

# Tractar valors nuls
# Imputar valors nuls amb la mitjana de la columna
df['columna_numerica'] = df['columna_numerica'].fillna(df['columna_numerica'].mean())

# Normalitzar dades (convertir totes les dates a un format uniforme)
df['data'] = pd.to_datetime(df['data'], format='%Y-%m-%d')

# Escalar dades (entre 0 i 1)
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df[['columna_numerica']] = scaler.fit_transform(df[['columna_numerica']])

# Codificar dades categòriques
df = pd.get_dummies(df, columns=['columna_categorica'])

# Guardar el DataFrame netejat a un nou arxiu CSV
df.to_csv('dades_netejades.csv', index=False)

print("Neteja de dades completada.")

Explicació del Codi

  1. Carregar Dades: Es carrega un arxiu CSV en un DataFrame de Pandas.
  2. Inspecció Inicial: Es mostren les primeres files del DataFrame per a una revisió inicial.
  3. Eliminació de Duplicats: Es eliminen registres duplicats.
  4. Tractament de Valors Nuls: Es imputen valors nuls amb la mitjana de la columna corresponent.
  5. Normalització de Dades: Es converteixen totes les dates a un format uniforme.
  6. Escalatge de Dades: Es escala una columna numèrica entre 0 i 1.
  7. Codificació de Dades Categòriques: Es converteixen columnes categòriques en variables dummy.
  8. Guardar Dades Netejades: Es guarda el DataFrame netejat en un nou arxiu CSV.

Exercici Pràctic

Exercici 1: Neteja de Dades amb Python

Descripció:

  • Carrega un arxiu CSV amb dades brutes.
  • Realitza els passos de neteja i transformació descrits anteriorment.
  • Guarda les dades netejades en un nou arxiu CSV.

Arxiu de Dades:

Solució

import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Carregar dades des d'un arxiu CSV
df = pd.read_csv('dades_brutes.csv')

# Inspeccionar les primeres files del DataFrame
print(df.head())

# Eliminar duplicats
df = df.drop_duplicates()

# Tractar valors nuls
df['columna_numerica'] = df['columna_numerica'].fillna(df['columna_numerica'].mean())

# Normalitzar dades (convertir totes les dates a un format uniforme)
df['data'] = pd.to_datetime(df['data'], format='%Y-%m-%d')

# Escalar dades (entre 0 i 1)
scaler = MinMaxScaler()
df[['columna_numerica']] = scaler.fit_transform(df[['columna_numerica']])

# Codificar dades categòriques
df = pd.get_dummies(df, columns=['columna_categorica'])

# Guardar el DataFrame netejat a un nou arxiu CSV
df.to_csv('dades_netejades.csv', index=False)

print("Neteja de dades completada.")

Resum

En aquesta secció, hem après la importància de la neteja i preparació de dades, els passos necessaris per dur a terme aquest procés i les eines que podem utilitzar. També hem vist un exemple pràctic utilitzant Python i la llibreria Pandas per netejar un conjunt de dades. La neteja de dades és un pas crucial per assegurar que les anàlisis posteriors siguin precises i fiables.

Curs d'Analytics: Eines i Tècniques per a la Presa de Decisions

Mòdul 1: Introducció a l'Analítica

Mòdul 2: Eines d'Analítica

Mòdul 3: Tècniques de Recopilació de Dades

Mòdul 4: Anàlisi de Dades

Mòdul 5: Interpretació de Dades i Presa de Decisions

Mòdul 6: Casos Pràctics i Exercicis

Mòdul 7: Avanços i Tendències en Analítica

Mòdul 8: Recursos Addicionals i Certificacions

© Copyright 2024. Tots els drets reservats