La neteja i preparació de dades és una etapa crítica en el procés d'analítica de negocis. Aquesta fase assegura que les dades utilitzades per a l'anàlisi siguin precises, coherents i útils. En aquest tema, explorarem els conceptes clau, tècniques i eines per a la neteja i preparació de dades.
Objectius d'Aprenentatge
Al final d'aquest tema, hauràs de ser capaç de:
- Comprendre la importància de la neteja de dades.
- Identificar i corregir errors comuns en les dades.
- Utilitzar tècniques i eines per a la neteja i preparació de dades.
Conceptes Clau
Importància de la Neteja de Dades
- Precisió: Les dades brutes poden contenir errors que afecten la precisió de l'anàlisi.
- Coherència: Dades inconsistents poden portar a conclusions errònies.
- Utilitat: Dades ben preparades són més fàcils d'analitzar i interpretar.
Errors Comuns en les Dades
- Valors Faltants: Dades incompletes que poden distorsionar els resultats.
- Duplicats: Registres repetits que poden inflar els resultats.
- Errors Tipogràfics: Errors de transcripció que poden afectar la qualitat de les dades.
- Inconsistències: Diferents formats o unitats per a la mateixa informació.
Tècniques de Neteja de Dades
Identificació de Valors Faltants
- Mètodes: Utilitzar funcions com
ISNULL()oISNA()en Excel, oisnull()en Python. - Solucions: Omplir amb la mitjana, mediana, mode, o utilitzar tècniques d'imputació avançades.
Eliminació de Duplicats
- Mètodes: Utilitzar funcions com
Remove Duplicatesen Excel, odrop_duplicates()en Python.
Correcció d'Errors Tipogràfics
- Mètodes: Utilitzar funcions de cerca i reemplaçament en Excel, o biblioteques com
fuzzywuzzyen Python per a la coincidència difusa.
Normalització de Dades
- Mètodes: Convertir totes les dades a un format comú, per exemple, totes les dates en el format
YYYY-MM-DD.
Eines per a la Neteja de Dades
Microsoft Excel
- Funcions:
CLEAN(),TRIM(),REMOVE DUPLICATES,IFERROR(). - Avantatges: Fàcil d'utilitzar, àmpliament disponible.
- Desavantatges: Limitat per a grans volums de dades.
Python
- Biblioteques:
pandas,numpy,fuzzywuzzy. - Avantatges: Potent, flexible, adequat per a grans volums de dades.
- Desavantatges: Requereix coneixements de programació.
R
- Paquets:
dplyr,tidyr,stringr. - Avantatges: Potent per a l'anàlisi estadística, adequat per a grans volums de dades.
- Desavantatges: Requereix coneixements de programació.
Exemple Pràctic
Neteja de Dades amb Python
import pandas as pd
import numpy as np
# Carregar dades
df = pd.read_csv('dades.csv')
# Identificar valors faltants
print(df.isnull().sum())
# Omplir valors faltants amb la mitjana
df.fillna(df.mean(), inplace=True)
# Eliminar duplicats
df.drop_duplicates(inplace=True)
# Correcció d'errors tipogràfics
df['nom'] = df['nom'].str.strip().str.lower()
# Normalització de dates
df['data'] = pd.to_datetime(df['data'], format='%Y-%m-%d')
print(df.head())Exercici Pràctic
Exercici 1: Neteja de Dades en Excel
- Carrega un conjunt de dades amb valors faltants, duplicats i errors tipogràfics.
- Utilitza les funcions
CLEAN(),TRIM(),REMOVE DUPLICATESper netejar les dades. - Omple els valors faltants amb la mitjana de la columna corresponent.
Solució
- Carrega el fitxer
dades.xlsx. - Selecciona la columna amb valors faltants i utilitza la funció
AVERAGE()per calcular la mitjana. - Utilitza
IFERROR()per omplir els valors faltants amb la mitjana. - Selecciona tota la taula i utilitza
REMOVE DUPLICATESper eliminar duplicats. - Utilitza
CLEAN()iTRIM()per corregir errors tipogràfics.
Resum
En aquesta secció, hem après la importància de la neteja i preparació de dades, hem identificat errors comuns i hem explorat tècniques i eines per netejar les dades. La neteja de dades és un pas fonamental per assegurar que les anàlisis siguin precises i útils. En el proper tema, ens endinsarem en l'anàlisi descriptiu de les dades.
Curs d'Analítica de Negocis
Mòdul 1: Introducció a l'Analítica de Negocis
- Conceptes Bàsics d'Analítica de Negocis
- Importància de l'Analítica en les Operacions Comercials
- Tipus d'Analítica: Descriptiva, Predictiva i Prescriptiva
Mòdul 2: Eines d'Analítica de Negocis
- Introducció a les Eines d'Analítica
- Microsoft Excel per a Analítica de Negocis
- Tableau: Visualització de Dades
- Power BI: Anàlisi i Visualització
- Google Analytics: Anàlisi Web
Mòdul 3: Tècniques d'Anàlisi de Dades
- Neteja i Preparació de Dades
- Anàlisi Descriptiu: Resum i Visualització
- Anàlisi Predictiu: Models i Algoritmes
- Anàlisi Prescriptiu: Optimització i Simulació
Mòdul 4: Aplicacions de l'Analítica de Negocis
Mòdul 5: Implementació de Projectes d'Analítica
- Definició d'Objectius i KPIs
- Recopilació i Gestió de Dades
- Anàlisi i Modelatge de Dades
- Presentació de Resultats i Presa de Decisions
Mòdul 6: Cases Pràctics i Exercicis
- Cas Pràctic 1: Anàlisi de Vendes
- Cas Pràctic 2: Optimització d'Inventaris
- Exercici 1: Creació de Dashboards en Tableau
- Exercici 2: Anàlisi Predictiu amb Excel
