La neteja i preparació de dades és una etapa crítica en el procés d'analítica de negocis. Aquesta fase assegura que les dades utilitzades per a l'anàlisi siguin precises, coherents i útils. En aquest tema, explorarem els conceptes clau, tècniques i eines per a la neteja i preparació de dades.
Objectius d'Aprenentatge
Al final d'aquest tema, hauràs de ser capaç de:
- Comprendre la importància de la neteja de dades.
- Identificar i corregir errors comuns en les dades.
- Utilitzar tècniques i eines per a la neteja i preparació de dades.
Conceptes Clau
Importància de la Neteja de Dades
- Precisió: Les dades brutes poden contenir errors que afecten la precisió de l'anàlisi.
- Coherència: Dades inconsistents poden portar a conclusions errònies.
- Utilitat: Dades ben preparades són més fàcils d'analitzar i interpretar.
Errors Comuns en les Dades
- Valors Faltants: Dades incompletes que poden distorsionar els resultats.
- Duplicats: Registres repetits que poden inflar els resultats.
- Errors Tipogràfics: Errors de transcripció que poden afectar la qualitat de les dades.
- Inconsistències: Diferents formats o unitats per a la mateixa informació.
Tècniques de Neteja de Dades
Identificació de Valors Faltants
- Mètodes: Utilitzar funcions com
ISNULL()
oISNA()
en Excel, oisnull()
en Python. - Solucions: Omplir amb la mitjana, mediana, mode, o utilitzar tècniques d'imputació avançades.
Eliminació de Duplicats
- Mètodes: Utilitzar funcions com
Remove Duplicates
en Excel, odrop_duplicates()
en Python.
Correcció d'Errors Tipogràfics
- Mètodes: Utilitzar funcions de cerca i reemplaçament en Excel, o biblioteques com
fuzzywuzzy
en Python per a la coincidència difusa.
Normalització de Dades
- Mètodes: Convertir totes les dades a un format comú, per exemple, totes les dates en el format
YYYY-MM-DD
.
Eines per a la Neteja de Dades
Microsoft Excel
- Funcions:
CLEAN()
,TRIM()
,REMOVE DUPLICATES
,IFERROR()
. - Avantatges: Fàcil d'utilitzar, àmpliament disponible.
- Desavantatges: Limitat per a grans volums de dades.
Python
- Biblioteques:
pandas
,numpy
,fuzzywuzzy
. - Avantatges: Potent, flexible, adequat per a grans volums de dades.
- Desavantatges: Requereix coneixements de programació.
R
- Paquets:
dplyr
,tidyr
,stringr
. - Avantatges: Potent per a l'anàlisi estadística, adequat per a grans volums de dades.
- Desavantatges: Requereix coneixements de programació.
Exemple Pràctic
Neteja de Dades amb Python
import pandas as pd import numpy as np # Carregar dades df = pd.read_csv('dades.csv') # Identificar valors faltants print(df.isnull().sum()) # Omplir valors faltants amb la mitjana df.fillna(df.mean(), inplace=True) # Eliminar duplicats df.drop_duplicates(inplace=True) # Correcció d'errors tipogràfics df['nom'] = df['nom'].str.strip().str.lower() # Normalització de dates df['data'] = pd.to_datetime(df['data'], format='%Y-%m-%d') print(df.head())
Exercici Pràctic
Exercici 1: Neteja de Dades en Excel
- Carrega un conjunt de dades amb valors faltants, duplicats i errors tipogràfics.
- Utilitza les funcions
CLEAN()
,TRIM()
,REMOVE DUPLICATES
per netejar les dades. - Omple els valors faltants amb la mitjana de la columna corresponent.
Solució
- Carrega el fitxer
dades.xlsx
. - Selecciona la columna amb valors faltants i utilitza la funció
AVERAGE()
per calcular la mitjana. - Utilitza
IFERROR()
per omplir els valors faltants amb la mitjana. - Selecciona tota la taula i utilitza
REMOVE DUPLICATES
per eliminar duplicats. - Utilitza
CLEAN()
iTRIM()
per corregir errors tipogràfics.
Resum
En aquesta secció, hem après la importància de la neteja i preparació de dades, hem identificat errors comuns i hem explorat tècniques i eines per netejar les dades. La neteja de dades és un pas fonamental per assegurar que les anàlisis siguin precises i útils. En el proper tema, ens endinsarem en l'anàlisi descriptiu de les dades.
Curs d'Analítica de Negocis
Mòdul 1: Introducció a l'Analítica de Negocis
- Conceptes Bàsics d'Analítica de Negocis
- Importància de l'Analítica en les Operacions Comercials
- Tipus d'Analítica: Descriptiva, Predictiva i Prescriptiva
Mòdul 2: Eines d'Analítica de Negocis
- Introducció a les Eines d'Analítica
- Microsoft Excel per a Analítica de Negocis
- Tableau: Visualització de Dades
- Power BI: Anàlisi i Visualització
- Google Analytics: Anàlisi Web
Mòdul 3: Tècniques d'Anàlisi de Dades
- Neteja i Preparació de Dades
- Anàlisi Descriptiu: Resum i Visualització
- Anàlisi Predictiu: Models i Algoritmes
- Anàlisi Prescriptiu: Optimització i Simulació
Mòdul 4: Aplicacions de l'Analítica de Negocis
Mòdul 5: Implementació de Projectes d'Analítica
- Definició d'Objectius i KPIs
- Recopilació i Gestió de Dades
- Anàlisi i Modelatge de Dades
- Presentació de Resultats i Presa de Decisions
Mòdul 6: Cases Pràctics i Exercicis
- Cas Pràctic 1: Anàlisi de Vendes
- Cas Pràctic 2: Optimització d'Inventaris
- Exercici 1: Creació de Dashboards en Tableau
- Exercici 2: Anàlisi Predictiu amb Excel