Introducció
L'anàlisi estadística és una part fonamental de l'analítica de dades, ja que permet extreure informació significativa de les dades recopilades. Aquest mòdul proporcionarà una introducció als conceptes bàsics de l'estadística i com aplicar-los per analitzar dades de manera efectiva.
Objectius
- Entendre els conceptes bàsics de l'estadística.
- Aprendre a calcular i interpretar mesures de tendència central i dispersió.
- Familiaritzar-se amb les tècniques de visualització de dades estadístiques.
- Aplicar tècniques estadístiques bàsiques per analitzar dades reals.
Contingut
- Conceptes Bàsics d'Estadística
1.1. Tipus de Dades
- Dades Qualitatives: Dades que descriuen qualitats o categories (ex. colors, tipus de producte).
- Dades Quantitatives: Dades numèriques que poden ser mesurades (ex. ingressos, nombre de visites).
1.2. Mesures de Tendència Central
- Mitjana (Promig): La suma de tots els valors dividida pel nombre de valors.
- Mediana: El valor central quan els valors estan ordenats.
- Moda: El valor que apareix amb més freqüència.
# Exemple en Python per calcular la mitjana, mediana i moda import numpy as np from scipy import stats dades = [1, 2, 2, 3, 4, 7, 9] mitjana = np.mean(dades) mediana = np.median(dades) moda = stats.mode(dades) print(f"Mitjana: {mitjana}, Mediana: {mediana}, Moda: {moda.mode[0]}")
1.3. Mesures de Dispersió
- Rang: La diferència entre el valor màxim i el valor mínim.
- Desviació Estàndard: Una mesura de la quantitat de variació o dispersió dels valors.
- Variança: La mitjana dels quadrats de les diferències respecte a la mitjana.
# Exemple en Python per calcular el rang, desviació estàndard i variança rang = np.ptp(dades) desviacio_estandard = np.std(dades) varianca = np.var(dades) print(f"Rang: {rang}, Desviació Estàndard: {desviacio_estandard}, Variança: {varianca}")
- Visualització de Dades Estadístiques
2.1. Histogrammes
Un histograma és una representació gràfica de la distribució de dades numèriques.
import matplotlib.pyplot as plt plt.hist(dades, bins=5, edgecolor='black') plt.title('Histograma de Dades') plt.xlabel('Valors') plt.ylabel('Freqüència') plt.show()
2.2. Box Plots
Un box plot (diagrama de caixa) mostra la distribució de dades basant-se en un resum de cinc nombres: mínim, primer quartil, mediana, tercer quartil i màxim.
- Aplicació de Tècniques Estadístiques
3.1. Anàlisi de Correlació
La correlació mesura la força i la direcció de la relació lineal entre dues variables.
# Exemple en Python per calcular la correlació dades_x = [1, 2, 3, 4, 5] dades_y = [2, 4, 5, 4, 5] correlacio = np.corrcoef(dades_x, dades_y)[0, 1] print(f"Correlació: {correlacio}")
3.2. Regressió Lineal
La regressió lineal és una tècnica per modelar la relació entre una variable dependent i una o més variables independents.
from sklearn.linear_model import LinearRegression # Dades d'exemple X = np.array(dades_x).reshape(-1, 1) y = np.array(dades_y) # Crear el model de regressió lineal model = LinearRegression() model.fit(X, y) # Prediccions prediccions = model.predict(X) plt.scatter(dades_x, dades_y, color='blue') plt.plot(dades_x, prediccions, color='red') plt.title('Regressió Lineal') plt.xlabel('X') plt.ylabel('Y') plt.show()
Exercicis Pràctics
Exercici 1: Càlcul de Mesures de Tendència Central i Dispersió
Dades: [3, 7, 8, 5, 12, 14, 21, 13, 18]
- Calcula la mitjana, mediana i moda.
- Calcula el rang, desviació estàndard i variança.
Solució:
dades = [3, 7, 8, 5, 12, 14, 21, 13, 18] # Mesures de tendència central mitjana = np.mean(dades) mediana = np.median(dades) moda = stats.mode(dades) # Mesures de dispersió rang = np.ptp(dades) desviacio_estandard = np.std(dades) varianca = np.var(dades) print(f"Mitjana: {mitjana}, Mediana: {mediana}, Moda: {moda.mode[0]}") print(f"Rang: {rang}, Desviació Estàndard: {desviacio_estandard}, Variança: {varianca}")
Exercici 2: Visualització de Dades
Utilitza les dades de l'exercici anterior per crear un histograma i un box plot.
Solució:
# Histograma plt.hist(dades, bins=5, edgecolor='black') plt.title('Histograma de Dades') plt.xlabel('Valors') plt.ylabel('Freqüència') plt.show() # Box Plot plt.boxplot(dades) plt.title('Box Plot de Dades') plt.ylabel('Valors') plt.show()
Resum
En aquest mòdul, hem après els conceptes bàsics de l'estadística, incloent les mesures de tendència central i dispersió, així com tècniques de visualització de dades. També hem aplicat tècniques estadístiques bàsiques com l'anàlisi de correlació i la regressió lineal per analitzar dades reals. Aquestes habilitats són fonamentals per interpretar dades i prendre decisions informades basades en l'anàlisi estadística.
Curs d'Analytics: Eines i Tècniques per a la Presa de Decisions
Mòdul 1: Introducció a l'Analítica
- Conceptes Bàsics d'Analítica
- Importància de l'Analítica en la Presa de Decisions
- Tipus d'Analítica: Descriptiva, Predictiva i Prescriptiva
Mòdul 2: Eines d'Analítica
- Google Analytics: Configuració i Ús Bàsic
- Google Tag Manager: Implementació i Gestió d'Etiquetes
- Eines d'Analítica de Xarxes Socials
- Plataformes d'Analítica de Màrqueting: HubSpot, Marketo
Mòdul 3: Tècniques de Recopilació de Dades
- Mètodes de Recopilació de Dades: Enquestes, Formularis, Cookies
- Integració de Dades des de Diferents Fonts
- Ús d'APIs per a la Recopilació de Dades
Mòdul 4: Anàlisi de Dades
- Neteja i Preparació de Dades
- Anàlisi Exploratori de Dades (EDA)
- Visualització de Dades: Eines i Millors Pràctiques
- Anàlisi Estadística Bàsica
Mòdul 5: Interpretació de Dades i Presa de Decisions
- Interpretació de Resultats
- Presa de Decisions Basada en Dades
- Optimització de Llocs Web i Aplicacions
- Mesura i Optimització de Campanyes de Màrqueting
Mòdul 6: Casos Pràctics i Exercicis
- Cas Pràctic 1: Anàlisi de Trànsit Web
- Cas Pràctic 2: Optimització d'una Campanya de Màrqueting
- Exercici 1: Creació d'un Dashboard a Google Data Studio
- Exercici 2: Implementació de Google Tag Manager en un Lloc Web
Mòdul 7: Avanços i Tendències en Analítica
- Intel·ligència Artificial i Machine Learning en Analítica
- Analítica Predictiva: Eines i Aplicacions
- Tendències Futures en Analítica