Introducció

L'anàlisi estadística és una part fonamental de l'analítica de dades, ja que permet extreure informació significativa de les dades recopilades. Aquest mòdul proporcionarà una introducció als conceptes bàsics de l'estadística i com aplicar-los per analitzar dades de manera efectiva.

Objectius

  • Entendre els conceptes bàsics de l'estadística.
  • Aprendre a calcular i interpretar mesures de tendència central i dispersió.
  • Familiaritzar-se amb les tècniques de visualització de dades estadístiques.
  • Aplicar tècniques estadístiques bàsiques per analitzar dades reals.

Contingut

  1. Conceptes Bàsics d'Estadística

1.1. Tipus de Dades

  • Dades Qualitatives: Dades que descriuen qualitats o categories (ex. colors, tipus de producte).
  • Dades Quantitatives: Dades numèriques que poden ser mesurades (ex. ingressos, nombre de visites).

1.2. Mesures de Tendència Central

  • Mitjana (Promig): La suma de tots els valors dividida pel nombre de valors.
  • Mediana: El valor central quan els valors estan ordenats.
  • Moda: El valor que apareix amb més freqüència.
# Exemple en Python per calcular la mitjana, mediana i moda
import numpy as np
from scipy import stats

dades = [1, 2, 2, 3, 4, 7, 9]

mitjana = np.mean(dades)
mediana = np.median(dades)
moda = stats.mode(dades)

print(f"Mitjana: {mitjana}, Mediana: {mediana}, Moda: {moda.mode[0]}")

1.3. Mesures de Dispersió

  • Rang: La diferència entre el valor màxim i el valor mínim.
  • Desviació Estàndard: Una mesura de la quantitat de variació o dispersió dels valors.
  • Variança: La mitjana dels quadrats de les diferències respecte a la mitjana.
# Exemple en Python per calcular el rang, desviació estàndard i variança
rang = np.ptp(dades)
desviacio_estandard = np.std(dades)
varianca = np.var(dades)

print(f"Rang: {rang}, Desviació Estàndard: {desviacio_estandard}, Variança: {varianca}")

  1. Visualització de Dades Estadístiques

2.1. Histogrammes

Un histograma és una representació gràfica de la distribució de dades numèriques.

import matplotlib.pyplot as plt

plt.hist(dades, bins=5, edgecolor='black')
plt.title('Histograma de Dades')
plt.xlabel('Valors')
plt.ylabel('Freqüència')
plt.show()

2.2. Box Plots

Un box plot (diagrama de caixa) mostra la distribució de dades basant-se en un resum de cinc nombres: mínim, primer quartil, mediana, tercer quartil i màxim.

plt.boxplot(dades)
plt.title('Box Plot de Dades')
plt.ylabel('Valors')
plt.show()

  1. Aplicació de Tècniques Estadístiques

3.1. Anàlisi de Correlació

La correlació mesura la força i la direcció de la relació lineal entre dues variables.

# Exemple en Python per calcular la correlació
dades_x = [1, 2, 3, 4, 5]
dades_y = [2, 4, 5, 4, 5]

correlacio = np.corrcoef(dades_x, dades_y)[0, 1]
print(f"Correlació: {correlacio}")

3.2. Regressió Lineal

La regressió lineal és una tècnica per modelar la relació entre una variable dependent i una o més variables independents.

from sklearn.linear_model import LinearRegression

# Dades d'exemple
X = np.array(dades_x).reshape(-1, 1)
y = np.array(dades_y)

# Crear el model de regressió lineal
model = LinearRegression()
model.fit(X, y)

# Prediccions
prediccions = model.predict(X)

plt.scatter(dades_x, dades_y, color='blue')
plt.plot(dades_x, prediccions, color='red')
plt.title('Regressió Lineal')
plt.xlabel('X')
plt.ylabel('Y')
plt.show()

Exercicis Pràctics

Exercici 1: Càlcul de Mesures de Tendència Central i Dispersió

Dades: [3, 7, 8, 5, 12, 14, 21, 13, 18]

  1. Calcula la mitjana, mediana i moda.
  2. Calcula el rang, desviació estàndard i variança.

Solució:

dades = [3, 7, 8, 5, 12, 14, 21, 13, 18]

# Mesures de tendència central
mitjana = np.mean(dades)
mediana = np.median(dades)
moda = stats.mode(dades)

# Mesures de dispersió
rang = np.ptp(dades)
desviacio_estandard = np.std(dades)
varianca = np.var(dades)

print(f"Mitjana: {mitjana}, Mediana: {mediana}, Moda: {moda.mode[0]}")
print(f"Rang: {rang}, Desviació Estàndard: {desviacio_estandard}, Variança: {varianca}")

Exercici 2: Visualització de Dades

Utilitza les dades de l'exercici anterior per crear un histograma i un box plot.

Solució:

# Histograma
plt.hist(dades, bins=5, edgecolor='black')
plt.title('Histograma de Dades')
plt.xlabel('Valors')
plt.ylabel('Freqüència')
plt.show()

# Box Plot
plt.boxplot(dades)
plt.title('Box Plot de Dades')
plt.ylabel('Valors')
plt.show()

Resum

En aquest mòdul, hem après els conceptes bàsics de l'estadística, incloent les mesures de tendència central i dispersió, així com tècniques de visualització de dades. També hem aplicat tècniques estadístiques bàsiques com l'anàlisi de correlació i la regressió lineal per analitzar dades reals. Aquestes habilitats són fonamentals per interpretar dades i prendre decisions informades basades en l'anàlisi estadística.

Curs d'Analytics: Eines i Tècniques per a la Presa de Decisions

Mòdul 1: Introducció a l'Analítica

Mòdul 2: Eines d'Analítica

Mòdul 3: Tècniques de Recopilació de Dades

Mòdul 4: Anàlisi de Dades

Mòdul 5: Interpretació de Dades i Presa de Decisions

Mòdul 6: Casos Pràctics i Exercicis

Mòdul 7: Avanços i Tendències en Analítica

Mòdul 8: Recursos Addicionals i Certificacions

© Copyright 2024. Tots els drets reservats