Introducció

L'anàlisi descriptiu és una tècnica fonamental en l'anàlisi de dades que se centra en resumir i descriure les característiques principals d'un conjunt de dades. Aquesta tècnica és essencial per comprendre les dades abans de passar a anàlisis més complexes com l'anàlisi predictiu o prescriptiu.

Objectius de l'Anàlisi Descriptiu

  • Resumir dades: Proporcionar una visió general de les dades mitjançant mesures estadístiques.
  • Identificar patrons: Detectar tendències i patrons dins del conjunt de dades.
  • Facilitar la comprensió: Ajudar els stakeholders a comprendre les dades de manera clara i concisa.

Conceptes Clau

Mesures de Tendència Central

  • Mitjana: La suma de tots els valors dividida pel nombre de valors.
  • Mediana: El valor central quan els valors estan ordenats.
  • Moda: El valor que apareix amb més freqüència.

Mesures de Dispersió

  • Rang: La diferència entre el valor màxim i el valor mínim.
  • Desviació Estàndard: Una mesura de la quantitat de variació o dispersió dels valors.
  • Variança: La mitjana dels quadrats de les diferències entre cada valor i la mitjana.

Visualització de Dades

  • Gràfics de Barres: Utilitzats per comparar diferents categories.
  • Histogrames: Mostren la distribució de les dades.
  • Diagrames de Caixa i Bigotis (Box Plots): Representen la distribució de les dades mitjançant quarts.

Exemple Pràctic

Suposem que tenim un conjunt de dades sobre les vendes mensuals d'una empresa durant un any. Les dades són les següents (en milers d'euros):

Mes Vendes
Gener 50
Febrer 45
Març 60
Abril 55
Maig 70
Juny 65
Juliol 80
Agost 75
Setembre 85
Octubre 90
Novembre 95
Desembre 100

Càlcul de Mesures de Tendència Central

  • Mitjana: \[ \text{Mitjana} = \frac{50 + 45 + 60 + 55 + 70 + 65 + 80 + 75 + 85 + 90 + 95 + 100}{12} = 71.25 \]

  • Mediana: Ordenant les vendes: 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 \[ \text{Mediana} = \frac{70 + 75}{2} = 72.5 \]

  • Moda: En aquest cas, no hi ha cap valor que es repeteixi, així que no hi ha moda.

Càlcul de Mesures de Dispersió

  • Rang: \[ \text{Rang} = 100 - 45 = 55 \]

  • Desviació Estàndard: \[ \text{Desviació Estàndard} = \sqrt{\frac{\sum (x_i - \text{Mitjana})^2}{N}} = \sqrt{\frac{(50-71.25)^2 + (45-71.25)^2 + \ldots + (100-71.25)^2}{12}} \approx 18.79 \]

Visualització de Dades

  • Gràfic de Barres:
Gener:    50
Febrer:   45
Març:     60
Abril:    55
Maig:     70
Juny:     65
Juliol:   80
Agost:    75
Setembre: 85
Octubre:  90
Novembre: 95
Desembre: 100
  • Histograma:
45-55: ***
55-65: ***
65-75: ***
75-85: ***
85-95: ***
95-105: **
  • Diagrama de Caixa i Bigotis:
|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|
45    50    55    60    65    70    75    80    85    90    95    100

Exercici Pràctic

Exercici 1: Càlcul de Mesures de Tendència Central i Dispersió

Utilitzant el següent conjunt de dades sobre les vendes trimestrals d'una empresa (en milers d'euros), calcula la mitjana, la mediana, la moda, el rang, la desviació estàndard i la variància.

Trimestre Vendes
Q1 200
Q2 220
Q3 210
Q4 230

Solució

  • Mitjana: \[ \text{Mitjana} = \frac{200 + 220 + 210 + 230}{4} = 215 \]

  • Mediana: Ordenant les vendes: 200, 210, 220, 230 \[ \text{Mediana} = \frac{210 + 220}{2} = 215 \]

  • Moda: No hi ha moda, ja que no hi ha cap valor que es repeteixi.

  • Rang: \[ \text{Rang} = 230 - 200 = 30 \]

  • Desviació Estàndard: \[ \text{Desviació Estàndard} = \sqrt{\frac{(200-215)^2 + (220-215)^2 + (210-215)^2 + (230-215)^2}{4}} \approx 12.91 \]

  • Variància: \[ \text{Variància} = \frac{(200-215)^2 + (220-215)^2 + (210-215)^2 + (230-215)^2}{4} = 166.67 \]

Conclusió

L'anàlisi descriptiu és una eina poderosa per resumir i comprendre les dades. Mitjançant l'ús de mesures de tendència central i dispersió, així com tècniques de visualització de dades, podem obtenir una visió clara i concisa de les dades, la qual cosa és essencial per a la presa de decisions informades.

© Copyright 2024. Tots els drets reservats